如何用Python网络爬虫获取头条所有好友信息？

资讯 3年前

1.65K

前言大家好，我是黄伟。今日头条我发觉做的挺不错，啥都不好爬，出于好奇心的驱使，小编想获取到自己所有的头条好友，看似简单，那么情况确实是这样吗，下面我们来看下吧。项目目标获取所有头条好友昵称项目实践编辑

如何用Python网络爬虫获取头条所有好友信息？

前言

大家好，我是黄伟。今日头条我发觉做的挺不错，啥都不好爬，出于好奇心的驱使，小编想获取到自己所有的头条好友，

看似简单，那么情况确实是这样吗，下面我们来看下吧。

项目目标

获取所有头条好友昵称

项目实践

编辑器：sublime text 3

浏览器：360浏览器，顺带一个头条号

实验步骤1．登陆自己的头条号：

可以看到2599，不知道谁会是下一个幸运观众了，哈哈哈哈哈，下面我们老样子，打开浏览器，因为我们是要获取到所有的好友啊，所以我们得先进入粉丝列表看看有哪些粉丝吧：

然后右键－－审查元素，来一波骚操作，定位粉丝的位置：

接下来我们要做的就是获取粉丝的昵称，从上面的图可以看出我余下的粉丝都隐藏在ajax加载的动态页面中，如果我不进行滚动则看不到后面的粉丝，那怎么办呢？不过不要紧，遇到问题先不慌，淡定。

2．查找粉丝列表的接口

打开network：

然后你会发现有很多get＿info＿list 中文译为获取信息列表，我想这应该很重要，打开一看：

妈妈耶，这啥玩意，吓得我都不会说话了。

3．加载所有请求

于是只好满满滚动鼠标滚轮期待发现点什么，终于，功夫不负苦心人，终于让我滚到了有用的结果：

于是我在看看它的头部信息，有重大发现：

4．找接口分析内容，转换Unicode

可以看到用户的昵称使用Unicode码表示，所以我们需要将他们转换为中文，关于Unicode转中文，两种方法：

ss＝＇u4e00u8defu5411u897f8635＇print（（ss．encode（＇utf8＇））．decode（））print（eval（＇u＂％s＂＇％ ss））

没毛病，老铁。

5．获取页面文件

那我们现在就要获取这个页面的所有结果啦：

发现既然和结果不一样，这是什么骚操作，好吧，我服了。

6．对页面数据进行猜解

通过对上上个图的反复分析，我发现一个很重要的信息，那就是pagesize的值就等于当前页面所显示的粉丝的数量，那小编有2599个粉丝，那pagesize不就是2599吗？哈哈，说干就干：

然后小编不断对页面的粉丝进行请求：

发现还是不行啊，跟我们想的背道而驰，在试试，发现最多只有200才行的通：

其实这个情况下，已经捕捉到所有请求了，只是那些粉丝每28个粉丝分为一个请求，而且每个请求的时间戳不一，其实我们可以用三方软件来捕获这些请求响应然后将他们加入到程序中，我们好对他们进行一个请求分析，最后将他们保存为json格式的文件，然后我们获取到他们对应的值。

7．打印粉丝名称和响应正常的网址

我们还可以将所有请求中cursor最小的值和最大值拿出来分析，通过查找我找到，

cursor取值：1570591241～1589072863

这个信息很重要，接下来我们就可以依次对这些cursor构建请求了：

我们将所有能成功请求的页面信息输入到1．txt 文件中去，然后我们在对1．txt中的网页内容逐个读取。然后我们获取他们的json文件保存下来，最后直接把他读取出来就ok啦。由于时间的关系，在此我只演示上图中出现的两百条信息，我们把它保存为json文件然后用json 模块进行读取：

json是系统自带的模块，所以直接导入json模块并读取文件：

终于全部打印出来啦，哈哈哈，然后我们就可以去获取我们自己关注了哪些人，如果有人把我们取消关注了，那么我们也相应取消对他们的关注。通过一段时间的爬取，终于爬的差不多了，不过我想应该没有爬完，因为网站有反爬：

项目总结

通过对今日头条ajax和一些加密数据的一些情况使我认识到爬虫这条路真的很远，不学js逆向是不可能的。希望大家多多学习，学无止境的。

# Python # 网络爬虫 # 头条 # 好友信息

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

人工智能领域一周投融资汇总

1019

社交软件FlirtAR获150万美元融资

1077

智能还是“智障”？云鲸扫地机器人“咬”尾巴，能否讲出新故事

0

ChatGPT，没出现在中国，因为GPU芯片落后美国10年？

1954

阿里云被曝裁员7%，阿里“二次创业”进行

1017

一文了解Siamese network

1830

有冇SmartoneAI，致力于通过分享全球优质AI工具、资源和资讯，帮助大家更早地、更好地了解和使用AI，让AI成为你的得力助手，工作更高效，生活更轻松。按下Ctrl+D或⌘+D收藏本站~

免责声明广告合作关于我们

本站内容源自互联网，如有内容侵犯了你的权益，请联系删除相关内容，联系邮箱：youmao@neone.com.cn
© 2010 - 2024 | 沪ICP备16045468号-5