因为微博工具箱暂时无法满足项目对于数据的需求,自己做了一个微博关键词爬取的规则,使用相同规则、相同线索,通过新版本客户端(8.6.4)的单搜和旧版本客户端(8.6.0)的爬虫群功能均能实现完整地爬取,但是使用新版本客户端的爬虫群功能爬取时却出现线索页面显示不全、翻页不全的问题,请问这是什么原因造成的?



捕获.PNG (27.77 KB, 下载次数: 755)

完整数据

完整数据

捕获.PNG (5.13 KB, 下载次数: 776)

使用爬虫群得到的数据,只有第一页内容

使用爬虫群得到的数据,只有第一页内容

捕获.PNG (16.92 KB, 下载次数: 784)

页面显示不完整

页面显示不完整
举报 使用道具
| 回复

共 6 个关于本帖的回复 最后回复于 2020-11-25 15:45

来自 7#
wangyong 版主 发表于 2020-11-25 15:45:28 | 只看该作者
爬微博关键词搜索数据可以直接用微博工具箱中的微博关键词搜索工具,下载数据管家后,进入微博关键词搜索工具页面

输入要采集的微博关键词,启动采集,除输入关键词外还可以设置采集起止时间和设置细分时间段,来突破一次搜索只能显示前五十页数据的条件,细分条件后,爬虫会按照条件自动设置多个搜索


待采集完成后即可打包下载数据,整个流程不需要任何开发,只需要按照步骤输入关键词和启动爬虫软件就可以采集的数据了,非常方便好用。


举报 使用道具
沙发
Fuller 管理员 发表于 2018-5-4 23:12:18 | 只看该作者
规则名是什么?
举报 使用道具
板凳
Nina_W20 初级会员 发表于 2018-5-4 23:21:16 | 只看该作者
Fuller 发表于 2018-5-4 23:12
规则名是什么?

自我损耗_测试
举报 使用道具
地板
Nina_W20 初级会员 发表于 2018-5-4 23:25:59 | 只看该作者

以及 我在另一个电脑上爬别的数据,跳出显示“运行的爬虫数超出限额”,可是已购买旗舰版且只登陆过4台电脑。
举报 使用道具
5#
Fuller 管理员 发表于 2018-5-4 23:51:25 | 只看该作者
Nina_W20 发表于 2018-5-4 23:25
以及 我在另一个电脑上爬别的数据,跳出显示“运行的爬虫数超出限额”,可是已购买旗舰版且只登陆过4台电 ...

很抱歉我们的服务器程序在判断配额的时候有bug,我们正在解决这个问题,我已为您调整了配额
举报 使用道具
6#
Nina_W20 初级会员 发表于 2018-5-5 15:09:46 | 只看该作者
Fuller 发表于 2018-5-4 23:12
规则名是什么?

请问您在后台有发现这是什么原因造成的问题了吗?
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 16:37