31#
ml1691221 初级会员 发表于 2016-3-2 11:46:39 | 只看该作者
我充值下载了。。但还有一个问题是会出现重复的xml文件,我设置的是翻页4次也就是一个用户爬取5页,有5个文件。爬虫群里设置容忍度为100%结果5个文件是一样的,翻页没成功。设置为98%结果5个文件里有3个是一样。我想问问是不是翻页定位的不太好,会出现翻页翻不过去或者翻到了上一页导致重复出现,使得最后爬虫结束?
举报 使用道具
32#
shenzhenwan9 中级会员 发表于 2016-3-2 12:08:45 | 只看该作者
微博的爬取,和登录的账号有关
举报 使用道具
33#
gz51837844 管理员 发表于 2016-3-2 12:12:55 | 只看该作者
如果是批量导入自己拼接的网址,可能会有错误
因为微博博主网址的格式有多种
举报 使用道具
34#
Fuller 管理员 发表于 2016-3-2 14:47:34 | 只看该作者
ml1691221 发表于 2016-3-2 11:46
我充值下载了。。但还有一个问题是会出现重复的xml文件,我设置的是翻页4次也就是一个用户爬取5页,有5个文 ...


请注意这个容忍度是“下级线索”的,如果定义了下级线索,抓取本级的时候会为下级生成线索,也就是网址,会比较新抓到的网址是不是以前都已经抓到过,这就计算出了重复率。


如果只抓内容,这个重复率是没有用的。要用“重复内容中断”。


翻页到底有没有效,观察一下DS打数机的浏览器,微博翻页规则有点难做,要多调试一下。翻页采集有专门一个专辑:http://www.gooseeker.com/doc/thread-698-1-1.html


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
35#
ml1691221 初级会员 发表于 2016-3-2 15:42:50 | 只看该作者
Fuller 发表于 2016-3-2 14:47
请注意这个容忍度是“下级线索”的,如果定义了下级线索,抓取本级的时候会为下级生成线索,也就是网址 ...

规则是我下下来的,就是资源区里300积分的那个。
完了我观察了好几次,有时候就是第一页翻到第二页成功了,然后就第二页抓了3次,然后翻页到第三页,抓取成功。但这样我实际上拿到了3页的数据。
但如果我设置容忍度到100%,抓取了5页一样的内容。
今天上午和客服沟通了一下。
我下午自己也测试了,结果是有的用户能够抓取完全,但有的用户只能抓取一部分。
能麻烦客服给我想想办法么
举报 使用道具
36#
Fuller 管理员 发表于 2016-3-2 15:56:29 | 只看该作者
ml1691221 发表于 2016-3-2 15:42
规则是我下下来的,就是资源区里300积分的那个。
完了我观察了好几次,有时候就是第一页翻到第二页成功了 ...

我同事说你拼接出来的网址,那样的网址似乎不太正确
举报 使用道具
37#
shenzhenwan9 中级会员 发表于 2016-3-2 16:27:56 | 只看该作者
本帖最后由 shenzhenwan9 于 2016-3-2 16:31 编辑

上传一张“新浪微博_博主主页" 爬虫调度的参数截图,给大家参考。
如果实际抓取时因为网速或电脑性能没有滚屏到底的话,可以调大“滚屏次数”这个参数。
图片只能是已登录用户在社区的资源发布公告里才能看到,链接是 http://www.gooseeker.com/doc/thread-204-4-1.html



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
举报 使用道具
38#
ml1691221 初级会员 发表于 2016-3-2 19:59:06 | 只看该作者
Fuller 发表于 2016-3-2 15:56
我同事说你拼接出来的网址,那样的网址似乎不太正确

http://weibo.com/u/1748277610?is_all=1#_0
http://weibo.com/u/1870722257?is_all=1#_0
http://weibo.com/u/1872032497?is_all=1#_0
http://weibo.com/u/1886861621?is_all=1#_0
我在QQ上手打给他的,完了中文英文不大好切换,所以出现点错误
他帮了我很多!
举报 使用道具
39#
Fuller 管理员 发表于 2016-3-2 21:14:56 | 只看该作者
ml1691221 发表于 2016-3-2 19:59
http://weibo.com/u/1748277610?is_all=1#_0
http://weibo.com/u/1870722257?is_all=1#_0
http://weibo.c ...

现在还抓取不了?
举报 使用道具
40#
ml1691221 初级会员 发表于 2016-3-3 10:18:50 | 只看该作者
Fuller 发表于 2016-3-2 21:14
现在还抓取不了?

抓了目标500个用户,最终爬下来360个用户的,剩下的可能注销微博可能爬取开始就没成功
完了360个用户中40个翻页没做好重新爬一下
我觉得还好,自己想想办法处理下可以用了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-19 13:00