主题名:天涯论坛二级评论列表爬取
为了加快爬取速度,我运行了爬虫群,爬虫窗口设置了2个,自启动,对于调度规则的设置,
主要参数设置:一轮停歇时间设置为2秒,线索间等待最短时间40秒,线索间等待最长时间60秒,延迟抓取时间15秒,滚屏次数为2。运行了速度感觉有些慢,我看默认的一些参数设置如:一轮停歇时间设置为2秒,线索间等待最短时间0秒,线索间等待最长时间1秒,延迟抓取时间5秒,滚屏次数为0,是不是默认的效果会更好,速度更快。
求大神根据以往的爬取经验,指点一下,我的参数设置是否合理,有改进的空间么?调度参数设置图片如下。

QQ截图20160624184507.png
QQ截图20160624184544.png
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-6-24 22:03

Fuller 管理员 发表于 2016-6-24 22:03:36 | 显示全部楼层
你这个设置其实很不合理
1,一轮停歇时间是2秒,几乎就没有停,一轮50条线索(看下面你设置的参数),也叫一批,一批完成后适当停歇一下,不歇也行
2,等待最短和等待最长很不合理,这是没翻页一次或者换一个线索等待的时间。按照你的这个设置,是等待40-60秒之间的一个随机数,这个等待太长了
我认为你感觉速度慢,就是第二点造成的,其它的倒不是大问题。

这些参数的用法参看:http://www.gooseeker.com/doc/article-112-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 04:21