本帖最后由 ibark126 于 2016-6-24 10:44 编辑

做了一个主题规则用于爬淘票票电影排期,该主题有两级,第一级规则做连续动作负责选择影片和日期,第二级规则负责抓影片排期。第一级规则主题下面有三个规则:分别对应没有排期,电影列表需要点击更多 和正常排期的情况

样例地址:https://dianying.taobao.com/cine ... emaId=24053&n_s=new

一级主题有4000+条线索,用爬虫群执行,同时启动了20个DS。开始过程都很正常,但后面就会出现部分DS在第一级规则连续动作过程当中不断循环无法结束

一级规则主题名:淘票票排期入口  有三个规则编号:排期1,排期2,无排期 二级规则主题名:淘票票排期 有两个规则编号:有排期,无排期

麻烦大神帮忙看下什么原因造成的




举报 使用道具
| 回复

共 12 个关于本帖的回复 最后回复于 2016-6-28 17:27

沙发
ym 版主 发表于 2016-6-24 12:05:29 | 只看该作者
本帖最后由 ym 于 2016-6-24 12:21 编辑

你写错了第一级主题名,应该是淘票票电影排期入口,然后加载你的规则,第一级规则编号为无排期的样本页面变了,无法加载了,所以测试没有用到这个规则,只用第一级排期1、排期2,第二级有排期、无排期做测试。

测试结果是没发现规则有问题,运行单个爬虫窗口采集是正常的,但是同时运行多个爬虫采集时,选择时间偶尔会重复点击,导致无法采集下条线索。

这种情况,有两种方法可以试试:
1、在连续动作的高级设置中勾上模拟点击和窗口可见(执行动作时会让爬虫窗口置顶显示),并且爬虫群数量控制在5个以内,看看是否可行。

2、可以在连续动作中设置一个合适的重复次数,当超过该重复次数,就会跳出循环,从而正常采集下条线索。
举报 使用道具
板凳
ibark126 初级会员 发表于 2016-6-24 13:54:15 | 只看该作者
感谢回复,我按照您说的试一下看看
举报 使用道具
地板
ibark126 初级会员 发表于 2016-6-24 15:58:21 | 只看该作者
ym 发表于 2016-6-24 12:05
你写错了第一级主题名,应该是淘票票电影排期入口,然后加载你的规则,第一级规则编号为无排期的样本页面变 ...

重复次数要设置多少呢?现在都是默认的设置 ,重复次数是1
举报 使用道具
5#
Fuller 管理员 发表于 2016-6-24 22:15:28 | 只看该作者
ibark126 发表于 2016-6-24 15:58
重复次数要设置多少呢?现在都是默认的设置 ,重复次数是1

@ym 答复的用重复次数来跳出循环是不正确的。

重复次数是特意重复那么多次,比如,一个网页的内容会自动更新,我们就需要一直重复做动作,把最新变化的内容抓下来。具体看这里:http://www.gooseeker.com/doc/article-235-1.html

如果是为了中断,不用设置次数,而是在DS打数机的菜单:高级-〉终止标志-〉重复内容,勾上以后,如果出现三次重复就中断。在会员中心的调度参数那里也可以设置。
举报 使用道具
6#
ibark126 初级会员 发表于 2016-6-28 11:54:58 | 只看该作者
本帖最后由 ibark126 于 2016-6-28 11:56 编辑
Fuller 发表于 2016-6-24 22:15
@ym 答复的用重复次数来跳出循环是不正确的。

重复次数是特意重复那么多次,比如,一个网页的内容会自动 ...

按照@ym 的提议减少了DS数量,也在连续动作高级设置当中勾选了模拟点击和窗口可见。同时按照 @Fuller 的建议设置了  高级-〉终止标志-〉重复内容
现在情况是,爬虫群启动之后5个窗口运行,会好一些。但还是会有一两个窗口出现无限循环,设置的终止标志重复内容似乎也没有出现重复三次就中断的情况。


检查了一下xml文件,在不断循环的DS窗口后台也在不断生成内容相同xml数据。
举报 使用道具
7#
ibark126 初级会员 发表于 2016-6-28 12:07:59 | 只看该作者
ibark126 发表于 2016-6-28 11:54
按照@ym 的提议减少了DS数量,也在连续动作高级设置当中勾选了模拟点击和窗口可见。同时按照 @Fuller 的建 ...

看了一下xml文件,好像是选择时间的动作无法选择到正确的时间上,这一步在不断重复。如图:第二步骤(选择时间)动作重复了300+次,具体xml可以看附件

淘票票排期_66632034_2502640975.rar

687 Bytes, 下载次数: 0

举报 使用道具
8#
ym 版主 发表于 2016-6-28 14:41:38 | 只看该作者
本帖最后由 ym 于 2016-6-28 14:43 编辑
ibark126 发表于 2016-6-28 11:54
按照@ym 的提议减少了DS数量,也在连续动作高级设置当中勾选了模拟点击和窗口可见。同时按照 @Fuller 的建 ...

建议只用一个窗口来采集,多窗口采集就容易循环点击,这种情况的出现应该是,目标网页必须是当前屏幕(置顶)的点击,才会加载新数据。

另外,你是用爬虫群采集的话,是到规则的调度中设置重复内容中断,而不是设置DS打数机的菜单。具体参见http://www.gooseeker.com/doc/thread-1992-1-1.html
举报 使用道具
9#
ibark126 初级会员 发表于 2016-6-28 14:45:33 | 只看该作者
ym 发表于 2016-6-28 14:41
建议只用一个窗口来采集,多窗口采集就容易循环点击,这种情况的出现应该是,目标网页必须是当前屏幕(置 ...

我确实是在调度中也设置了重复内容中断,但是好像没有奏效。另外,如果只用一个窗口的话,这个主题我有4000+线索,效率实在太低了
举报 使用道具
10#
ym 版主 发表于 2016-6-28 14:54:20 | 只看该作者
ibark126 发表于 2016-6-28 14:45
我确实是在调度中也设置了重复内容中断,但是好像没有奏效。另外,如果只用一个窗口的话,这个主题我有40 ...

集搜客支持同一个账号登陆多台电脑,规则是跟账号绑定的,这样就可以用多台电脑,每台电脑开一个DS窗口来采集
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-3 03:13