任务名为“yingwei1”,使用一般翻页规则抓取时,抓取的结果都是重复的, 请帮忙,谢谢

image.jpg (172.83 KB, 下载次数: 185)

image.jpg
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2024-2-24 19:44

沙发
gz51837844 管理员 发表于 2024-2-23 16:05:11 | 只看该作者
我这里看网页上没有“显示更多”,有“下一页”
举报 使用道具
板凳
anwuyue 初级会员 发表于 2024-2-24 11:36:38 | 只看该作者
gz51837844 发表于 2024-2-23 16:05
我这里看网页上没有“显示更多”,有“下一页”

要勾选一下左侧导航栏的农业,就变成显示更多,麻烦您帮忙看下,谢谢
举报 使用道具
地板
Fuller 管理员 发表于 2024-2-24 17:06:28 | 只看该作者
anwuyue 发表于 2024-2-24 11:36
要勾选一下左侧导航栏的农业,就变成显示更多,麻烦您帮忙看下,谢谢

如果还要勾选一下,那么在这个任务之前再定义一个任务,用一个点击动作负责勾选
举报 使用道具
5#
gz51837844 管理员 发表于 2024-2-24 17:06:30 | 只看该作者
anwuyue 发表于 2024-2-24 11:36
要勾选一下左侧导航栏的农业,就变成显示更多,麻烦您帮忙看下,谢谢

在做规则前,你点击了一下左侧导航栏的类别: 贵金属或农业,然后页面翻页样式变成了“显示更多”
保存规则后在运行抓取时,你的规则并不会自动点击左侧导航栏的类别,所以页面上仍然是“下一页”,这样翻页应该是失败的。
你可以新增一个规则(比如叫yingwei-pre),这个规则里定义一个点击左侧导航栏的类别的动作,动作后执行的规则是原来的yingwei1:


举报 使用道具
6#
gz51837844 管理员 发表于 2024-2-24 17:08:45 | 只看该作者
定义连续动作的教程参考:https://www.gooseeker.com/tuto/tutorial.html

举报 使用道具
7#
gz51837844 管理员 发表于 2024-2-24 17:11:15 | 只看该作者
我做测试翻页是可以的。不过每次“显示更多”执行后,页面上的数据包含上一页的数据。如果全部xml结果文件入库,会有重复的。所以对于每个类别来说,执行完成后,手工把最后生成的那个最大的xml文件入库就可以了,或者全部入库导出excel后在excel里去重:

举报 使用道具
8#
gz51837844 管理员 发表于 2024-2-24 17:13:04 | 只看该作者
这2个规则,执行时执行第一级规则yingwei-pre就可以了,第二级规则yingwei会自动执行的
举报 使用道具
9#
anwuyue 初级会员 发表于 2024-2-24 19:44:46 | 只看该作者
gz51837844 发表于 2024-2-24 17:13
这2个规则,执行时执行第一级规则yingwei-pre就可以了,第二级规则yingwei会自动执行的
...

好的,谢谢耐心回复
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-2 08:08