以前使用火狐浏览器采集数据时,翻页从来没有出现过问题,这几天用gooseeker浏览器之后,发现建的规则爬到的数据跟想象的不一样。主要有3个:
1、翻页采集,网址https://s.1688.com/company/compa ... acugeneral.search.0
规则:粉末涂料供应商1级
问题:爬取的一级线索数量只有一页的量,按道理应该是一页一个xml文件,但是采集的数据除了第一个xml有十几条外,其余几个里面只有5条数据,而且出现了重复的xml。

2、class定位标志,网址:https://shop6b57v92249722.1688.c ... t.15.38d17aa8m5wcJS
规则:粉末涂料供应商2级和粉末涂料供应商3级。
问题:定位标志是用class定位,但是由于不同店铺,“联系方式”菜单的位置不同,采用class定位标志之后,采集的数据有的是联系方式页面,有的是其他菜单页面,跟预想的不太一样。

3、下级线索还是模拟点击,网址:https://shop6b57v92249722.1688.c ... t.15.38d17aa8m5wcJS
规则:粉末涂料供应商2级和粉末涂料供应商3级。

问题:之前是通过3级采集的方式,1级获取店铺主页网址,2级获取联系方式页面的网址,3级获取所需信息;后来由于提取的数据没有很满意,换了思路。

于是在粉末涂料供应商2级中的爬虫路线中使用了模拟点击线索,但还是没有达到想要的数据。
想问一下,这种情况,可以用模拟点击线索吗?还是用原来的方法,在2层规则中获取店铺联系方式页面网址再进行采集。
非常感谢!




举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-9-2 14:30

沙发
wangyong 版主 发表于 2020-9-1 15:21:09 | 只看该作者
1,我测试了你的规则可以正常翻页也能每页抓取到多条,但是需要打开滚屏

滚屏参数设置如下:

2,如果联系方式位置出现的不一致,得用自定义xpath contains函数的方式参考链接:https://www.gooseeker.com/doc/thread-6877-1-1.html

3,能做层级抓取的都尽量做层级抓取
举报 使用道具
板凳
xiaohongseeker1003 初级会员 发表于 2020-9-2 07:38:55 | 只看该作者
wangyong 发表于 2020-9-1 15:21
1,我测试了你的规则可以正常翻页也能每页抓取到多条,但是需要打开滚屏

滚屏参数设置如下:

1、您测试滚屏设置没有问题吗?我记得也设置过的。我只爬取到了5-6页,里面有重复的,而且有好几页每一个xml只有5条信息。
2、模拟点击可以使用吗?

举报 使用道具
地板
wangyong 版主 发表于 2020-9-2 11:14:39 | 只看该作者
1,我打开滚屏后抓取都是正常的
2,也可用模拟点击
举报 使用道具
5#
xiaohongseeker1003 初级会员 发表于 2020-9-2 13:59:44 | 只看该作者
wangyong 发表于 2020-9-2 11:14
1,我打开滚屏后抓取都是正常的
2,也可用模拟点击

那您有没有看下我的模拟点击对不对呢?
举报 使用道具
6#
wangyong 版主 发表于 2020-9-2 14:30:18 | 只看该作者
xiaohongseeker1003 发表于 2020-9-2 13:59
那您有没有看下我的模拟点击对不对呢?

是对的
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 06:11