本帖最后由 zlmartin 于 2016-11-3 16:03 编辑

一级网址:https://www.amazon.es/review/top-reviewers
进入一个用户信息后如图:


需要点击下拉按钮,得到信息才能采集。
但是不知道为什么我有些用户的能点击成功,有些不行。

点击定位标识都用的://*[@class='a-expander-prompt']

举报 使用道具
| 回复

共 11 个关于本帖的回复 最后回复于 2016-11-4 11:54

沙发
ym 版主 发表于 2016-11-3 16:20:58 | 只看该作者
用MS谋数台加载规则,切换样本页为点击失败的用户页面,再用xpath显示功能,定位一下网页上的下拉按钮,看看xpath有什么不一样
举报 使用道具
板凳
zlmartin 新手上路 发表于 2016-11-3 16:32:11 | 只看该作者
ym 发表于 2016-11-3 16:20
用MS谋数台加载规则,切换样本页为点击失败的用户页面,再用xpath显示功能,定位一下网页上的下拉按钮,看 ...

换了样本页后,两个xpath还是一样的,就是两个网页结构有点变化而已,有影响吗?

举报 使用道具
地板
ym 版主 发表于 2016-11-3 16:33:19 | 只看该作者
不影响,你看看爬虫采集时,点击不到的页面底部的日志有报错吗
举报 使用道具
5#
ym 版主 发表于 2016-11-3 16:37:02 | 只看该作者
另外,下拉菜单里的信息,不用点击按钮,就已经加载出来了,所以,不用做点击就可以直接映射采集

举报 使用道具
6#
zlmartin 新手上路 发表于 2016-11-3 16:53:48 | 只看该作者
ym 发表于 2016-11-3 16:33
不影响,你看看爬虫采集时,点击不到的页面底部的日志有报错吗

有啊

111.png (25.05 KB, 下载次数: 448)

111.png
举报 使用道具
7#
zlmartin 新手上路 发表于 2016-11-3 17:01:20 | 只看该作者
ym 发表于 2016-11-3 16:37
另外,下拉菜单里的信息,不用点击按钮,就已经加载出来了,所以,不用做点击就可以直接映射采集

...

我试了直接抓取,是可以直接抓取,但也只有1,3,9成功....
举报 使用道具
8#
ym 版主 发表于 2016-11-3 17:09:50 | 只看该作者
本帖最后由 ym 于 2016-11-3 17:11 编辑
zlmartin 发表于 2016-11-3 17:01
我试了直接抓取,是可以直接抓取,但也只有1,3,9成功....

日志的错误是指规则有问题,不是点击动作定位的问题,没抓到的网页结构可能有差别,你把主题名贴出来看看,也可以自己分析一下结构,操作参考《怎样解决规则采集失败/遗漏的问题》
举报 使用道具
9#
zlmartin 新手上路 发表于 2016-11-3 17:16:00 | 只看该作者
ym 发表于 2016-11-3 17:09
日志的错误是指规则有问题,不是点击动作定位的问题,没抓到的网页结构可能有差别,你把主题名贴出来看看 ...

主题名:
第一级:演示测评01
第二级:演示测评02

举报 使用道具
10#
Fuller 管理员 发表于 2016-11-3 20:35:57 | 只看该作者
zlmartin 发表于 2016-11-3 17:16
主题名:
第一级:演示测评01
第二级:演示测评02

如果不用点击就能抓取,那就把点击动作删除。
好奇怪,我加载了 演示测评02,我在网页上没有看到email,难道要登录才能看到?

如果有些抓取得到有些抓不到,那是规则的适应性不够,要把失败的线索加载上来分析。用MS谋数台的菜单:工具-〉加载规则-〉按线索号,把失败的线索号输入进去,就能分析为什么失败。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-15 17:17