我在抓取列表信息的页面发现标题的url是:javascript:void(0);这种情况怎么做下级线索呢?谢谢大家
举报 使用道具
| 回复

共 8 个关于本帖的回复 最后回复于 2016-9-6 10:38

沙发
Luodan 初级会员 发表于 2016-7-26 15:58:00 | 只看该作者
已经找到原因了,因为这个网站比较特殊,是点击产品图片才会进入下一级页面
举报 使用道具
板凳
Fuller 管理员 发表于 2016-7-26 16:10:21 | 只看该作者
这些没有独立网址的网站,只能用模拟点击或者连续动作,做动作和跳转后即时抓取,不能抓下级线索
举报 使用道具
地板
ShelleyWu 初级会员 发表于 2016-9-3 14:50:48 | 只看该作者
本帖最后由 ShelleyWu 于 2016-9-3 16:02 编辑
Fuller 发表于 2016-7-26 16:10
这些没有独立网址的网站,只能用模拟点击或者连续动作,做动作和跳转后即时抓取,不能抓下级线索 ...

请问是不是每次的动作跳转都需要映像到当前主题或是指定的主题的整理箱里去采集数据,
有办法做单纯点击的动作吗?
举报 使用道具
5#
Fuller 管理员 发表于 2016-9-3 16:49:41 | 只看该作者
ShelleyWu 发表于 2016-9-3 14:50
请问是不是每次的动作跳转都需要映像到当前主题或是指定的主题的整理箱里去采集数据,
有办法做单纯点击的 ...

要抓数据的话,一定要定义主题。如果想连着做几个动作以后再抓数据,就定义连续动作,请看:http://www.gooseeker.com/doc/article-141-1.html
举报 使用道具
6#
ShelleyWu 初级会员 发表于 2016-9-3 16:56:05 | 只看该作者
Fuller 发表于 2016-9-3 16:49
要抓数据的话,一定要定义主题。如果想连着做几个动作以后再抓数据,就定义连续动作,请看:http://www.g ...

如果连续的几个动作是在不同主题内的能执行吗?

能协助看下这两个主题吗?
第一层: L1_Sim_Click
第二层: L2_Sim_Click
已经做了连续动作, 也设定了xpath
但是页面跳转回第一层的时候, 一直再重复采集一样的, 连续动作的规则不管用阿~~
举报 使用道具
7#
Fuller 管理员 发表于 2016-9-3 17:16:22 | 只看该作者

第一级动作规划如上图:

1)要连续点击这些公司名,你的xpath只能定位到一个公司,所以只能点一次。但是你又定义了一个永远滚动的动作,那么这两个动作组合在一起就是永远点第一个。而是应该用这个xpath
  1. //td[@class='board_title02']/a[@class='a1']
复制代码
只需定义一个动作步骤,是点击类型
2)在这一级还应该在爬虫路线工作台上定义一个翻页线索



上图是第二级
1)要用一个动作点击List,返回列表,否则,列表上的连续动作执行不了
2)这个动作的主题名应该指向第一级

这样的动作序列就是:第一级-第二级-第一级-第二级-第一级-.....
举报 使用道具
8#
ShelleyWu 初级会员 发表于 2016-9-5 11:27:11 | 只看该作者
本帖最后由 ShelleyWu 于 2016-9-6 10:15 编辑
Fuller 发表于 2016-9-3 17:16
第一级动作规划如上图:

1)要连续点击这些公司名,你的xpath只能定位到一个公司,所以只能点一次。但是 ...
这两个主题
第一层: L1_Sim_Click
第二层: L2_Sim_Click
您提到的两个部分, 试过了以后都还是有问题

第一级动作规划的第二点(第一级翻页部分)
   2)在这一级还应该在爬虫路线工作台上定义一个翻页线索

先前试过, 翻页用爬虫规则去执行, 会有断页的问题, 建议使用连续点击
http://www.gooseeker.com/doc/for ... 2410&page=1#pid6760
当时便改为用连续点击去处理这个问题

但是连续点击指向的主题都必须为同一个, 这样我不晓得该只向第几级主题?
也试过了用爬虫(翻页)+连续点击(下级),但是失败了

再者, 第二级部分您说的
   2)这个动作的主题名应该指向第一级
试过以后这个动作会导致返回后永远点第一个, 修改了xpath也一样

他不管是第一级的翻页, 或是第二级的公司下级点击, 都是javascript的跳转, 看教程都是建议使用连续点击的做法。
但是如果连续动作里指向的主题名如果只能有一个,应该如何处理比较好
使用爬虫(翻页)+连续点击(下级)也失败了


这种情况怎么做呢?
谢谢大家

举报 使用道具
9#
ShelleyWu 初级会员 发表于 2016-9-6 10:38:19 | 只看该作者
Fuller 发表于 2016-9-3 17:16
第一级动作规划如上图:

1)要连续点击这些公司名,你的xpath只能定位到一个公司,所以只能点一次。但是 ...

这两个主题
第一层: L1_Sim_Click
第二层: L2_Sim_Click
您提到的两个部分, 试过了以后都还是有问题

第一级动作规划的第二点(第一级翻页部分)
   2)在这一级还应该在爬虫路线工作台上定义一个翻页线索

先前试过, 翻页用爬虫规则去执行, 会有断页的问题, 建议使用连续点击
http://www.gooseeker.com/doc/for ... 2410&page=1#pid6760
当时便改为用连续点击去处理这个问题

但是连续点击指向的主题都必须为同一个, 这样我不晓得该只向第几级主题?
也试过了用爬虫(翻页)+连续点击(下级),但是失败了

再者, 第二级部分您说的
   2)这个动作的主题名应该指向第一级
试过以后这个动作会导致返回后永远点第一个, 修改了xpath也一样

他不管是第一级的翻页, 或是第二级的公司下级点击, 都是javascript的跳转, 看教程都是建议使用连续点击的做法。
但是如果连续动作里指向的主题名如果只能有一个,应该如何处理比较好
使用爬虫(翻页)+连续点击(下级)也失败了


这种情况怎么做呢?
谢谢大家
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-6 04:55