Fuller 管理员 发表于 2020-6-24 18:24:39 | 显示全部楼层
a237090761 发表于 2020-6-24 16:30
我想要抓取的是  “更多”展开后的所有英文评论的信息,包括时间、内容、评分这种。
我在一级规则的时候 ...

第一级规则名是什么? 我没有看到定义了连续动作
举报 使用道具
a237090761 初级会员 发表于 2020-6-24 18:50:07 | 显示全部楼层
Fuller 发表于 2020-6-24 18:24
第一级规则名是什么? 我没有看到定义了连续动作

应该就是叫巴黎2,因为之后有提示更新保存,所以不知道保存完了是巴黎2  还是巴黎2检索后

举报 使用道具
a237090761 初级会员 发表于 2020-6-25 15:22:30 | 显示全部楼层
Fuller 发表于 2020-6-24 18:24
第一级规则名是什么? 我没有看到定义了连续动作

我重新做下规则,你等下帮我看看行吗

举报 使用道具
Fuller 管理员 发表于 2020-6-25 15:42:37 | 显示全部楼层
a237090761 发表于 2020-6-25 15:22
我重新做下规则,你等下帮我看看行吗

好,关键是要把第一级规则的名字发出来
举报 使用道具
a237090761 初级会员 发表于 2020-6-25 16:06:45 | 显示全部楼层
Fuller 发表于 2020-6-25 15:42
好,关键是要把第一级规则的名字发出来

第一级的任务名是  巴黎2    ,
第二级的任务名是  巴黎2检索后,三个图都是巴黎2检索后的,第一级的忘记截了


1593072324(1).jpg

1593072268(1).jpg

1593072236(1).jpg


举报 使用道具
a237090761 初级会员 发表于 2020-6-25 16:17:46 | 显示全部楼层
Fuller 发表于 2020-6-25 15:42
好,关键是要把第一级规则的名字发出来

你说的规则名就是任务名吧,那我的第一级规则就是巴黎2
举报 使用道具
Fuller 管理员 发表于 2020-6-25 16:55:40 | 显示全部楼层
a237090761 发表于 2020-6-25 16:17
你说的规则名就是任务名吧,那我的第一级规则就是巴黎2

xpath这样写的话,只能点击一个://*[@id='review_694291849']/div/div[position()=2]/div[position()=3]/div/p/span
要写一个能点击这个页面上所有的“更多”

高级设置那里要设置一下额外延时,如果网络快就短的,一般1-3秒吧

延时20200625165430.png
举报 使用道具
a237090761 初级会员 发表于 2020-6-25 16:58:45 | 显示全部楼层
Fuller 发表于 2020-6-25 16:55
xpath这样写的话,只能点击一个://*[@id='review_694291849']/div/div/div/div/p/span
要写一个能点击这 ...

好,那我xpath要怎么改呢,我不知道在哪里看能点击所有“更多”的位置
举报 使用道具
Fuller 管理员 发表于 2020-6-25 17:02:29 | 显示全部楼层
我测试了一下,只要点击当前页面的第一个“更多”,就能展开所有的“更多”。

那么这样写: (//p[@class='partial_entry']/span[@class='taLnk ulBlueLinks'])[1]

你写的那个不合适,因为含有了review id,等翻页到第二页,这个id一定就不一样了
举报 使用道具
a237090761 初级会员 发表于 2020-6-25 17:04:59 | 显示全部楼层
Fuller 发表于 2020-6-25 17:02
我测试了一下,只要点击当前页面的第一个“更多”,就能展开所有的“更多”。

那么这样写: (//p[@class=' ...

我现在还能到第一级规则那里,在工作台进行编辑吗,我现在的页面是第二级

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-18 22:18