任务名:相对线索测试1
1.png
举报 使用道具
| 回复

共 22 个关于本帖的回复 最后回复于 2020-12-23 09:26

内容分析应用 金牌会员 发表于 2020-12-16 22:15:56 | 显示全部楼层
你这个翻页, 我用相对线索看到没翻过去,另外这个网址在新版爬虫软件上无法访问,明天让技术看下
不过我用连续动作可以成功:
定义一个点击动作
定位表达式://*[@id='showtablepages']/tr/td/a
高级设置里:起点3  跨度2



举报 使用道具
Thematic 高级会员 发表于 2020-12-16 22:36:30 | 显示全部楼层
内容分析应用 发表于 2020-12-16 22:15
你这个翻页, 我用相对线索看到没翻过去,另外这个网址在新版爬虫软件上无法访问,明天让技术看下
不过我用 ...

这个就不能用翻页,只能用连续点击。因为没有“下一页”标志,当前页码和下一页码也无法区分。用连续动作,把每个页码逐个点击一遍好了
举报 使用道具
Easec888 中级会员 发表于 2020-12-17 09:04:28 | 显示全部楼层
Thematic 发表于 2020-12-16 22:36
这个就不能用翻页,只能用连续点击。因为没有“下一页”标志,当前页码和下一页码也无法区分。用连续动作 ...

但我已经有点击名字进入下一页了,无法做两个点击动作

举报 使用道具
Easec888 中级会员 发表于 2020-12-17 09:09:17 | 显示全部楼层
内容分析应用 发表于 2020-12-16 22:15
你这个翻页, 我用相对线索看到没翻过去,另外这个网址在新版爬虫软件上无法访问,明天让技术看下
不过我用 ...

这个只是测试相对翻页,我原先的任务是已经存在一个点击动作了,我原本的任务是:证券公司保荐代表人第11级综合执业信息,证券公司保荐代表人第12级综合执业详细信息
举报 使用道具
Fuller 管理员 发表于 2020-12-17 09:29:50 | 显示全部楼层
其实要采集下来也不难,就是繁琐一点。对于这种网站,你再做一级规则,放在最前面,专门负责点击页码。如果做成连续点击不行,可以做成只点击一个页码,那么7个页码就用7个规则分别点击
举报 使用道具
Easec888 中级会员 发表于 2020-12-20 13:55:37 | 显示全部楼层
Fuller 发表于 2020-12-17 09:29
其实要采集下来也不难,就是繁琐一点。对于这种网站,你再做一级规则,放在最前面,专门负责点击页码。如果 ...

我梳理下,现在修改方案是:首先点击动作翻页,只要将xpath设置成可以点击7页的路径,其他保持不变。但我添加了点击动作,没法做到点击7页,任务名:证券公司保荐代表人第10级点击翻页,证券公司保荐代表人第11级综合执业信息,证券公司保荐代表人第12级综合执业详细信息
举报 使用道具
Fuller 管理员 发表于 2020-12-20 16:04:28 | 显示全部楼层
Easec888 发表于 2020-12-20 13:55
我梳理下,现在修改方案是:首先点击动作翻页,只要将xpath设置成可以点击7页的路径,其他保持不变。但我 ...

这个规则只需要一步点击动作,这个点击动作的xpath要求能定位到7个页码,那么这个规则就会循环7次。

可以写成这样: //*[@id='showtablepages']/tr/td/a[position() mod 2 = 1]
表示位置值取2的模,只要模是1的位置

写好以后测试一下,看看是不是涵盖所有7个页码

xpath-160359.png
举报 使用道具
Easec888 中级会员 发表于 2020-12-20 17:00:10 | 显示全部楼层
Fuller 发表于 2020-12-20 16:04
这个规则只需要一步点击动作,这个点击动作的xpath要求能定位到7个页码,那么这个规则就会循环7次。

可 ...

还是翻到第2页就停了
举报 使用道具
Fuller 管理员 发表于 2020-12-20 18:02:56 | 显示全部楼层
Easec888 发表于 2020-12-20 17:00
还是翻到第2页就停了

如果下一级还做做其他动作,还有更深层一级,那么别定义成连续动作了,因为调试连续动作有些麻烦,其实就7个网页,不如就做7个规则,每个规则其实基本上是一样的,只是点击的页码不一样。简单一修改,改一下任务名,存规则,就行了。生成7个规则用不了几分钟。

这个七个规则,每个点击一页,xpath分别写成

//*[@id='showtablepages']/tr/td/a[position() = 1]
//*[@id='showtablepages']/tr/td/a[position() = 3]
//*[@id='showtablepages']/tr/td/a[position() = 5]
...

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 17:45