3 6569

爬取问题

muzi123 于 2020-8-31 21:14 发表 [复制链接]
有很多个医生团队,每个团队的界面如下图,我要爬取每个团队的名称、帮助患者数、价格、一般等待时长和每一个成员的姓名和职称。但是不同团队的人数是不一样的,所以不知道要怎么设置爬取规则。如果用样例复制爬取成员信息的话,又没法爬取前面的名称、帮助患者数、价格、一般等待时长这几个指标。

微信图片_20200831211345.png
举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2020-8-31 22:45

maomao 论坛元老 发表于 2020-8-31 22:42:15 | 显示全部楼层
可以做个局部的样例复制,https://www.gooseeker.com/doc/article-348-1.html这个教程是采集页面上的多个图片的,就是做了嵌套整理箱,并做了局部的样例复制。这个帖子详细讲了怎么做嵌套的整理箱https://www.gooseeker.com/doc/thread-6227-1-1.html
举报 使用道具
maomao 论坛元老 发表于 2020-8-31 22:44:08 | 显示全部楼层
或者,你把上述页面的链接发出来,我们针对这个页面详细讲一下怎么做局部的样例复制。
举报 使用道具
Fuller 管理员 发表于 2020-8-31 22:45:48 | 显示全部楼层
可以定义成嵌套整理箱,嵌套整理箱可以是比较复杂的结构。比如,针对这个网页,整理箱可能是这样的结构

团队
  |-- 团队名称
  |-- 已帮助患者数
  |-- 等待时长
  |-- 团队成员
          |-- 姓名
          |-- 职称

那么,可以在 团队成员 这个内部容器上做样例复制映射
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 15:11