老师,您好。我想爬取的网址是:http://yewu.ghzrzyw.beijing.gov.cn/searches/searchForTuDiZhaoPaiGua?typeId=1,里面的土地成交一览表
5.png
这个表跟京东页面的那个表,不太一样,这种表格应该怎么爬取呢?
举报 使用道具
| 回复

共 5 个关于本帖的回复 最后回复于 2020-7-3 17:17

Fuller 管理员 发表于 2020-5-13 18:06:15 | 显示全部楼层
这个更像一个表。那么,
1,每个列都创建一个抓取内容,分别存:交易编号,宗地名称,建设用地面积,交易方式,规划用途,交易状态,详细。
也可以不用抓取每个列。

2,用第一行作为样例,用第一行的各个列映射到整理箱中的对应抓取内容。也可以在第一行上直接双击做直观标注


3,用第一行和第二行做样例复制映射,参看:https://www.gooseeker.com/doc/article-330-1.html

这样就能把整个表采集下来了
举报 使用道具
Fuller 管理员 发表于 2020-5-13 18:33:47 | 显示全部楼层
先这样做内容映射

内容映射20200513183148.png

再用第一行和第二行做样例复制映射

样例复制20200513183304.png
举报 使用道具
dolphin_1983 初级会员 发表于 2020-5-25 08:25:14 | 显示全部楼层
好的,谢谢老师。我试试。
举报 使用道具
wutongjcc 初级会员 发表于 2020-7-3 16:42:14 | 显示全部楼层
我出现的问题是  第一行全部内容映射成功,测试内容也是对的,但做了第一行和第二行映射后,内容采集出错,比如交易方式那一列采集了和交易编号一样的内容,看内容映射的编号也无误,不知道怎么解决
举报 使用道具
Fuller 管理员 发表于 2020-7-3 17:17:58 | 显示全部楼层
wutongjcc 发表于 2020-7-3 16:42
我出现的问题是  第一行全部内容映射成功,测试内容也是对的,但做了第一行和第二行映射后,内容采集出错, ...

你的规则名是什么?发出来我们诊断一下
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-28 16:22