本帖最后由 scraper 于 2016-12-30 17:19 编辑


【启动采集前的配置】

  • 预先登陆网站:是
  • 配置打码平台:否

【运行方法】— 详见数据DIY图文教程

  • 用GS爬虫浏览器或者是安装了爬虫软件的火狐浏览器访问知乎_独立话题精华内容采集页面;
  • 输入一个或多个搜索结果网址,然后点击“获取数据”;
  • 点击“启动采集”按钮,采集完成后点击“打包”按钮,就可以下载数据了。

【常见问题】— 欢迎跟帖留言
举报 使用道具
| 回复

共 13 个关于本帖的回复 最后回复于 2018-3-28 13:34

pseudo_stormy 中级会员 发表于 2017-11-3 07:59:39 | 显示全部楼层
采取数据之后每条回答是片段的,需要按“显示全部”。有办法采取每条回答的全部吗?谢谢
举报 使用道具
umsung 高级会员 发表于 2017-11-3 09:25:10 | 显示全部楼层
pseudo_stormy 发表于 2017-11-3 07:59
采取数据之后每条回答是片段的,需要按“显示全部”。有办法采取每条回答的全部吗?谢谢 ...

可以使用连续动作点击“显示全部”之后再抓取数据。《连续点击动作》
举报 使用道具
jackiezhung21 新手上路 发表于 2018-1-27 15:22:36 | 显示全部楼层
您好,无法采集到数据,采集状态最后都显示为 已停止,并且重新采集也无效。不知是何原因?
举报 使用道具
wangyong 版主 发表于 2018-1-27 15:47:37 | 显示全部楼层
添加了什么链接?
举报 使用道具
jackiezhung21 新手上路 发表于 2018-1-28 10:44:13 | 显示全部楼层
wangyong 发表于 2018-1-27 15:47
添加了什么链接?

抱歉才看到。
https://www.zhihu.com/topic/19563625/hot
一个知乎话题的链接
举报 使用道具
wangyong 版主 发表于 2018-1-28 14:10:58 | 显示全部楼层
采这种链接是需要用动态话题的这个DIY
http://www.gooseeker.com/doc/thread-5710-1-1.html
举报 使用道具
jackiezhung21 新手上路 发表于 2018-1-29 09:47:37 | 显示全部楼层
wangyong 发表于 2018-1-28 14:10
采这种链接是需要用动态话题的这个DIY
http://www.gooseeker.com/doc/thread-5710-1-1.html ...

很感谢。还是有两个问题:
一是动态话题(讨论)的数量超过1000条,能采集到的只有33条,不知道如何解决?
二是用精华的DIY采https://www.zhihu.com/topic/19563625/top-answers的时候,一直出现“匹配失败”,几次尝试最后都停止采集。不知什么原因?
举报 使用道具
数据集二期 中级会员 发表于 2018-1-29 14:05:04 | 显示全部楼层
jackiezhung21 发表于 2018-1-29 09:47
很感谢。还是有两个问题:
一是动态话题(讨论)的数量超过1000条,能采集到的只有33条,不知道如何解决 ...

知乎的网页结构发生了变化,这个数据diy已经修改.
举报 使用道具
双鱼是篇小说 新手上路 发表于 2018-3-27 21:11:38 | 显示全部楼层
本帖最后由 双鱼是篇小说 于 2018-3-27 21:18 编辑

精华内容采集有大量重复项  1000条里面有300多条  这样的数据还准确吗
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 03:10