刚刚在建规则时有在层级抓取中设置翻页抓取,不过实际抓取过程并没有实现层级翻页抓取
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2016-1-11 16:14

沙发
Fuller 管理员 发表于 2015-12-27 16:57:16 | 只看该作者
首先纠正一个说法,“层级”和“翻页”我们当成两个概念,比如,京东商品列表是第一级,京东商品详情页是第二级,这是层级。而抓取京东商品列表页的时候,如果有多个分页,那要翻页抓取,还是在第一级里面工作。

翻页抓取有很多技巧,这里有一组文章,最后那篇《设置首选项解决翻页中断问题 》是检查中断原因的:http://www.gooseeker.com/doc/thread-698-1-1.html

每个网页情况都不一样,可以把规则名发出来,由技术人员协助检查
举报 使用道具
板凳
vbnmhnj 新手上路 发表于 2015-12-27 20:22:33 | 只看该作者
Fuller 发表于 2015-12-27 16:57
首先纠正一个说法,“层级”和“翻页”我们当成两个概念,比如,京东商品列表是第一级,京东商品详情页是第 ...

我想抓取贴吧全部帖子的评论内容,第一级设置的是翻页抓取帖子标题和链接,以链接为下个线索设置层级抓取每个帖子的评论内容。不过这样设置之后发现运行规则时评论不能翻页抓取,还有就是一直抓取失败(规则名是:上证指数吧)谢谢
举报 使用道具
地板
Fuller 管理员 发表于 2015-12-27 20:57:48 | 只看该作者
vbnmhnj 发表于 2015-12-27 20:22
我想抓取贴吧全部帖子的评论内容,第一级设置的是翻页抓取帖子标题和链接,以链接为下个线索设置层级抓取 ...

我具有管理员身份,能够看到你做的规则,但是我没有修改权限,我修改了主题名后另存了一份,翻页没有问题,抓取很正常。你已经修改好了?
举报 使用道具
5#
vbnmhnj 新手上路 发表于 2015-12-27 21:14:06 | 只看该作者
本帖最后由 vbnmhnj 于 2015-12-27 21:27 编辑
Fuller 发表于 2015-12-27 20:57
我具有管理员身份,能够看到你做的规则,但是我没有修改权限,我修改了主题名后另存了一份,翻页没有问题 ...

爬数据时总是失败

捕获.PNG (7.62 KB, 下载次数: 1147)

捕获.PNG
举报 使用道具
6#
Fuller 管理员 发表于 2015-12-28 09:50:39 | 只看该作者
vbnmhnj 发表于 2015-12-27 21:14
爬数据时总是失败

是不是样本页面抓取没有问题,而这个规则用于一批网页抓取的时候就有问题?

可以把失败的线索加载上来分析,原因肯定是抓取规则适应性不够,对一个网页可以,对其它网页不适合。

在MS谋数台上,选择菜单 工具-》加载规则-》按线索号 。线索号就是DS打数机窗口下部的日志中出现的线索号。

就能分析这个网页的哪个抓取内容不适合
举报 使用道具
7#
Emma0929 新手上路 发表于 2016-1-11 11:21:01 | 只看该作者
你好 求问:
我需要三级抓取。第一级需要翻页,第二层级里面也需要翻页。问题是当第一条数据进入第二层级翻页抓取完成后,第一层级的数据就不继续往下走了。不知道是哪里设置错误?我尝试第二层级不设置翻页,那么第一层就会翻页正常。
举报 使用道具
8#
Fuller 管理员 发表于 2016-1-11 16:14:42 | 只看该作者
假设第一级主题名是 A,第二级主题名是 B。

A的任务是
1)翻页抓取
2)从网页上抓取url,生成第二级B的线索

B的任务是
1)翻页抓取

如果是这样规划的,第一级和第二级是不相关的。每级都是各自运行,可以在不同计算机上运行,各自负责自己的翻页任务

翻页操作是勾选了 “连贯抓取”,这个不表示进入了下一级,这是在同一级,因为主题名没有变。连贯抓取表示一口气做完。

如果用“连贯抓取”把两个不同主题联系起来,那就是模拟点击教程说的(http://www.gooseeker.com/doc/article-150-1.html ),也是一口气做完,从主题A跳到主题B。但是,在主题A中一次只能定义一个连贯抓取,要么用于翻页,要么用于跳主题
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-5-4 15:53