比如每个页面有20个数据 我只想要前10个就好了
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2016-10-25 18:27

沙发
Fuller 管理员 发表于 2016-10-25 18:27:37 | 只看该作者
MS谋数台自动生成抓取规则以后,可以在输出窗口的“数据规则”页签上手工修改抓取规则,这是一个xslt程序,只要符合xsl语法,你可以直接改,然后点击“保存”按钮。这个需求必须通过手工修改规则来实现。

我不建议这样做,更好的方法是把所有数据都抓下来,把数据导入到excel或者数据库,把后面的不想要的数据删除。多抓数据不增加抓取成本,因为抓取成本最大的方面是网页下载过程,多抓几行或者少抓几行,几乎不影响抓取成本。

可以参看导入excel的教程
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 21:24