我收到的电子发票是pdf格式的,如果能用网络爬虫软件采集发票的内容,我可以更加自动化地处理收上来的发票,管理起来省力很多。

另外,如果能用网络爬虫采集pdf文件,岂不是可以处理各种报表和报告?集搜客网络爬虫能从pdf中提取出来内容吗?


举报 使用道具
| 回复

共 3 个关于本帖的回复 最后回复于 2021-7-28 10:45

Fuller 管理员 发表于 2021-7-28 10:39:22 | 显示全部楼层
GooSeeker网络爬虫有一套极具特色的pdf文件解析技术,解析以后能作为普通的网页进行提取,集搜客网络爬虫还集成了摘录功能,可以手工摘录零散的内容,既可以摘录网页,也可以摘录pdf。

为pdf文件定义爬虫任务跟爬网页的任务一摸一样,pdf也有dom,也一样点选dom,一样做标注。

采集pdf文件一个最大的麻烦是:pdf中的dom节点太多了,没有定位标志,全部是绝对定位,如果两个pdf文件,比如两张发票的dom结构稍有不同,采集规则就会采错了
举报 使用道具
发誓学好内容分析 金牌会员 发表于 2021-7-28 10:42:37 | 显示全部楼层
Fuller 发表于 2021-7-28 10:39
GooSeeker网络爬虫有一套极具特色的pdf文件解析技术,解析以后能作为普通的网页进行提取,集搜客网络爬虫还 ...

这些功能什么版本有?
举报 使用道具
Fuller 管理员 发表于 2021-7-28 10:45:59 | 显示全部楼层

采集pdf内容早就有了,你下载安装官网上的最新版本肯定有采集pdf内容的功能,至于最早什么时候发布的,我记不清楚了,因为爬虫软件一个月会升级好几次。

你在这个帖子提到的下载巨潮资讯网上的pdf报告功能,V10.8.2确实采集不了这个网站,马上就要发布的V11.0.0已经解决了这个问题,注意发布通知,及时升级
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 00:36