GooSeeker 产品资源教程视频教程使用交流资讯

开启辅助访问切换风格

快捷导航

集搜客GooSeeker网络爬虫 › 官方文档 ›资讯 › 查看内容

用网络爬虫软件自动下载网页上的文件

2021-1-28 16:19| 发布者: Fuller| 查看: 13032| 评论: 2

摘要: 我们以这个网页为例http://www.neeq.com.cn/disclosure/announcement.html，讲解怎样自动下载网页上的文件。如果是人工下载这些文件，需要在网页上逐个点击文件图标，启动下载。而集搜客网络爬虫会自动采集文件的链 ...

配套软件版本：V10及更高数据管家——增强版网络爬虫

老版本对应教程：V9及更低集搜客网络爬虫的对应教程是《用网络爬虫软件自动下载网页上的文件》

我们以这个网页为例http://www.neeq.com.cn/disclosure/announcement.html，讲解怎样自动下载网页上的文件。

如果是人工下载这些文件，需要在网页上逐个点击文件图标，启动下载。

而集搜客网络爬虫会自动采集文件的链接，同时下载文件。

本篇教程中，我们详细讲解怎样设置下载第一行的PDF文件，后面各行的PDF文件，做一个样例复制就可以了。

1. 步骤详解

案例任务：自动下载文件-教程（点击可下载）

样本网址：http://www.neeq.com.cn/disclosure/announcement.html

采集内容：代码、简称、标题、日期，下载文件。

1.1 打开网页

1.2 标注第一行要采集的内容

在第一行，除了要下载文件，我们还要采集代码，简称，标题，日期，需要对这些信息进行标注。详细的标注操作可以参考《采集网页数据》

第一次标注，要输入表名，自定义。

继续标注其它的信息，标注完成后，工作台上有了四个字段：代码，简称，标题，日期。

1.3 设置文件下载

点击第一行的文件图标，对应到DOM窗口的IMG节点，看看这个节点左侧的属性，没发现文件的链接，继续沿着这个节点向上找到A节点，点击A节点，我们发现A节点的@href属性，有文件的链接。

鼠标右键@href，做一个内容映射，文件的链接映射给一个新建内容，我们把这个新建内容命名为“文件链接”（命名是任意的），并勾选“补全网址”，“下载文件”。

现在，工作台上新添加了一个字段：文件链接

2. 样例复制

按上面的步骤，我们已经把第一行的内容和文件下载设置好了，如果还要采集后面各行，做个样例复制。具体的操作见《采集列表数据》。第一行是第一个样例，第二行是第二个样例。

3. 翻页设置

如果还要自动翻页批量采集多页的数据，可以设置翻页。具体的操作见《翻页采集数据》。

4. 测试，保存，启动采集

点击测试，看看要采集的信息，都采集下来吗，没有问题，点击保存。

然后点击采数据，启动采集。（下图非本例采集任务的图，但是操作类似）。

5. 采集到的文件保存在哪里

如果在爬虫软件里设置了分任务存放，

那么下载的文件保存在DataScraperWorks目录下的任务名文件夹下，在这个具体的例子中，是DataScraperWorks/下载文件-教程/PageContentDir。

打开PageContentDir，下载的文件存放在这里。

如果没有设置按任务保存，那么直接保存在DataScraperWorks下的PageContentDir目录下。

上篇文章：《采集下载指定网页区域内的所有图片》 下篇文章：《用网络爬虫软件自动下载网页上的文件》

刚表态过的朋友 (1 人)

leike0429

上一篇：采集图片网址并下载图片（二）——下载途牛多图下一篇：利用重加载防止采集微博博主消息列表中断

最新评论

评论 Fuller 2021-4-24 12:03: 18621566712: 遇到 java的没有href的下载，怎办
看高级教程，做一个点击动作，点击可以激发下载

评论 18621566712 2021-4-24 11:06: 遇到 java的没有href的下载，怎办

查看全部评论(2)

相关分类

下级分类

热门排行

旧版: 网站; 社区

支持: 常见问题; 视频教程; 速查手册; 指导书

关于: 公司简介; 联系方式; 友情链接

关注: 新浪微博; 官方微信

4008-770-662
仅收市话费，周一至周日9:00-18:00
24小时在线客服

GMT+8, 2024-4-26 07:35