如何管理网络爬虫的线索

2020-12-1 12:09| 发布者: Fuller| 查看: 9090| 评论: 1

摘要: 线索和网址就是一回事,网页的网址其实就是爬虫要爬行的线索。做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面 ...

配套软件版本:V10及更高 数据管家——增强版网络爬虫

老版本对应教程:V9及更低 集搜客网络爬虫 的对应教程是《如何管理规则的线索


注:下面说的线索和网址就是一回事,网页的网址其实就是爬虫要爬行的线索

1. 应用场景

1.1 添加网址:做好了一个规则,不仅仅是用来采集样本网页的,还可以采集与样本网页结构相同的网页,只需把网址添加到规则中就行。例如,做了一个采集某个京东商品页面的规则,就可以采集不同商品的页面,我们只需把这些商品的网址添加到规则里。

1.2 激活线索:采集完一批网址,还想重新采集一遍,不用再添加一次,直接激活所有线索,就能重复采集这批网址。

1.3 删除线索:如果不想再采集这批网址,我们可以去活线索或者是删掉线索,这样爬虫就不会采集了。

1.4 查看线索状态:想知道当前任务中,哪些线索已经采集了,哪些线索失败了,哪些正在采集中,哪些还没有采集。

2. 进入任务管理界面

要管理线索,首先要进入任务管理界面。有两种途径可以进入。

途径一:通过数据管家软件左栏的快捷按钮


途径二:通过网页上的菜单


3. 管理线索

在任务管理界面的右下方,有管理线索的按钮,可以添加,激活,删除线索等等。


3.1. 添加线索

点击添加网址按钮,按照提示输入网址,还可以输入excel文件,批量添加网址

3.2. 删除,激活,去活线索

选中一个或者几个线索,然后点击相应的按钮,就可以删除,激活,去活线索。所谓“激活”,就是把爬取过的网址激活后让爬虫重新爬一次。

3.3. 查看线索状态

在抓取数据的过程中,线索的状态可能是已采集,采集中,待采集,采集失败。可按状态筛选、查看线索。

在筛选的右侧是四个对各状态的线索进行批处理的按钮,比如可以批量激活失败的线索,然后就这些线索就变成待采集状态,等待采集。


4. 启动采集

线索整理好了,就可以启动采集数据了。



上篇文章:《网络爬虫生成的XML格式结果文件》                                下篇文章:《启动数据采集


鲜花
1

握手

雷人

路过

鸡蛋

刚表态过的朋友 (1 人)

发表评论

最新评论

评论 aaaaaabb2211 2023-4-2 20:26

查看全部评论(1)

GMT+8, 2024-3-28 22:21