本帖最后由 wfy810 于 2023-6-26 10:53 编辑

https://www.nature.com/articles/s41422-023-00831-1
网页大概有200个,地址都不同
我想查找这些网页是否存在某一个关键词“AAA”,应该怎么操作?
举报 使用道具
| 回复

共 16 个关于本帖的回复 最后回复于 2023-7-12 10:29

沙发
Fuller 管理员 发表于 2023-6-26 10:54:19 | 只看该作者
可以采集百度搜索结果,用这个快捷采集工具:https://www.gooseeker.com/res/rule_37.html
举报 使用道具
板凳
wfy810 初级会员 发表于 2023-6-26 11:08:02 | 只看该作者
Fuller 发表于 2023-6-26 10:54
可以采集百度搜索结果,用这个快捷采集工具:https://www.gooseeker.com/res/rule_37.html ...

回复好快,谢谢!
网页不是百度,用不了快捷采集

一级页面采集到大概200条二级网页,在这些二级网页搜索关键词“AAA”,导出数据中有该关键词的网页显示“有”或者显示“AAA”,这个可以查看哪个教程呢?
例如:
目录页(一级):https://www.nature.com/cr/articles?type=article
详情页(二级):https://www.nature.com/articles/s41422-023-00831-1

举报 使用道具
地板
Fuller 管理员 发表于 2023-6-26 15:42:20 | 只看该作者
wfy810 发表于 2023-6-26 11:08
回复好快,谢谢!
网页不是百度,用不了快捷采集

这个需要自己定义采集规则。
第一级采集列表,获得详情页网址,可以参看教程:https://www.gooseeker.com/doc/article-520-1.html

翻页参看:https://www.gooseeker.com/doc/article-522-1.html

两级采集的教程参看:https://www.gooseeker.com/doc/article-523-1.html

这些都是初级教程里面:https://www.gooseeker.com/tuto/tutorial.html
举报 使用道具
5#
wfy810 初级会员 发表于 2023-6-26 16:41:46 | 只看该作者
Fuller 发表于 2023-6-26 15:42
这个需要自己定义采集规则。
第一级采集列表,获得详情页网址,可以参看教程:https://www.gooseeker.com ...

这些我已经做好了,现在进行的是后面的步骤,我需要在层级采集之后得到的二级网页内搜索关键词,二级网页没有搜索框。我自己想到的办法是把二级网页的正文文本全都抓取下来,到Excel里去进行筛选,但是不太智能,想请问有没有更好的办法

举报 使用道具
6#
wfy810 初级会员 发表于 2023-6-26 16:52:34 | 只看该作者
Fuller 发表于 2023-6-26 15:42
这个需要自己定义采集规则。
第一级采集列表,获得详情页网址,可以参看教程:https://www.gooseeker.com ...

相当于浏览器Ctrl+F的功能,现在想要 ①自动搜索;②判断该词在页面中存在/不存在,输出判断结果
举报 使用道具
7#
Fuller 管理员 发表于 2023-6-26 21:01:35 | 只看该作者
wfy810 发表于 2023-6-26 16:41
这些我已经做好了,现在进行的是后面的步骤,我需要在层级采集之后得到的二级网页内搜索关键词,二级网页 ...

把采集到的内容导出来,在excel中搜索,我觉得这是个好方法
举报 使用道具
8#
wfy810 初级会员 发表于 2023-6-27 10:17:25 | 只看该作者
Fuller 发表于 2023-6-26 21:01
把采集到的内容导出来,在excel中搜索,我觉得这是个好方法

好的,谢谢回复~
举报 使用道具
9#
wfy810 初级会员 发表于 2023-6-27 15:00:53 | 只看该作者
Fuller 发表于 2023-6-26 21:01
把采集到的内容导出来,在excel中搜索,我觉得这是个好方法


我想采集①的文本内容,但是实际抓到的是②,想请问怎样能只抓①的作者姓名呢,不要这些ORCID号
举报 使用道具
10#
Fuller 管理员 发表于 2023-6-27 18:48:20 | 只看该作者
wfy810 发表于 2023-6-27 15:00
我想采集①的文本内容,但是实际抓到的是②,想请问怎样能只抓①的作者姓名呢,不要这些ORCID号
...

这个有点麻烦,因为每个作者对应一个LI元素,LI元素下应该还有子节点,分别表示名字和ORCID。如果要精确采集,那么要做嵌套整理箱。具体参看教程:https://www.gooseeker.com/doc/article-622-1.html
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-27 18:07