191#
jikexin102412 新手上路 发表于 2023-11-23 23:57:21 | 只看该作者
Fuller 发表于 2023-11-23 16:07
你所用的快捷采集工具的网址发出来,再把你要采集的公司网址发出来,我们测试一下,看看是不是网络爬虫规 ...

我先用的免编程定义网络爬虫采集规则,快捷抓取网页数据,前程无忧_岗位关键词搜索列表采集数据 (gooseeker.com),采集的岗位关键词,这个部分是没有问题的,然后也成功收集几百条公司详情页链接(其中一条网址:https://jobs.51job.com/all/coUTUFZAdiAz8GYANjXDs.html),然后用这个网址进行第二步操作(获取公司列表)就显示错误,然后我用你们网页的那个示例页面的网址尝试也抓取错误,不晓得是不是有什么问题。辛苦帮忙看看,谢谢了~
举报 使用道具
192#
gz51837844 管理员 发表于 2023-11-24 09:40:11 | 只看该作者
jikexin102412 发表于 2023-11-23 23:57
我先用的免编程定义网络爬虫采集规则,快捷抓取网页数据,前程无忧_岗位关键词搜索列表采集数据 (gooseeke ...

51job的3个快捷采集:1. 根据关键词获取公司详情网址, 2.根据公司详情网址获取职位列表, 3. 获取职位详情
我们测试这3个快捷采集都是OK的
你可以清一下缓存再试试,清缓存的方法参见:
集搜客爬虫软件和数据管家怎样清除cookie/缓存/网页访问记录
数据管家怎样彻底清缓存?
举报 使用道具
193#
ququ0930 新手上路 发表于 2023-11-27 10:41:05 | 只看该作者
采集抖音评论怎么都是乱码 不是文字
举报 使用道具
194#
Fuller 管理员 发表于 2023-11-27 11:52:30 | 只看该作者
ququ0930 发表于 2023-11-27 10:41
采集抖音评论怎么都是乱码 不是文字

抖音哪条视频的评论?把网址发出来我试试
举报 使用道具
195#
ququ0930 新手上路 发表于 2023-11-29 16:11:30 | 只看该作者
Fuller 发表于 2023-11-27 11:52
抖音哪条视频的评论?把网址发出来我试试

https://www.douyin.com/video/7253428412587445556            这个 谢谢
举报 使用道具
196#
Fuller 管理员 发表于 2023-11-30 10:28:52 | 只看该作者
ququ0930 发表于 2023-11-29 16:11
https://www.douyin.com/video/7253428412587445556            这个 谢谢


这是我采集的结果,没有发现乱码。在启动采集任务之前,你在爬虫浏览器中登录抖音了吗?采集过程中,观察一下爬虫窗口,能显示出来评论吗?所有的内容是乱码还是只有一部分是乱码?可以截个图看看
举报 使用道具
197#
lzl0927 初级会员 发表于 2024-1-19 21:09:19 | 只看该作者
在使用微博博文展开全文采集的时候,总有一半的网址显示抓取出错。重采失败之后显示全部抓取成功,但是打包的时候条数还是对不上(比如显示采集了200条,打包只有144条)。快疯了,救命
举报 使用道具
198#
Fuller 管理员 发表于 2024-1-19 23:18:04 | 只看该作者
lzl0927 发表于 2024-1-19 21:09
在使用微博博文展开全文采集的时候,总有一半的网址显示抓取出错。重采失败之后显示全部抓取成功,但是打包 ...

在哪里显示采集了多少条,有采集失败的吗?
举报 使用道具
199#
lzl0927 初级会员 发表于 2024-1-23 22:30:15 | 只看该作者
Fuller 发表于 2024-1-19 23:18
在哪里显示采集了多少条,有采集失败的吗?

就像图里这样,我输入了50个网址,进度显示50个采集完成,10个抓取出错,但打包的时候却只有7条,重采也没什么变化。。。

0253927b77e2121a34ca7a898682511.png (25.77 KB, 下载次数: 189)

0253927b77e2121a34ca7a898682511.png

6400415a6b06c364b1ebdf8fbe44f08.png (46.98 KB, 下载次数: 197)

6400415a6b06c364b1ebdf8fbe44f08.png

5492a18ef70921a20291175d900cd94.png (42.05 KB, 下载次数: 197)

5492a18ef70921a20291175d900cd94.png
举报 使用道具
200#
Fuller 管理员 发表于 2024-1-23 22:39:23 | 只看该作者
lzl0927 发表于 2024-1-23 22:30
就像图里这样,我输入了50个网址,进度显示50个采集完成,10个抓取出错,但打包的时候却只有7条,重采也 ...

把出错的链接发出来几个,我们测试一下。
你要点击上图中的下一页,逐页翻看,才能知道总共有多少个失败
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 08:00