121#
gz51837844 管理员 发表于 2023-2-8 17:01:36 | 只看该作者
JeromeL 发表于 2023-2-8 16:57
请问是不是微博数据采集不全,每次采集的条数和时间段都不一样呢?

采集微博的什么数据?你使用的是哪个快捷采集或者微博工具箱工具?
举报 使用道具
122#
Lj001129 初级会员 发表于 2023-2-8 17:49:59 | 只看该作者
gz51837844 发表于 2023-2-8 16:10
页面上可以按热度排名显示吗?如果有,应该可以采集。

有的 单个视频评论就是按照热度显示的 具体我应该怎么设置快捷采集只采集前二十个评论呢?
举报 使用道具
123#
gz51837844 管理员 发表于 2023-2-8 18:03:17 | 只看该作者
Lj001129 发表于 2023-2-8 17:49
有的 单个视频评论就是按照热度显示的 具体我应该怎么设置快捷采集只采集前二十个评论呢?
...

你发个链接出来,我们技术测试下
举报 使用道具
124#
Lj001129 初级会员 发表于 2023-2-8 19:01:30 | 只看该作者
gz51837844 发表于 2023-2-8 18:03
你发个链接出来,我们技术测试下

https://www.douyin.com/music/6920545851686275853?modal_id=7132342125139594533
举报 使用道具
125#
JeromeL 初级会员 发表于 2023-2-9 09:55:47 | 只看该作者
TwitterAuthorTweetsData,快捷采集,昨天采集了131个用户主页,眼看着起码十万条以上,采集了10个小时,最后打包21条。
举报 使用道具
126#
JeromeL 初级会员 发表于 2023-2-9 09:57:55 | 只看该作者
是否可以把采集数据直接存储在本地,你们上传后,怎么数据就没了啊。我付过费了可否把数据存在本地呢?
举报 使用道具
127#
gz51837844 管理员 发表于 2023-2-9 10:48:24 | 只看该作者
JeromeL 发表于 2023-2-9 09:57
是否可以把采集数据直接存储在本地,你们上传后,怎么数据就没了啊。我付过费了可否把数据存在本地呢? ...

入库后原始xml文件在本地是有保存的, 一般放在:用户目录/DataScraperWorks/任务名/imported/




举报 使用道具
128#
gz51837844 管理员 发表于 2023-2-9 10:53:52 | 只看该作者
JeromeL 发表于 2023-2-9 09:55
TwitterAuthorTweetsData,快捷采集,昨天采集了131个用户主页,眼看着起码十万条以上,采集了10个小时,最 ...

后台查了一下,你昨天采集的所有的TwitterAuthorTweetsData,原始入库11205条,去重后是3705条,总共的博主名称是4个


举报 使用道具
129#
gz51837844 管理员 发表于 2023-2-9 11:11:13 | 只看该作者

你这个网址https://www.douyin.com/music/692 ... 7132342125139594533, 需要修改成https://www.douyin.com/video/7132342125139594533
然后添加到抖音视频评论采集,添加的时候,选择“页数:1页”,我测试了一下,这样大概采集到80条。这个抖音评论无法精确控制采集多少条。
如果只需要前20条,可以导出excel后做处理

举报 使用道具
130#
JeromeL 初级会员 发表于 2023-2-9 13:27:58 | 只看该作者
gz51837844 发表于 2023-2-9 10:53
后台查了一下,你昨天采集的所有的TwitterAuthorTweetsData,原始入库11205条,去重后是3705条,总共的博 ...

您看看我给的链接,有130个,不一样的。我看着采完了不止10个。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-24 18:51