这篇文章《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》介绍了利用GooSeeker分词软件对微博内容进行分词,然后用Jupyter Notebook进行LDA处理。

大家使用过程遇到了问题的话,在这里讨论,可以把截图或者代码发出来。

执行notebook的一个要领是:从头开始执行。假设,中间修改了某个cell的代码,最好重新从头开始执行,除非知道前面的cell分别干什么,会否有影响。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2022-4-26 11:21

wangyong 版主 发表于 2021-10-15 10:00:22 | 显示全部楼层
分词效果_202110140250493420.zip (899.45 KB, 下载次数: 3)
举报 使用道具
Fuller 管理员 发表于 2021-10-15 10:22:32 | 显示全部楼层
这个文件里面有空内容,我查查是不是因为有空行造成的
举报 使用道具
gz51837844 管理员 发表于 2021-10-16 08:50:59 | 显示全部楼层
Fuller 发表于 2021-10-15 10:22
这个文件里面有空内容,我查查是不是因为有空行造成的

这个报错确实是由于分词数据表里的“分词数据”这一列有空数据造成的。
我们会加上处理空数据的步骤后,重新上传Notebook
举报 使用道具
gz51837844 管理员 发表于 2021-10-16 16:57:19 | 显示全部楼层
第二版增加了清洗空数据的步骤,可以点击《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》的尾部链接下载
举报 使用道具
Joyce0102 新手上路 发表于 2022-4-25 23:39:48 | 显示全部楼层
你好想问一下这个报错如何解决呀
image.png
举报 使用道具
gz51837844 管理员 发表于 2022-4-26 09:12:03 | 显示全部楼层
Joyce0102 发表于 2022-4-25 23:39
你好想问一下这个报错如何解决呀

从报错信息提示看,应该是某些数据被当作数字而没有当作文本处理,造成了类型错误。
技术人员会测试,看看怎样做改进。
举报 使用道具
Fuller 管理员 发表于 2022-4-26 11:21:10 | 显示全部楼层
gz51837844 发表于 2022-4-26 09:12
从报错信息提示看,应该是某些数据被当作数字而没有当作文本处理,造成了类型错误。
技术人员会测试,看 ...

根据这个教程:https://www.runoob.com/python/att-string-isnumeric.html


看来用isnumeric()函数无法判断是否是浮点数
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-3-29 14:42