在GooSeeker分词工具界面上,我按照界面要求创建了excel表,含有表头。导入了2273条数据,导入成功以后,在界面上显示出来2274条数据。我导出了分词效果表,在excel中看也是2274条数据。为什么会多一条
举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2023-12-19 10:58

沙发
Fuller 管理员 发表于 2023-12-19 10:49:22 | 只看该作者
一定要确保表头的每个字段名字跟要求的名字完全一致,否则会把表头和每个单元格都当成一条正文,那么,得到正文条数一定会增加。


举报 使用道具
板凳
xinzhishengchanli 新手上路 发表于 2023-12-19 10:50:01 | 只看该作者
我导入的excel表肯定表头没错,这点我确信
举报 使用道具
地板
Fuller 管理员 发表于 2023-12-19 10:56:26 | 只看该作者
你导入的数据是否有文本很长的单元格?一个单元格不要超过1万个字。另外,如果你导入的数据有长有段,本身就失去了相互对比的意义。比如,假设有一个1万字的文章,那么就这一个文本可能包含了你所选的大部分词,当生成共现词矩阵和做社交网络图的时候,你会发现在这个文章上,所有词都共现了,共现分析一定会受到影响;在情感分析那里也会有很大影响,文章太长,有正面的句子也有负面的句子,两两抵消,就干扰了情感倾向分析。所以,最好预处理一下,比如,手工切分成段落,当成多条文本进行分析。

如果文本很长,集搜客分词软件会自动做切分,在1万字左右切分,所以,不要超过1万字,否则的话,切分是自动的不受控的。
下面这个截图就是2号文本被切成了4段



举报 使用道具
5#
xinzhishengchanli 新手上路 发表于 2023-12-19 10:58:52 | 只看该作者
明白了,确实是文本太长被切开了
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 19:07