这篇文章《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》介绍了利用GooSeeker分词软件对微博内容进行分词,然后用Jupyter Notebook进行LDA处理。

大家使用过程遇到了问题的话,在这里讨论,可以把截图或者代码发出来。

执行notebook的一个要领是:从头开始执行。假设,中间修改了某个cell的代码,最好重新从头开始执行,除非知道前面的cell分别干什么,会否有影响。
举报 使用道具
| 回复

共 7 个关于本帖的回复 最后回复于 2022-4-26 11:21

沙发
wangyong 版主 发表于 2021-10-15 10:00:22 | 只看该作者
分词效果_202110140250493420.zip (899.45 KB, 下载次数: 3)
用这份数据在当前notebook下运行到这段代码会报错
  1. ## 对读取到的分词效果数据(语料库)进行预处理:去除纯数字和只有一个字的词

  2. #%%

  3. texts = df_file_source.tolist()  
  4. # 去除纯数字和只有一个字的词
  5. processed_corpus = [[token for token in text if not (token.isnumeric() or len(token) < 1 )] for text in texts]
  6. # 显示前10行的处理结果
  7. for item in range(10):
  8.     print(processed_corpus[str(item)])
复制代码
TypeError: 'float' object is not iterable

举报 使用道具
板凳
Fuller 管理员 发表于 2021-10-15 10:22:32 | 只看该作者
这个文件里面有空内容,我查查是不是因为有空行造成的
举报 使用道具
地板
gz51837844 管理员 发表于 2021-10-16 08:50:59 | 只看该作者
Fuller 发表于 2021-10-15 10:22
这个文件里面有空内容,我查查是不是因为有空行造成的

这个报错确实是由于分词数据表里的“分词数据”这一列有空数据造成的。
我们会加上处理空数据的步骤后,重新上传Notebook
举报 使用道具
5#
gz51837844 管理员 发表于 2021-10-16 16:57:19 | 只看该作者
第二版增加了清洗空数据的步骤,可以点击《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》的尾部链接下载
举报 使用道具
6#
Joyce0102 新手上路 发表于 2022-4-25 23:39:48 | 只看该作者
你好想问一下这个报错如何解决呀

image.png (22.14 KB, 下载次数: 487)

image.png
举报 使用道具
7#
gz51837844 管理员 发表于 2022-4-26 09:12:03 | 只看该作者
Joyce0102 发表于 2022-4-25 23:39
你好想问一下这个报错如何解决呀

从报错信息提示看,应该是某些数据被当作数字而没有当作文本处理,造成了类型错误。
技术人员会测试,看看怎样做改进。
举报 使用道具
8#
Fuller 管理员 发表于 2022-4-26 11:21:10 | 只看该作者
gz51837844 发表于 2022-4-26 09:12
从报错信息提示看,应该是某些数据被当作数字而没有当作文本处理,造成了类型错误。
技术人员会测试,看 ...

根据这个教程:https://www.runoob.com/python/att-string-isnumeric.html


看来用isnumeric()函数无法判断是否是浮点数
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-20 03:20