关于用JupyterNotebook做微博内容LDA主题模型分析的讨论

Fuller

这篇文章《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》介绍了利用GooSeeker分词软件对微博内容进行分词，然后用Jupyter Notebook进行LDA处理。

大家使用过程遇到了问题的话，在这里讨论，可以把截图或者代码发出来。

执行notebook的一个要领是：从头开始执行。假设，中间修改了某个cell的代码，最好重新从头开始执行，除非知道前面的cell分别干什么，会否有影响。

wangyong · 发表于 2021-10-15 10:00:22

分词效果_202110140250493420.zip (899.45 KB, 下载次数: 3)
用这份数据在当前notebook下运行到这段代码会报错

## 对读取到的分词效果数据(语料库)进行预处理：去除纯数字和只有一个字的词
#%%
texts = df_file_source.tolist()
# 去除纯数字和只有一个字的词
processed_corpus = [[token for token in text if not (token.isnumeric() or len(token) < 1 )] for text in texts]
# 显示前10行的处理结果
for item in range(10):
print(processed_corpus[str(item)])

复制代码

TypeError: 'float' object is not iterable

Fuller · 发表于 2021-10-15 10:22:32

这个文件里面有空内容，我查查是不是因为有空行造成的

gz51837844 · 发表于 2021-10-16 08:50:59

Fuller 发表于 2021-10-15 10:22
这个文件里面有空内容，我查查是不是因为有空行造成的

这个报错确实是由于分词数据表里的“分词数据”这一列有空数据造成的。
我们会加上处理空数据的步骤后，重新上传Notebook

gz51837844 · 发表于 2021-10-16 16:57:19

第二版增加了清洗空数据的步骤，可以点击《微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》的尾部链接下载

Joyce0102 · 发表于 2022-4-25 23:39:48

你好想问一下这个报错如何解决呀

gz51837844 · 发表于 2022-4-26 09:12:03

Joyce0102 发表于 2022-4-25 23:39
你好想问一下这个报错如何解决呀

从报错信息提示看，应该是某些数据被当作数字而没有当作文本处理，造成了类型错误。
技术人员会测试，看看怎样做改进。

Fuller · 发表于 2022-4-26 11:21:10

gz51837844 发表于 2022-4-26 09:12
从报错信息提示看，应该是某些数据被当作数字而没有当作文本处理，造成了类型错误。
技术人员会测试，看 ...

根据这个教程：https://www.runoob.com/python/att-string-isnumeric.html

看来用isnumeric()函数无法判断是否是浮点数

关于用JupyterNotebook做微博内容LDA主题模型分析的讨论

共 7 个关于本帖的回复最后回复于 2022-4-26 11:21

推荐板块

精彩推荐

热门话题

热门用户

	B Color Image Link Quote Code Smilies 高级模式您需要登录后才可以回帖登录 \| 立即注册回帖并转播回帖后跳转到最后一页

关于用JupyterNotebook做微博内容LDA主题模型分析的讨论

共 7 个关于本帖的回复 最后回复于 2022-4-26 11:21

推荐板块

精彩推荐

热门话题

热门用户

共 7 个关于本帖的回复最后回复于 2022-4-26 11:21