我读了《新冠疫情相关社交媒体谣言传播量化分析》,我理解到的过程是:先从管理后台拿到投诉和举报数据,我估计还有被认定的谣言内容;然后,我估计是利用这些数据把关键词提炼出来,到微博上去搜索,采集到含有这些关键词的微博内容,发博作者等信息;最后,用内容分析法(所谓的定量分析)对微博内容做分类分析。

我理解的这个过程对不对?

那么文中所说的机器学习是不是就是调用现有的一些机器学习或者NLP程序库,比如,Python的nltk,gensim之类的程序库,对微博内容进行计算,我怎么没有看到提出的特有的计算模型?


举报 使用道具
| 回复

共 4 个关于本帖的回复 最后回复于 2021-9-9 10:11

沙发
马涌河畔 金牌会员 发表于 2021-9-9 09:44:44 | 只看该作者
我读了一下这个研究的原文,里面有这样一段:

我们利用STM(Structural topic model)模型对用户自疫情发生以来的疫情相关微博进行主题分类.STM模型是一种无监督文本主题模型,可以通过纳入协变量在主题建模中取得更好地效果.为了更好地训练STM主题模型,我们爬取微博平台......

这个STM模型是怎样的?


举报 使用道具
板凳
内容分析应用 金牌会员 发表于 2021-9-9 09:52:52 | 只看该作者
本帖最后由 内容分析应用 于 2021-9-9 09:53 编辑

按这篇文章《R软件 STM package实操》的解释,STM是一种主题模型,是和LDA模型并列的。

什么是STM?

STM(Structural Topic Models)是Roberts等人提出的主题模型,用于处理文本资料。但不是计算文字概率,而是文字计数(a generative model of word counts)

STM和Latent Dirichlet Allocation (LDA) ,Correlated Topic Model (CTM),相比有哪些优点?

1 它允许用户将任意元数据(每个文档的信息)纳入主题模型 it permits users to incorporate arbitrary metadata, defined as information about each document, into the topic model.用人话来说,之前我们用LDA处理文本时,比如说,调查问卷采集的大量文本数据,lda只是对文本内容进行概率主题建模,但是调查问卷里面常常会调查到性别、年龄、职业等影响主题的metadata信息,这些信息无法纳入lda影响概率主题建模结果,STM的核心创新就是纳入了这一协变量,从而影响主题热度。

2 可以估计主题与主题之间的关系(见封面图,哈哈哈)allow researchers to discover topics and estimate their relationship to document metadata。给出主题之间的关系这点真的很强!!
。。。。。。



举报 使用道具
地板
马涌河畔 金牌会员 发表于 2021-9-9 10:10:26 | 只看该作者
文中提到使用BERT(Bidirectional Encoder Representations from Transformers)与TextCNN结合的方式对3类用户的历史微博数据进行情感分析。
并且使用了一个由北京市经济和信息化局和中国计算机学会等单位发布的“疫情期间网民情绪识别”数据集训练情感分类模型。
举报 使用道具
5#
Fuller 管理员 发表于 2021-9-9 10:11:05 | 只看该作者
这里有三个Jupyter Notebook,用Python实现LDA算法:

微博内容分词后怎样用JupyterNotebook做LDA主题模型分析》:详细讲解了LDA的计算步骤,罗列了必要的参考资料

微博内容分词并手工选词后用JupyterNotebook做LDA主题分析》:使用GooSeeker分词和文本分析软件,做了手工选词,实际上是做了特征词的选择,那么在这个基础上再做话题分析,就会精准很多。

分析电商评论发现消费者话题-LDA主题分析篇(Jupyter Notebook)》:讲解了用LDA模型分析电商网站上的商品评论。由于商品评论的话题是相当封闭的,所以,LDA分析出来的话题一定会比较精准

举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-26 04:19