快捷导航
在CSDN上有这样一个帖子《共现矩阵》,它给出的截图,对角线上的数字全部是0,而集搜客分词和文本分析软件导出的数字不是0,对于共词分析和度分析有没有影响。

我还看到这么一个帖子:
因为TFIDF算法的提取关键词的准确性很差,tfidf提取出的关键词很难看出文本的主旨,于是考虑结合文本语义对词汇的权重(IDF)重新分配,于是想要借鉴SKE算法,即将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。
因为构造词语网络需要先构造关键词共现图,关键词共现图需要先构造关键词共现矩阵,所以第一步就是构造关键词共现矩阵。

还有程序:《关键词提取:构造共现矩阵》。我准备模仿写个程序试试


举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2020-10-14 12:02

Fuller 管理员 发表于 2020-10-14 12:02:44 | 显示全部楼层
对于分析没有影响。对角线上不是0,而是表示发生共现的文档数量,这样可以在展示共现关系图的时候,用不同大小的气泡表示共现的频繁程度。

集搜客分词和文本分析软件具有导出共现矩阵的功能,也可以直接显示共现关系图。
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • 数据管家和集搜客网络爬虫超出配额是怎么回
  • 用GooSeeker数据管家能采集微博内容吗?
  • 怎样使用GooSeeker数据管家启动采集任务?
  • GooSeeker数据管家软件使用指导
  • 如何使用集搜客分词平台做社会网络图分析?

热门用户

GMT+8, 2020-10-30 09:17