聚类分析和主题分析中的特征选择参数的设置原则

2026-1-15 17:28| 发布者: Fuller| 查看: 47| 评论: 0

摘要: 1. 特征词选择的方法所谓特征词就是对此次分析目标来说是有意义的词。还有大量的无意义的词,会对聚类分析和主题分析有不好的影响。因此,需要在执行分析算法之前进行特征选择。GooSeeker分词和情感分析软件提供两种 ...

1. 特征词选择的方法

所谓特征词就是对此次分析目标来说是有意义的词。还有大量的无意义的词,会对聚类分析和主题分析有不好的影响。因此,需要在执行分析算法之前进行特征选择。

GooSeeker分词和情感分析软件提供两种特征选择的方法:

  1. 手工选择特征词:这是GooSeeker分词软件的特色功能,手工选择可以做到精挑细选。但是,往往只选择最有代表性的词,会失掉大量共词关系信息,所以,主题分析(LDA和NMF)时不再允许导入选词结果表。而是只用自动特征选择算法。
  2. 利用自动特征选择算法

本文主要讲解自动特征选择时怎样调整参数,以便控制选择范围。

2. 自动特征选择算法

集搜客发布的文本挖掘和分析类软件所使用的特征选择算法主要来自scikit-learn,选用了其中两种特征提取算法。所谓特征提取就是从文本中提取特征词,并将文本变成向量:

1. TfidfVectorizer:使用tf-idf这个指标进行特征提取

2. CountVectorizer:使用词频这个指标进行特征提取

3. 为机器学习模型调整参数

无论是聚类还是LDA主题分析,在集搜客数据管家界面上都有一个“调参”链接,进入以后就可以调整特征选择的参数。用来控制所选词的数量。所以,不管采用tf-idf还是采用count(词频),参数是一样的:

  • max_features:根据词频或者tf-idf排序以后(从高到低),从满足下面两个条件的词里面从前往后选择max_features个特征词。
  • max_df:用于过滤掉高频词。既可以填整数,也可以填小数。【注意】整数和小数的含义不同。如果是整数,比如,填上15,表示这个词最多只能出现在15个文档中。出现的多了就被过滤掉。如果是小数,表示含有这个词的文档比例,比如,填上0.3,表示超过30%的文档中含有这个词的话,就会被过滤掉。
  • min_df:用于过滤掉低频词。同样也是既可以填整数,也可以填小数。如果是整数,比如,填上3,表示这个词至少应该出现在3个文档中才能被选上,否则就会被过滤掉。如果是小数,比如,填上 0.05,表示少于5%的文档含有这个词的话,就会被过滤掉。

4. 特殊案例

根据上面的解释,如果想选择所有词,那么应该这样填写:

  • max_df:1.0
  • min_df:1

注意,max_df=1.0 取小数值,表示100%,就是说所有文档都含有这个词也不会被滤除;min_df=1 取整数值,表示至少出现在1个文档中,就是说只要出现在1个文档中就不会被滤除。这就包含了所有的词。

【注意】这里所说的“所有词”是指GooSeeker聚类和主题分析扩展模块在执行了缺省的滤除处理以后剩下的所有词。

5. 缺省的滤除处理

GooSeeker聚类和主题分析扩展模块在按照上面的特征选择参数过滤特征词之前,内部已经先做了一些过滤处理。主要是为了过滤掉一些没有意义的虚词。尤其在分析英文的时候,虚词的比例很高,一定要先进行过滤。

GooSeeker聚类和主题分析扩展模块已经发展了多个版本,随着版本升级,缺省的过滤处理也在逐步优化。

  1. V3及以前的版本:没有按照词性执行过滤,但是,却把只有单字的词过滤掉了。经过测试发现,很多中文的动词都是单字,所以,会影响到LDA的结果
  2. V4版本:英文过滤掉虚词。中英文都不再过滤掉单字
  3. V5及以后版本:在界面上可以选择要过滤掉的词性


鲜花

握手

雷人

路过

鸡蛋

最新评论

GMT+8, 2026-1-16 05:18