1. 特征词选择的方法 所谓特征词就是对此次分析目标来说是有意义的词。还有大量的无意义的词,会对聚类分析和主题分析有不好的影响。因此,需要在执行分析算法之前进行特征选择。 GooSeeker分词和情感分析软件提供两种特征选择的方法:
本文主要讲解自动特征选择时怎样调整参数,以便控制选择范围。 2. 自动特征选择算法 集搜客发布的文本挖掘和分析类软件所使用的特征选择算法主要来自scikit-learn,选用了其中两种特征提取算法。所谓特征提取就是从文本中提取特征词,并将文本变成向量: 1. TfidfVectorizer:使用tf-idf这个指标进行特征提取 2. CountVectorizer:使用词频这个指标进行特征提取 3. 为机器学习模型调整参数 无论是聚类还是LDA主题分析,在集搜客数据管家界面上都有一个“调参”链接,进入以后就可以调整特征选择的参数。用来控制所选词的数量。所以,不管采用tf-idf还是采用count(词频),参数是一样的:
4. 特殊案例 根据上面的解释,如果想选择所有词,那么应该这样填写:
注意,max_df=1.0 取小数值,表示100%,就是说所有文档都含有这个词也不会被滤除;min_df=1 取整数值,表示至少出现在1个文档中,就是说只要出现在1个文档中就不会被滤除。这就包含了所有的词。 【注意】这里所说的“所有词”是指GooSeeker聚类和主题分析扩展模块在执行了缺省的滤除处理以后剩下的所有词。 5. 缺省的滤除处理 GooSeeker聚类和主题分析扩展模块在按照上面的特征选择参数过滤特征词之前,内部已经先做了一些过滤处理。主要是为了过滤掉一些没有意义的虚词。尤其在分析英文的时候,虚词的比例很高,一定要先进行过滤。 GooSeeker聚类和主题分析扩展模块已经发展了多个版本,随着版本升级,缺省的过滤处理也在逐步优化。
|