1,什么是分类算法

       所谓分类算法,简单来说,就是根据文本的特征或属性,划分到已有的类别中。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。
       举个简单例子,假设要判断一个人的职业,你首先已经有这些职业者的相关信息,相当于已经分好类,
              穿着={正装,工服,运动装}、收入={低、中、高}、学历={初中、高中、本科},
       如果已有样本中:
             银行从业者={穿着=正装,收入=高,学历=本科}
              快递员=    {穿着=厂服,收入=中,学历=高中}

       根据样本数据,我们就能预测属性为{穿着=正装,收入=高,学历=本科}的人为银行从业者,这就是一个监督学习的过程,当然这只是个简单的例子,具体分类和实际情况要复杂的多。
       常见的分类算法主要包括:
       1)决策树分类法
       2)朴素的贝叶斯分类算法
       3)基于支持向量机(SVM)
       4)神经网络法
       5)k-最近邻法
       6)模糊分类法
       今天主要简单介绍一下决策树分类法。


2,什么是决策树
      
       所谓决策树,顾名思义,是一种树,一种依托于策略抉择而建立起来的树。从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树,说白了,这是一种依托于分类、训练上的预测树,根据已知预测、归类未来。
       举例说明:
       套用俗语,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:
              女儿:多大年纪了?
              母亲:26。
              女儿:长的帅不帅?
              母亲:挺帅的。
              女儿:收入高不?
              母亲:不算很高,中等情况。
              女儿:是公务员不?
              母亲:是,在税务局上班呢。
              女儿:那好,我去见见。
       这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决逻辑。

       我们可以将数据分为两块,X={年龄,长相,收入,公务员},Y={见,不见}。我们建立这颗决策树的目的就是,让计算机自动去寻找最合适的映射关系,即:Y = f(X),X我们称之为样本,Y我们称之为结果(行为/类)。通俗来说,就是X决定Y。
       假设以上示例中的样本足够大,那么就可以根据样本数据的分类情况进行预测,年龄小于30,长相帅气,收入高或者收入中等但职业为公务员的男生在相亲是更能赢得与妹子见面的机会。
       那么,决策树的计算原理是怎样的,决策树的主要算法又有哪些,请看《分类算法---决策树分类(二)

参考文献:从决策树学习谈到贝叶斯分类算法、EM、HMM
举报 使用道具
| 回复

共 1 个关于本帖的回复 最后回复于 2015-12-16 22:35

沙发
xandy 论坛元老 发表于 2015-12-16 22:35:13 | 只看该作者
通俗易懂~
举报 使用道具
您需要登录后才可以回帖 登录 | 立即注册

精彩推荐

  • Gephi社会网络分析-马蜂窝游记文本分词并同
  • Gephi社会网络分析-基于马蜂窝游记文本以词
  • 知乎话题文本根据词语间距筛选后生成共词矩
  • 马蜂窝游记文本分词后以词语间距为筛选条件
  • 学习使用apriori算法挖掘关联关系

热门用户

GMT+8, 2024-4-29 03:13