(423) 527-3880

概率模型有时既含有观测变量,又含有隐变量(hidden variable)或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些估计方法。 EM算法是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。它对处理大量的数据不完整问题非常有用。特别是,EM算法能大幅度简化对有限混合模型极大似然拟合问题的处理,而混合模型是对聚类分析、模式识别等任务中的异质性进行建模的重要手段。EM算法的每次迭代由两步组成:E步,求期望(expectation);M步,求极大化(maxim…

437-224-0819

20 Newsgroups 文档分类

一、问题定义 问题陈诉 此次研究的是使用自然语言处理技术结合决策树、支持向量机、朴素贝叶斯、神经网络这些机器学习方法对训练集进行学习文档分类,使得训练后的模型能够对测试集文本进行较为准确的分类。这是个典型的多分类的监督学习问题。 项目使用的数据集为经典的20 Newsgroups数据集,该数据集大约有20000条新闻组文档, 比较均衡地分成了20类,标记了所属类别。该数据集已经成为机器学习技术的文本应用中的实验流行数据集,例如文本分类和文本聚类。该数据集提供了包含了足量、分类均匀的文本信息,十分适合用于机器学习文本分类。 评价指标 准确率:正确分类的测试集文档数目除以测试集文档总数得到的比率 …

Read More

9702469067

正则化 机器学习需要考虑按照什么样的准则学习或选择最优的模型,因此引入损失函数和风险函数。学习的目标就是选择期望风险最小的模型。 损失函数:度量模型一次预测的好坏; 风险函数:度量平均意义下模型预测的好坏; 经验风险:当样本数量趋于无穷是,经验风险趋于期望风险; 结构风险 = 经验风险 + 正则化项(regularizer) 实际训练中,样本数量是有限的,所以用经验风险估计期望风险往往并不理想,要对经验风险进行一定的矫正,这就关系到了监督学习的两个基本策略:经验风险最小化和结构风险最小化,结构风险最小化也叫正则化(regularization)。 当样本容量足够大时,经验风险最小化能保证有很好…

6084127293

9076287317

贝叶斯定理是关于随机事件A和B的条件概率的一则定理: $$P(A|B) = {P(B|A)P(A) \over P(B)}$$ $P(A|B)$——已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率; $P(A)$——A的先验概率,之所以称为“先验”是因为它不考虑任何B方面的因素; $P(B|A)$——已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率; $P(B)$——B的先验概率。 推导贝叶斯定理 根据文氏图可知: $$P(A|B) = {P(A\cap B) \over P(B)} \to P(A\cap B)=P(A|B)P(B)$$ $$P(B|A) = …

Read More

217-717-8279

在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”(curse of dimensionality)。 缓解维数灾难的一个重要途径就是降维,即通过某种数学变换将原始高维属性空间转变为一个低维子空间,在这个子空间中样本密度大幅提高,距离计算也变得更容易。降维意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低。例如一组数据中有两列,分别是性别和身份证号码,由于可以通过身份证号码判断性别,此时去掉性别这一列并没有信息损失。 主成分分析是最常用的一种降维方法,从降维的角度来看,有两种PCA定义…

Read More

数据挖掘十大算法 | k-均值聚类算法

在回归、分类等有监督学习任务中要定义类别标签或者目标值,但聚类过程中的输入对象没有与之关联的目标信息(即类别标签或者目标值),因此聚类通常归于无监督学习任务。 k-均值聚类算法是一种简单的迭代型聚类算法,它将一个给定的数据集分为用户指定的k个聚簇。实现和运行该算法都很简单,它的速度也比较快,同时又易于修改,所以再实际中使用非常广泛。它可以说是数据挖掘领域发展史中最为重要的算法之一。 给定样本集$D=\{x_1,x_2,…,x_m\}$,k-均值聚类算法针对聚类所得簇划分$C=\{C_1,C_2,…,C_k\}$最小化平方误差$$E=\sum\limits_{i=1}^k…

8176383980

9072986521

前段时间,“西安摇号买房内定”的新闻一次次刷上了微博热搜,把买房这个半公开的秘密给挑破了。 摇号使用的是开发商的摇号系统,开发商通过修改程序来内定中奖号码十分容易。传统的抓阄也可以通过种种手段作弊,难以令人信服。 设计一个真正公平的抽奖程序,很大程度上就需要考虑如何作弊和反作弊,最重要的是如何让人信服。如果仅仅考虑使用多个随机函数结合来增强随机性,这样的结果是无法令人信服的。你说你生成的数字是随机数,可你怎么证明呢?毕竟即使是同样的随机数生成算法,每次生成的随机数也必然不一样,结果无法复现。 只要能够使得随机数生成算法公开并且生成随机数可复现,就能解决抽奖算法的信任问题。我们可以提前公布随机数…

Read More

数据挖掘十大算法 | 支持向量机

支持向量机(SVM)是在所有知名的数据挖掘算法中最健壮、最准确的方法之一,主要包括支持向量分类(SVC)和支持向量的回归器(SVR)。支持向量机这个名字强调了此类学习器的关键是如何从支持向量的构建出解;同时也暗示着其复杂度主要与支持向量的数目有关。SVM可以从大量训练数据中选出很少的一部分用于模型构建,而且通常维数不敏感。 支持向量机学习方法包含构建由简至繁的模型: 线性可分支持向量机:当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机; 线性支持向量机:当训练数据近似线性可分时,通过软间隔最大化,学习一个线性的分类器,即线性支持向量机,…

Read More

4014107615

CART算法(Classification and Regression Tree,分类与回归树)使用“基尼指数”(Gini index)来选择划分决策树属性。该算法既可以用于分类还可以用于回归。 假定当前样本集合$D$中第$k$类样本所占的比例为$p_k(k=1,2,…,\left| y \right|)$,则数据集$D$的纯度可用基尼值来度量: $$Gini(D)=\sum\limits_{k=1} ^\left| y \right|\sum\limits_{k’\ne k}p_kp_{k’}=1-\sum\limits_{k=1} ^\left| y …

(716) 476-6169

(510) 409-7981

C4.5算法是由Ross Quinlan开发的用于产生决策树的算法,该算法是对ID3算法的一个扩展。C4.5算法除了能诱导出决策树,还可以将决策树转换成某种具有良好可理解性的规则。特别是进一步看到,通过C4.5的后剪枝操作得到的分类器不能再精确地被转换回决策树。 ID3算法 “信息熵”(information entropy)是度量样本集合纯度最常用的一种指标。假定当前样本集合$D$中第$k$类样本所占的比例为$p_k(k=1,2,…,\left| y \right|)$,则$D$的信息熵定义为 $$Ent(D) = – \sum \limits_{k=1} ^\lef…

Read More