EM算法

极大似然估计

Apriori算法

面向问题

关联规则分析

目标：找出频繁项集，和置信度大的关联

支持度：项集出现的频次/总数（项集：部分元素的集合）
置信度：条件概率

支持度和置信度大于规定值则有关联规则X->Y

穷举过于复杂，因此有Apriori算法。

算法优化方法

频繁项集前提定理：

如果一个项集是频繁的，那么其所有的子集（subsets）也一定是频繁的。
如果一个项集是非频繁的，那么其所有的超集（supersets）也一定是非频繁的。

含代码的文档

PageRank

网页权重排序：根据的是用户最有可能打开网页的概率

假设：

用户面对一个网站里的n个链接，打开是等概率的（平均）

方法

有对所有的网页的转移概率矩阵H，$p_0$对网页的初始访问概率。

$P_n=H^nP_0$

上式为第n次访问到网站的概率，理论上可以用这个来排序。

修改

上式存在一些问题，用户可能不会点网站里的链接而选择重新搜索，无出度的网站问题。因此改进转移概率矩阵：

$S = H + ea^T/N$ $G = αS + (1-α)ee^T/N$

S用于生成随机矩阵闭包，α表示用户重新搜索的概率。

α越大pageRank方法越强，越小运算量越少，一般去0.85.

动态规划（Dynamic Programming）

思想：重复的运算就算一次，将结果保留下来

关键：写出状态转移方程

贪心算法

算出局部最优解，来近似全局最优解

C4.5

一种决策树分类策略，同类型的策略有很多。

C4.5将信息熵最小的项作为分类依据。

KNN （K-NearestNeighbor）

在训练集中选取离输入的数据点最近的k个邻居，根据这个k个邻居中出现次数最多的类别（最大表决规则），作为该数据点的类别。

K-means

选取k个初始质心（作为初始cluster）；
repeat：
    对每个样本点，计算得到距其最近的质心，将其类别标为该质心所对应的cluster；
    重新计算k个cluser对应的质心；
until 质心不再发生变化

和KNN关系：利用近邻信息来标注类别。

CART Classification and Regression Trees

二叉决策树？

AdaBoost

集成学习，针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器（强分类器）。

算法

EM算法

Apriori算法

面向问题

算法优化方法

PageRank

方法

修改

动态规划（Dynamic Programming）

贪心算法

C4.5

KNN （K-NearestNeighbor）

K-means

CART Classification and Regression Trees

AdaBoost

SVM

朴素贝叶斯

EM算法

Apriori算法

面向问题

算法优化方法

PageRank

方法

修改

动态规划 （Dynamic Programming）

贪心算法

C4.5

KNN （K-NearestNeighbor）

K-means

CART Classification and Regression Trees

AdaBoost

SVM

朴素贝叶斯

动态规划（Dynamic Programming）