统计机器学习-张志华
- 网络算法与机器学习的关系
- 模型推理与知识获取
- 统计与数据挖掘的不同
- 数据的处理与特征提取
- 有监督学习与无监督学习
在这门课中,我们将学习以下内容:网络算法、优化概率统计、数据矩阵、模型推理,以及通过学习获取知识。
这些内容构成了我们机器学习的基本定义。我们曾经在信息之中追求知识,那么,什么是信息,什么是知识呢?知识是有用的信息,而信息与知识之间存在着一个中介,那就是数据。数据本身是没有知识的,我们需要通过模型将数据转化为知识。
实际上,这个过程需要模型的支持。模型帮助我们表示数据,通过推理将数据转化为知识。这就是积极学习,它是获取知识的一个过程。我们的基本定义便是:什么是积极学习?
我们知道,统计学在课中占有重要位置,因为积极学习的目的就是获取知识和建立模型。而统计为我们提供了建模的框架。一般认为积极学习是统计的一个分支。
在这方面,让我们来理解统计学习与积极学习的关系。现在我给大家画一张表,左边是积极学习,右边是统计。积极学习是通过人工智能发展出来的,而统计是从概率发展而来的,因此它们的起源不同。尽管如此,它们在本质上解决的问题是相同的。
统计学习与积极学习,它们都存在一些差异,而这些差异主要源于它们的定义和符号。比如在统计学习中,我们通常会见到图和模型,而在积极学习中,我们则强调的是网络和图形。统计有两个基本任务:参数拟合与模型测试。
了解了这点后,让我们谈谈数据挖掘。很多老师会说,数据挖掘与积极学习的关系。然而,实际上这两者在本质上是相似的。积极学习偏向于完全自动的处理,而数据挖掘则更倾向于半自动、需要人类解释的过程。
从理论计算机的角度来看,积极学习的模型在未来将朝着概率与统计的基础方向发展。我们可以看到,计算机科学的最高奖——图灵奖,也颁给了做概率图模型的学者,这展示了计算机界对机器学习的认可。
至于工业界的推动,像谷歌、Facebook等公司,已经明确表示自己是机器学习公司,这反映了他们对数据科学的重视。
接下来,讨论一下机器学习的基本问题。我们知道,数据包含特征和样本。对于一个样本,我们可以表现为N个数据点,每个数据点有P个特征。这可以形成一个N乘P的矩阵,矩阵中的每一行代表一个样本。
在研究中,我们通常关注几个问题:降维、聚类、分类等。降维是通过简单的线性变换将高维数据降到低维,而聚类是将N个数据点聚为K类,分类则是根据输入数据预测其对应的类别。
监督学习通常是将数据分为训练集、验证集、和测试集。训练集用于训练模型,验证集用于调整超参数,测试集则用于评估模型的性能。
最后,我们讨论机器学习的两种方法:频率派方法和贝叶斯方法。频率派视模型参数为固定常数,通过最小化误差来估计,而贝叶斯则将参数视为随机变量,通过后验概率分布来估计。
这就是机器学习的概述。在接下来的课程中,我们将深入探讨这些主题。


