统计机器学习-张志华

Original Video ContentExpand Video

网络算法与机器学习的关系

模型推理与知识获取

统计与数据挖掘的不同

数据的处理与特征提取

有监督学习与无监督学习

在这门课中，我们将学习以下内容：网络算法、优化概率统计、数据矩阵、模型推理，以及通过学习获取知识。

这些内容构成了我们机器学习的基本定义。我们曾经在信息之中追求知识，那么，什么是信息，什么是知识呢？知识是有用的信息，而信息与知识之间存在着一个中介，那就是数据。数据本身是没有知识的，我们需要通过模型将数据转化为知识。

实际上，这个过程需要模型的支持。模型帮助我们表示数据，通过推理将数据转化为知识。这就是积极学习，它是获取知识的一个过程。我们的基本定义便是：什么是积极学习？

我们知道，统计学在课中占有重要位置，因为积极学习的目的就是获取知识和建立模型。而统计为我们提供了建模的框架。一般认为积极学习是统计的一个分支。

在这方面，让我们来理解统计学习与积极学习的关系。现在我给大家画一张表，左边是积极学习，右边是统计。积极学习是通过人工智能发展出来的，而统计是从概率发展而来的，因此它们的起源不同。尽管如此，它们在本质上解决的问题是相同的。

统计学习与积极学习，它们都存在一些差异，而这些差异主要源于它们的定义和符号。比如在统计学习中，我们通常会见到图和模型，而在积极学习中，我们则强调的是网络和图形。统计有两个基本任务：参数拟合与模型测试。

了解了这点后，让我们谈谈数据挖掘。很多老师会说，数据挖掘与积极学习的关系。然而，实际上这两者在本质上是相似的。积极学习偏向于完全自动的处理，而数据挖掘则更倾向于半自动、需要人类解释的过程。

从理论计算机的角度来看，积极学习的模型在未来将朝着概率与统计的基础方向发展。我们可以看到，计算机科学的最高奖——图灵奖，也颁给了做概率图模型的学者，这展示了计算机界对机器学习的认可。

至于工业界的推动，像谷歌、Facebook等公司，已经明确表示自己是机器学习公司，这反映了他们对数据科学的重视。

接下来，讨论一下机器学习的基本问题。我们知道，数据包含特征和样本。对于一个样本，我们可以表现为N个数据点，每个数据点有P个特征。这可以形成一个N乘P的矩阵，矩阵中的每一行代表一个样本。

在研究中，我们通常关注几个问题：降维、聚类、分类等。降维是通过简单的线性变换将高维数据降到低维，而聚类是将N个数据点聚为K类，分类则是根据输入数据预测其对应的类别。

监督学习通常是将数据分为训练集、验证集、和测试集。训练集用于训练模型，验证集用于调整超参数，测试集则用于评估模型的性能。

最后，我们讨论机器学习的两种方法：频率派方法和贝叶斯方法。频率派视模型参数为固定常数，通过最小化误差来估计，而贝叶斯则将参数视为随机变量，通过后验概率分布来估计。

这就是机器学习的概述。在接下来的课程中，我们将深入探讨这些主题。

Related Articles