监督学习(Supervised Learning)也叫有监督学习
目录 |
监督学习是机器学习中的一种训练方式/学习方式。
监督学习是指通过让机器学习大量带有标签的样本数据,训练出一个模型,并使该模型可以根据输入得到相应输出的过程。通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。
通俗举例:高考试题是在考试前就有标准答案的,在学习和做题的过程中,可以对照答案,分析问题找出方法。在高考题没有给出答案的时候,也是可以给出正确的解决。这就是监督学习。[1]
监督学习、半监督学习、无监督学习(unsupervised learning)属于机器学习(machine learning)的一种,机器学习属于人工智能(artificial intelligence)领域。
所谓人工智能,通俗理解,就是让机器能够拥有人类智慧。什么是人类智慧?拿一台机器和一个幼儿比较,给幼儿看一种三花猫的图片,和她说这是猫,如果再给她看另一品种的猫,幼儿可能会高兴地挥舞着手臂认出这也是一只猫。而如果将图片输入一台非人工智能机器,告诉机器这是一只猫,但如果换了不同颜色的猫B时,机器恐怕就不可能认出来了。
而机器学习正是让机器具有人类识别、思考等方方面面的能力,其中监督学习是最常见的一种机器学习,它的训练数据是有标签的,训练目标是能够给新数据(测试数据)以正确的标签。
例如,让机器学习区分判断邮件是否为垃圾邮件这一识别能力,一开始先将一些邮件及其标签(垃圾邮件或非垃圾邮件)一起输入机器进行训练,机器的学习模型不断捕捉这些邮件与标签间的联系进行调整和完善,然后人工输入一些不带标签的新邮件,让该模型对新邮件进行判断,以此反复训练,最终实现机器识别准确率的提高。[2]
监督并不是指人站在机器旁边看机器做的对不对,而是下面的流程:
(1)选择一个适合目标任务的数学模型
(2)先把一部分已知的“问题和答案”(训练集)给机器去学习
(3)机器总结出了自己的“方法论”
(4)人类把"新的问题"(测试集)给机器,让他去解答
1.有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而非监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
2.有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而非监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。
3.非监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。
这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学习方法的范畴。
4.用非监督学习方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。后者从方法上讲不是学习方法。因此用K-L变换找主分量不属于无监督学习方法,即方法上不是。而通过学习逐渐找到规律性这体现了学习方法这一点。在人工神经元网络中寻找主分量的方法属于无监督学习方法。