1. 什么是机器学习?

长期以来众说纷纭,Langley(1996)定义机器学习为:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。Mitchell(1997)在《Machine Learning》中写道:“机器学习是计算机算法的研究,并通过经验提高其自动进行改善”。Alpaydin(2004)提出自己对机器学习的定义:“机器学习是用数据或以往的经验,来优化计算机程序的性能标准”。Drew Conway在《Machine Learning for Hackers》书中定义:“机器学习就是一套工具和方法,凭借这些工具和方法我们可以从观测到的样本中提炼模式、归纳知识。换句话说,在特定情境下,我们可以记录研究对象的行为,从中学习,然后对其行为建模,该模型反过来促进我们对该情境有更深入的理解”。麦好在《机器学习实践指南:案例应用解析》中定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是人工智能的核心,是使计算机具有智能的根本途径。机器学习的研究方法通常是根据生理学、认知科学等对人类学习机理的了解,建立人类学习过程的计算模型或认识模型,发展各种学习理论和学习方法,研究通用的学习算法并进行理论上的分析,建立面向任务的具有特定应用的学习系统”。

2. 机器学习的发展

真正的机器学习研究起步较晚,它的发展过程大体上可分为以下4个时期:
第一阶段是在20世纪50年代中叶到20世纪60年代中叶,属于热烈时期。
第二阶段是在20世纪60年代中叶至20世纪70年代中叶,被称为机器学习冷静期。
第三阶段是从20世纪70年代中叶至20世纪80年代中叶,称为机器学习复兴期。
最新的阶段起始于1986年。当时,机器学习综合应用了心理学、生物学和神经生理学以及数学、自动化和计算机科学,并形成了机器学习理论基础,同时还结合各种学习方法取长补短,形成集成学习系统。

3. 机器学习比较活跃的领域

1)数据分析和数据挖掘
数据分析与挖掘技术是机器学习算法和数据存取技术的结合,利用机器学习提供的统计分析、知识发现等手段分析海量数据,同时利用数据存取机制实现数据的高效读写。机器学习在数据分析与挖掘领域中拥有无可取代的地位,2012年Hadoop进军机器学习领域就是一个很好的例子。
2)模式识别
语音输入,OCR,手写输入,通讯监控,车牌识别,指纹识别,虹膜识别,脸像识别,小波分析
3)智慧机器,机器人
生产线机器人,人机对话,电脑博弈

4. 机器学习常用软件

1)MATLAB
2)SPSS
3)R
4)PYTHON

5. 具有代表性的算法

1)回归预测及相应的降维技术
线性回归,Logistic回归,主成分分析,因子分析,岭回归,LASSO最小回归系数分析
2)分类器
决策树,朴素贝叶斯,贝叶斯信念网绚,支持向量机,提升分类器准确率的Adaboost和随机森林算法
3)聚类算法
k-means,PCM
4)人工神经网络
模仿生物神经网络结构和功能的数学模型。