1.1对机器学习的兴趣
1.2机器学习的重要性
1.无论是过去还是现在,计算机都特别擅长处理重复的任务。所以 计算机能够比人类更高效地读取大量的数据、学习数据的特征并 从中找出数据的模式。这样的任务也被称为机器学习或者模式识 别,以前人们就有用计算机处理这种任务的想法,并为此进行了 大量的研究,也开发了很多代码。
2.受益于计算机理论的发展,现在已经具备了能够收集大量数据的环境和能够处理大量数据的环境。
3.。当我们打算用机器学习做什么事情的时候, 首先需要的就是数据。因为机器学习就是从数据中找出特征和模 式的技术。
1.3机器学习的算法
4.机器学习擅长的任务:回归,分类和聚类。
5.回归就是在处理连续数据如时间序列数据时使用的技术。
时间序列数据就是那些连续观测到的因时而异的数据。
6. 鉴别垃圾邮件就可以归类于分类。
只有两个类别的问题称为二分类,有三个及以上的问题称为多分类。
7.聚类与分类相似,却又有些不同。聚类考虑的问题是:假设在有 100 名学生的学校进行摸底考试,然后根据考试成绩把 100 名学生分为几组,根据分组结果,我们能得出某组偏重理科、某组偏重文科这样有意义的结论。
它与分类的区别在于数据带不带标签。也有人把标签称为正确答案数据。
8.使用有标签的数据进行的学习称为有监督学习,与之相反,使用没有标签的数据进行的学习称为无监督学习。回归和分类是有监督学习,而聚类是无监督学习。
1.4数学与编程
9.机器学习常用的开发语言有 Python 和 R。