点击上方“”,选择加"
重磅干货,第一时间送达
在开始之前,我想和你谈谈机器学习和数据挖掘之间的关系。
如上图所示,数据挖掘只是机器学习的领域之一,包括模式识别、计算机视觉、语音识别、统计学习和自然语言处理。
机器学习即 ML,它是一门多领域的交叉学科,涉及概率论、统计学、接近论、突出分析、算法复杂性理论等学科。研究计算机如何模拟或实现人类的学习行为,以获得新的知识或技能,重组现有的知识结构,不断提高其性能。
机器学习作为人工智能研究的一个年轻分支,也分为监督学习和非监督学习。同时,随着人工智能越来越受到重视和热门,深度学习也是机器学习的一个新领域。
当我们第一天学会开车时,我们不会直接上路,而是要求你先学习基础知识,然后模拟上车。
只有对知识有全面的了解,才能保证即使在以后的工作中遇到问题,也能快速定位问题,然后找到相应的解决方案。
因此,我列出了机器学习的知识清单,即机器学习的一般过程、十大算法和算法学习的三个领域,以开始我们的学习之旅。
引用大佬的解释:
A computer program is said to learn fromexperience E with respect to some task T and some performance measure P,if itsperformance on T,as measured by P,improves with experience E. —Tom Mitchell
简单来说,机器学习就是用我们输入的数据来训练算法,训练后会生成一个模型,通过数据捕捉规律来描述当前的问题。然后我们进一步导入数据或引入新的数据集进行评估,根据结果调整算法,形成反馈和优化闭环。机器在整个过程中不断学习、训练和优化迭代,这也是机器学习的强项。
为了进行机器学习和数据挖掘任务,数据科学家提出了国际权威学术组织在众多数据挖掘模型中提出的各种模型 ICDM(the IEEE International Conference on Data Mining)评选出十大经典算法。
按照不同的目的,我可以把这些算法分为四类,让你更好的理解。
C4.5 算法是得票最高的算法,可以说是十大算法之一。C4.5 它是决策树的算法。它在决策树结构过程中创造性地剪枝,可以处理连续属性和不完整数据。可以说是决策树分类中里程碑式的算法。
简单的贝叶斯模型是基于概率论的原理,它的想法是这样的:对于给定的未知物体进行分类,有必要解决在这个未知物体出现的条件下出现每个类别的概率,最大的,并认为这个未知物体属于哪个类别。
SVM 中文称为支持向量机,英文称为支持向量机 SupportVector Machine,简称 SVM。SVM 在训练中建立了超平面分类模型。
KNN 也叫 K 英语是最近邻算法 K-Nearest Neighbor。所谓 K 近邻,也就是说,每个样本都可以用它最近 K 以邻居为代表。如果是样本,它的 K 最接近的邻居属于分类 A,所以这个样本也属于分类 A。
Adaboost 在训练中建立了联合分类模型。boost 英语代表提升的意思,所以 Adaboost 是构建分类器的提升算法。它能使我们的多个弱分类器形成强分类器,因此 Adaboost 也是常用的分类算法。
CART 代表分类和回归树,英语是 Classificationand Regression Trees。就像英语一样,它建造了两棵树:一棵是分类树,另一棵是回归树。C4.5 同样,它也是决策树的学习方法。
Apriori 挖掘相关规则是一种(association rules)通过挖掘频繁项集的算法(frequentitem sets)揭示商品之间的相关性,广泛应用于商业挖掘和网络安全领域。频繁的项目集是指经常出现在一起的项目的集合。相关规则表明两个项目之间可能有很强的关系。
K-Means 算法是一种聚类算法。你可以这样理解。最后,我想把物体分成两部分 K 类别。假设每个类别都有一个中心点,即意见领袖,这是这个类别的核心。现在我有一个新点要分类,只要计算这个新点和K 中心点的距离,靠近哪个中心点,变成了哪个类别。
EM 算法也叫最大期望算法,是求参数的最大似然估计的一种方法。原理是:假设我们想评估参数 A 和参数 B,两者一开始都是未知的,都知道了 A 的信息就可以得到 B 反过来,我知道了信息 B 也就得到了 A。可以考虑先给予A 为了获得一定的初值 B 估值,然后从 B 从估值开始,重新估计 A 这个过程一直持续到收敛。
EM 在聚类和机器学习领域经常使用算法。
PageRank 起源于论文影响力的计算方法,如果一篇文论被引入的次数越多,就越有影响力。同样 PageRank 被 Google 创造性地应用于网页权重的计算:页面链出的页面越多,页面的参考文献就越多,页面链接的频率就越高,页面被引用的次数就越多。基于这一原则,我们可以得到网站的权重划分。
算法可以说是机器学习的灵魂,也是最重要的部分。 10 经典算法在整个机器学习领域得票最高,其他一些算法基本上都是在此基础上进行改进和创新的。今天,你对十大算法有了初步的了解。你只需要知道。
首先,算法本身就是一个黑盒子,可以掌握算法的基本应用场景(监督、无监督)和算法的基本使用场景,而不知道算法的具体原理。
第二个层次是深入理解和掌握算法原理,在此基础上了解算法实践过程中的关键技术和核心参数。最好使用编程语言手动实现算法,解释算法执行结果,并在理解原理的基础上优化参考算法。
最后一个领域实际上是算法(研发)工程师的主要任务,即结合业务场景和自身数学基础进行有针对性的算法研发。这部分工作不仅需要扎实的算法基本原理知识,还需要扎实的编程能力。
今天,我列出了你学习机器学习时需要掌握的知识清单。只有对机器学习的过程、算法和原理有更深入的了解,才能在实际工作中得到更好的应用。祝你在机器学习的道路上越走越远。
开始向外开放。
下载1:OpenCV-Contrib中文版教程扩展模块 在「小白学视觉」微信官方账号后台回复:扩展模块中文教程,下载全网第一份OpenCV中文版扩展模块教程涵盖扩展模块安装SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等20多章。 下载2:Python视觉实战项目52讲 在「小白学视觉」微信官方账号后台回复:Python视觉实战项目可下载图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。
下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。
交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~