一、算法的本质

所有机器学习算法的本质可以概括为一句话：

从数据中找规律，用规律去做预测

换一种更直白的说法：

通过过去的数据，总结经验，用这些经验去判断未来

二、通俗理解

可以把机器学习看成一个人学习的过程：

你见过很多人
你总结出一些经验
当你遇到新的人，就能做出判断

其中：

数据 = 你见过的案例
模型 = 你总结的经验
预测 = 你做出的判断

1. K近邻算法

K-Nearest Neighbors

本质
根据周围最相似的样本来判断当前对象

生活例子
一个新同学，你不知道他的性格
你观察他平时和谁在一起
如果他常和学习好的同学在一起，你会觉得他也大概率学习不错

2. 逻辑回归

Logistic Regression

本质
将多个因素综合起来，计算一个概率

生活例子
银行判断是否给一个人贷款
根据收入、工作、资产等因素，计算这个人不还钱的概率
如果概率很低，就批准贷款

3. 决策树

Decision Tree

本质
通过一系列条件判断，一步步做出决策

生活例子
选择餐厅时的思考过程
价格是否在预算内
评分是否够高
距离是否合适
通过一连串判断，最终做出选择

4. 随机森林

Random Forest

本质
通过多个模型共同判断，采用多数结果

生活例子
你要选择一家餐厅
问了很多朋友的意见
大多数人认为好吃，你就选择这家

5. 朴素贝叶斯

Naive Bayes

本质
根据某些特征出现的概率，推断结果的可能性

生活例子
看到一条信息中包含中奖、免费、点击链接等词
根据以往经验，这类词在诈骗信息中出现概率高
因此判断这条信息很可能是诈骗

6. XGBoost

XGBoost

本质
不断修正之前的错误，让结果逐步变得更准确

生活例子
学习过程中做错题
每次考试后专门复习错题
下一次再减少错误
不断改进，成绩越来越好

K近邻依赖相似样本
逻辑回归计算概率
决策树逐步判断
随机森林多模型投票
朴素贝叶斯基于概率推理
XGBoost 持续修正错误

机器学习算法的核心，就是用不同的方法，把经验转化为可以计算和预测的规则