合聚咖

合聚咖

统计学习方法笔记——李航

admin

第一章,概论

学习内容:《统计学习方法》——李航

笔记内容:

第一章:统计学习及监督学习概论

1,什么是统计学习?

统计学习是以数据为基础,构建概率模型,对未来数据进行预测分析的课程,通俗地讲,就是在数据中利用统计规律构建模型,让计算机学习模型,不断学习优化得到最优的模型。

研究对象:数据

研究目的:预测分析未来数据

2,统计学习的基本假设是:同类数据具有统计特性。

监督学习的基本假设是数据具有一定的统计规律,随机变量X和Y具有联合概率分布。

3,统计学习的方法步骤:

①在同类数据中获得一部分训练数据,确定模型所在的假设空间,假设空间即为所有模型所在的集合;

②确定模型学习的方法;

③实现最优模型的算法;

④在数据中模型通过最优模型选择算法得到最优模型;

⑤利用最优模型对未知数据进行预测和分析;

4,监督学习的方法步骤:

①确定条件概率分布函数或者决策函数;

②确定损失函数和风险函数

损失函数度量模型一次预测的好坏;

风险函数度量平均好坏;

损失函数数值越小,模型越好;

③得到损失函数期望最小,训练过程中当数据量趋于无穷时,训练的经验风险趋于期望风险,现实由于数据量有限,要进行经验风险矫正;

④经验风险矫正:经验结构风险最小化和结构风险最小化

⑤通过训练误差和测试误差进行模型评估和选择,在训练误差较小的前提下,让测试误差最小,测试误差评估模型的预测能力,测试误差越小,模型的预测能力越好。

⑥通过正则化与交叉验证找到训练误差和测试误差最合适的模型。

⑦达到训练误差和测试误差最小的前提下,提高模型的泛化能力,提高模型对未知数据的预测能力。泛化误差即模型的期望风险

⑧找到模型的泛化误差上界。

5,监督学习应用分类:

回归问题,标注问题,分类问题。