第一章,概论
学习内容:《统计学习方法》——李航
笔记内容:
第一章:统计学习及监督学习概论
1,什么是统计学习?
统计学习是以数据为基础,构建概率模型,对未来数据进行预测分析的课程,通俗地讲,就是在数据中利用统计规律构建模型,让计算机学习模型,不断学习优化得到最优的模型。
研究对象:数据
研究目的:预测分析未来数据
2,统计学习的基本假设是:同类数据具有统计特性。
监督学习的基本假设是数据具有一定的统计规律,随机变量X和Y具有联合概率分布。
3,统计学习的方法步骤:
①在同类数据中获得一部分训练数据,确定模型所在的假设空间,假设空间即为所有模型所在的集合;
②确定模型学习的方法;
③实现最优模型的算法;
④在数据中模型通过最优模型选择算法得到最优模型;
⑤利用最优模型对未知数据进行预测和分析;
4,监督学习的方法步骤:
①确定条件概率分布函数或者决策函数;
②确定损失函数和风险函数
损失函数度量模型一次预测的好坏;
风险函数度量平均好坏;
损失函数数值越小,模型越好;
③得到损失函数期望最小,训练过程中当数据量趋于无穷时,训练的经验风险趋于期望风险,现实由于数据量有限,要进行经验风险矫正;
④经验风险矫正:经验结构风险最小化和结构风险最小化
⑤通过训练误差和测试误差进行模型评估和选择,在训练误差较小的前提下,让测试误差最小,测试误差评估模型的预测能力,测试误差越小,模型的预测能力越好。
⑥通过正则化与交叉验证找到训练误差和测试误差最合适的模型。
⑦达到训练误差和测试误差最小的前提下,提高模型的泛化能力,提高模型对未知数据的预测能力。泛化误差即模型的期望风险
⑧找到模型的泛化误差上界。
5,监督学习应用分类:
回归问题,标注问题,分类问题。