1、k折交叉验证 中k取值多少有什么关系(ML19.6),bias,variance是什么(ML4.3)?
答:一般来说,对于机器学习任务,都会将数据集分为训练数据、验证数据。然而如何对数据集划分却要考虑很多方面的问题,如划分比例、数据成分统计特性等。这里提问中的K主要指的是划分比例的问题范畴。
首先这里的K指的是将数据等分为k份,然后将其中的k-1份作为训练数据,一份做测试数据。
然后,在对数据进行划分时得确保训练集和验证集的数据分布相同,即确保其统计特性一致。
我们可以想象一下,一般来说,k越大训练数据越多,验证数据越少,即模型训练越充分,但是验证结果就越不精准,极端情况下k和样本数相同,即只留一个验证数据,leave one out。那样验证结果就很不精确了。所以k折交叉验证中验证结果好坏随着k增大而增大,然后再随着k增大而减小。
在k折交叉验证中还有一种常见的方法就是,随机挑选出k-1份当训练、下次再随机挑选出k-1个做训练,这样经过多次k-1份的训练从而增加模型的效果。
那么bias、variance又是什么呢,与此相对应的还有一个概念叫error,error指的是模型预测结果与实际值之间的误差,通常
error=bias+variance 。
Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
答:一般来说,对于机器学习任务,都会将数据集分为训练数据、验证数据。然而如何对数据集划分却要考虑很多方面的问题,如划分比例、数据成分统计特性等。这里提问中的K主要指的是划分比例的问题范畴。
首先这里的K指的是将数据等分为k份,然后将其中的k-1份作为训练数据,一份做测试数据。
然后,在对数据进行划分时得确保训练集和验证集的数据分布相同,即确保其统计特性一致。
我们可以想象一下,一般来说,k越大训练数据越多,验证数据越少,即模型训练越充分,但是验证结果就越不精准,极端情况下k和样本数相同,即只留一个验证数据,leave one out。那样验证结果就很不精确了。所以k折交叉验证中验证结果好坏随着k增大而增大,然后再随着k增大而减小。
在k折交叉验证中还有一种常见的方法就是,随机挑选出k-1份当训练、下次再随机挑选出k-1个做训练,这样经过多次k-1份的训练从而增加模型的效果。
那么bias、variance又是什么呢,与此相对应的还有一个概念叫error,error指的是模型预测结果与实际值之间的误差,通常
error=bias+variance 。
Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
2、分类模型和回归模型的区别?(ML2.6)
1)首先分类模型和回归模型都是有监督学习
2)从预测结果上来看,分类模型的结果是离散值,回归模型是连续值
3)从训练数据上看,分类模型的标记是离散值,回归模型的标记是连续值
4)一定程度上讲,分类和回归是可以相互转化的
1)首先分类模型和回归模型都是有监督学习
2)从预测结果上来看,分类模型的结果是离散值,回归模型是连续值
3)从训练数据上看,分类模型的标记是离散值,回归模型的标记是连续值
4)一定程度上讲,分类和回归是可以相互转化的
3、分类模型可以做回归分析吗?反过来可以吗?ML2.6
分类模型可以做回归分析,回归模型也可以做分类
1)对于分类模型,如果把分类标签划分的足够多,足够细,即可类似转化为回归模型
2)对于回归模型,只需要将回归预测结果划分到一定范围,属于该范围的回归值就划分到该分类区,通过这种方法就可以将回归模型转化为分类模型。
分类模型可以做回归分析,回归模型也可以做分类
1)对于分类模型,如果把分类标签划分的足够多,足够细,即可类似转化为回归模型
2)对于回归模型,只需要将回归预测结果划分到一定范围,属于该范围的回归值就划分到该分类区,通过这种方法就可以将回归模型转化为分类模型。