打破“维数灾难”,机器学习降维方法是好的
云计算的突破可以帮助使用者运行大型的机器学习模型,而不用管后台的计算能力。
但是,每增加一个新特征都会增加复杂性,增大使用机器学习算法的困难。
数据科学家通常使用降维,这是一套从机器学习模型中去除过多或者无关特征的技术。
降维可以降低机器学习的成本,有时还可以帮助用更简单的模型来解决复杂的问题。
维度的诅咒 打破“维度的诅咒”,机器学习降维大法好 机器学习模型可以将特征映射到结果。
比如,假设你想创建一个模型,来预测一个月内的降雨量:
你有一个在不同月份从不同城市收集的各类信息的数据集,包括温度、湿度、城市人口、交通、在城市举办的音乐会数量、风速、风向、气压、购买的汽车票数量和降雨量。
显然,这些信息并不是都和降雨预测有关。
有些特征可能和目标变量毫无关系。
比如,人口和购买的汽车票数量并不影响降雨量。
其他特征可能与目标变量相关,但与它没有因果关系。
比如,户外音乐会的数量可能与降雨量相关,但它不是一个很好的降雨预测器。
在其他情况下,比如碳排放,特征和目标变量之间可能有联系,但效果可以忽略不计。
在这个例子中,哪些特征是有价值的,哪些是无用的,是显而易见的。
在其他问题中,过度的特征可能不明显,这就需要进一步的数据分析。
但是,为什么要费力地去除多余的维度呢?
因为当你有太多的特征时,你也会需要一个更复杂的模型,这就意味着你需要更多的训练数据和更多的计算能力,才能把模型训练到一个可接受的水平。
由于机器学习不了解因果关系,即使没有因果关系,模型也会试图将数据集中的任何特征映射到目标变量,这可能会导致模型错误。
另一方面,减少特征的数量会使机器学习模型更简单,更有效,对数据的要求也更低。
很多特征造成的问题通常被称为 “维度的诅咒”,而且它们并不限于表格数据。
考虑一个对图像进行分类的机器学习模型。如果你的数据集由100×100像素的图像组成,那么每个像素一个,这样的问题空间有10,000个特征。然而,即使在图像分类问题中,一些特征也是过度的,可以被删除。
降维可以识别并删除那些损害机器学习模型性能或对其准确性没有贡献的特征。
目前有几种降维技术,每一种都有有用的适用范围。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |