ad
新商报网 > 金融

数据规模和模型精度真的是正相关吗就是扩展数据集

2021-10-11 16:42 新商报网                     来源: TechWeb   阅读量:8494   

目前AI领域的一大趋势是什么没错,就是扩展数据集可是,Geogle reserach最近的一篇论文认为,整理超大规模数据集的趋势将阻碍人工智能系统的有效发展

数据规模越大越好。

计算和数据是人工智能的两大驱动力无论是计算机视觉还是自然语言处理,AI系统似乎都离不开数据集

在超大规模数据时代,数据与学习结果的关系是这样的。

数据规模越大,AI模型就越准确,高效在大多数人眼里,这似乎是不争的事实

数据规模和模型精度真的是正相关吗。

最近,发表在《地理研究》上的一篇论文提高了质疑这一普遍观点的声音。

大规模的。饱和到处都是!

题为揭示预训练模型的局限性的文章挑战了现有的机器学习效果和数据关系的假设实验的结论是,无论:是通过扩大数据规模还是超过参数来提高上游性能,下游都可能出现饱和现象

饱和度是.要知道,就是没有梯度信号传入神经元,也无法获得权重和数据,所以网络很难学习。

在极端情况下,上下游的性能是矛盾的,也就是说,想要获得更好的下游性能,可能不得不牺牲上游任务的准确性。

这一假设一旦得到验证,意味着超大型数据集,如最近发布的LAION—400M和GPT—3神经语言引擎背后的数据,可能会受到传统机器学习架构和方法的限制庞大的数据量可能会使下游任务饱和,降低其泛化能力

实际上,前面的假设并不完全符合废话,只需增加一个条件,即:给定数据尺度的超参数应处于相对简单的线性函数关系,且为固定值。

考虑到有限的计算资源和经济成本,以往的研究范围较小,使得人们对数据集与有效AI系统之间的关系认识不全面。原来是通病!

其实怎么会这么简单呢。

文章反驳道以往关于证明数据量表有效性的研究只是在有限的范围内进行所以我们不能妄下结论

唱反调一定有依据!为什么文章会得出这样的结论。真相就在眼前!

上下游的关系不简单!

先前的研究显示了基于线性函数假设的对数关系。

但是,经过研究,发现情况是这样的。

从图中可以发现,下游任务在某些点上会饱和但是这些饱和点不是固定的由此推断,上下游之间的关系是非线性的

数据和模型规模的扩大可以提高上游性能可是,由于这种非线性关系的存在,上游的精度不能得到保证,而下游的精度可以得到提高

预训练模式不能使人现状,一劳永逸。

本文讨论了预训练的实践,旨在节省计算资源,减少从头开始训练大规模数据所需的时间。

预训练可以明显提高模型的鲁棒性和准确性可是,新论文表明,即使在相对较短的预训练模板中,考虑到特征的复杂性,预训练模型也不能适用于所有情况如果研究人员继续依赖预训练模型,可能会影响最终结果的准确性

最后,论文提到:我们不能指望找到一个适合所有下游任务的预训练模型。'

这个秤和它一样精确。

Geogle research的研究成果勇敢地说出了这一理论,没有,真的让人眼前一亮!会不会给整个AI研究领域带来突破性进展或许这会引发更多的相关研究,并会不自觉地掀起另一波浪潮

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

责任编辑:安远
bg6