快捷导航
科技信息

最早2026?环球优质语言数据“存量”告急!网友:杞人忧天

新智元报道编辑:Cris【新智元导读】AI用光全部数据,这一灵活的快来了?作为人工智能的三要素之一,数据的作用举足轻重。但各人有没有想过:假如有一天,全天下的数据都用完了那咋整?实际上,提出这个标题的人绝对

新智元报道

编辑:Cris

【新智元导读】AI用光全部数据,这一灵活的快来了?

作为人工智能的三要素之一,数据的作用举足轻重。

但各人有没有想过:假如有一天,全天下的数据都用完了那咋整?

实际上,提出这个标题的人绝对没有精神标题,由于这一天——大概真的快来了!!!

克日,研究员Pablo Villalobos等人一篇名为《我们会用完数据吗?呆板学习中数据集缩放的范围性分析》的论文,发表在了arXiv上。

他们根据之前对数据集巨细趋势的分析,推测了语言和视觉范畴数据集巨细的增长,估计了未来几十年可用未标志数据总存量的发展趋势。

他们的研究表明:最早在2026年,高质量语言数据就将全部斲丧殆尽!呆板学习发展的速率也将因此而放缓。着实不容乐观。

两方法双管齐下,效果不容乐观

这篇论文的研究团队由11名研究员和3位顾问构成,成员遍布天下各地,致力于缩小AI技能发展与AI战略之间的差距,并为AI安全方面的关键决定者提供发起。

Chinchilla是DeepMind的研究职员提出的一种新型推测盘算优化模子。

实际上,此前在对Chinchilla举行实行时,就曾有研究员提出「练习数据很快就会成为扩展大型语言模子的瓶颈」。

因此他们分析了用于天然语言处置惩罚和盘算机视觉的呆板学习数据集巨细的增长,并使用了两种方法举行推断:使用汗青增长率,并为未来推测的盘算预算估计盘算最佳数据集巨细。

在此之前,他们不停在网络有关呆板学习输入趋势的数据,包罗一些练习数据等,还通过估计未来几十年互联网上可用未标志数据的总存量,来观察数据使用增长。

由于汗青推测趋势大概会受已往十年盘算量非常增长的「误导」,研究团队还使用了Chinchilla缩放定律,来估计未来几年的数据集巨细,提拔盘算效果的正确性。

终极,研究职员使用一系列概率模子估计未来几年英语语言和图像数据的总存量,并比力了练习数据集巨细和总数据库存的推测,效果如下图所示。

这阐明数据集的增长速率将远快于数据存量。

因此,假如当前趋势继承保持下去,数据存量被用光将是不可制止的。下表则体现了推测曲线上每个交织点的中值耗尽年龄。

高质量的语言数据库存最早大概在2026年之前用尽。

相比之下,低质量的语言数据和图像数据情况略好:前者将在2030年至2050年间用光,后者将在2030年至2060年之间。

在论文的末了,研究团队给出结论:假如数据服从没有大幅进步或新的数据泉源可用,当前依赖巨大数据集不绝膨胀的呆板学习模子,它的增长趋势很大概会放缓。

网友:杞人忧天,Efficient Zero相识一下

不外在这篇文章的品评区里,大多数网友却以为作者杞人忧天。

Reddit上,一位名为ktpr的网友表现:

「自我监督学习有啥弊端么?假如使命指定得好,它以致可以组合扩展数据集巨细。」

名为lostmsn的网友则更加不客气。他直言:

「Efficient Zero都不相识一下?我以为作者已经严肃离开期间了。」

Efficient Zero是一种能高效采样的强化学习算法,由清华大学的高阳博士提出。

在数据量有限的情况下,Efficient Zero肯定水平上办理了强化学习的性能标题,并在算法通用测试基准Atari Game上得到了验证。

在这篇论文作者团队的博客上,就连他们自己也坦言:

「我们全部的结论都基于不切实际的假设,即当前呆板学习数据使用和生产的趋势将继承保持下去,而且数据服从不会有庞大提拔。」

「一个更加靠谱的模子应该思量到呆板学习数据服从的进步、合成数据的使用以及其他算法和经济因素。」

「因此就实际情况来说,这种分析有严肃的范围性。模子的不确定性非常高。」

「不外总体而言,我们仍以为由于缺乏练习数据,到2040年时机器学习模子的扩展有约莫有20%的大概性会显着放缓。」

参考资料:

https://arxiv.org/abs/2211.04325

https://epochai.org/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset

https://www.reddit.com/r/MachineLearning/comments/yx7zft/r_will_we_run_out_of_data_an_analysis_of_the/

收藏 邀请
上一篇:法拉第未来:FF 91初次交付的时间不确定,预计不会在2022年下一篇:货拉拉司机拒绝出车
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP