快捷导航
科技信息

连百年梗图都整明白了!微软多模态“宇宙”搞定IQ测试,仅16亿参数

新智元报道编辑:桃子 Ellie【新智元导读】微软亚研院发布了仅16亿参数的多模态大型语言模子KOSMOS-1,不但能看图答复,还搞定了瑞文智商测试。大模子的卷,已经不睡觉都赶不上进度了......这不,微软亚研院刚刚发布

新智元报道

编辑:桃子 Ellie

【新智元导读】微软亚研院发布了仅16亿参数的多模态大型语言模子KOSMOS-1,不但能看图答复,还搞定了瑞文智商测试。

大模子的卷,已经不睡觉都赶不上进度了......

这不,微软亚研院刚刚发布了一个多模态大型语言模子(MLLM)—— KOSMOS-1。

论文地点:https://arxiv.org/pdf/2302.14045.pdf

论文标题Language Is Not All You Need,还得源于一句名言。

文中有这么一句话,「我语言的范围,就是我天下的范围。——奥地利哲学家Ludwig Wittgenstein」

那么标题来了......

拿着图问KOSMOS-1「是鸭照旧兔」能搞明白吗?这张有100多年汗青的梗图硬是把谷歌AI整不会了。

1899年,美国生理学家Joseph Jastrow初次使用「鸭兔图」来表明感知不但是人们所看到的,而且是一种生理活动。

如今,KOSMOS-1便能将这种感知和语言模子相连合。

-图中是什么?

-像一只鸭子。

-假如不是鸭子,那是什么?

-看起来更像兔子。

-为什么?

-它有兔子的耳朵。

这么一问,KOSMOS-1真有点像微软版的ChatGPT了。

不但云云,Kosmos-1还能明白图像、文本、带有文本的图像、OCR、图像分析、视觉QA。

以致IQ测试也不在话下。

「宇宙」无所不能

Kosmos泉源希腊一词cosmos,有「宇宙」之意。

据论文先容,最新Kosmos-1模子是一个多模态大型语言模子。

其主干是一个基于Transformer的因果语言模子,除了文本之外,其他模态,如视觉、音频都可以嵌入模子。

Transformer解码器用作多模态输入的通用接口,因此它能感知一样平常模态,举行上下文学习,并遵照指令。

Kosmos-1在语言和多模态使命上取得了令人印象深刻的表现,无需举行微调,此中包罗带有笔墨指示的图像辨认、视觉问答和多模态对话。

如下是Kosmos-1天生一些例子式样。

图片表明、图片问答、网页标题答复,简单数字公式,以及数字辨认。

那么,Kosmos-1是在哪些数据集上举行预练习的呢?

逊??用的数据库,包罗文本语料库、图像-字幕对、图像和文本交织数据集。

文本语料库取自The Pile和Common Crawl(CC);

图像-字幕对的泉源为English LAION-2B、LAION-400M、COYO-700M和Conceptual Captions;

文本交织数据集的泉源是Common Crawl snapshot。

数据库有了,接下来就是对模子举行预练习了。

MLLM组件有24层、2,048个潜伏维度、8,192个FFN和32个留意力头头,产生了约莫1.3B的参数。

为了包管优化的稳固性,采取Magneto初始化;为了更快地收敛,图像表现是从一个预先练习好的具有1024个特性维度的CLIP ViT-L/14模子获取的。在练习过程中,图像被预处置惩罚成224×224分辨率,CLIP模子的参数除了末了一层均被冻结。

KOSMOS-1的参数总量约为16亿。

为了使KOSMOS-1更好地与指令保持划一,对其举行了只用语言的指令调解 [LHV+23, HSLS22],即用指令数据继续练习模子,该指令数据是仅有的语言数据,与练习语料库肴杂。

该调优过程是按照语言建模的方式举行的,选取的指令数据集为Unnatural Instructions [HSLS22]和FLANv2 [LHV+23]。

效果表现,指令跟随本事的进步可以跨模式转移。

总之,MLLM可以从跨模态迁徙中获益,将知识从语言迁徙到多模态,反之亦然;

5大类10个使命,都拿捏了

一个模子好不好使,拿出来溜溜就知道了。

研究团队从多角度举行实验来评价KOSMOS-1的性能,包罗5大类十项使命:

1 语言使命(语言明白、语言天生、无OCR的文天职类)

2 多模态转移(知识推理)

3 非语言推理(IQ测试)

4 感知-语言使命(图像分析、视觉问答、网页问答)

5 视觉使命(零样本图像分类、带形貌的零样本图像分类)

无OCR的文天职类

这是一种不依靠于光学字符辨认(OCR)的专注于文本和图像的明白使命。

KOSMOS-1对HatefulMemes和对Rendered SST-2测试集的精确率均高于优于其他模子。

而且Flamingo明白提供OCR文本到提示中,KOSMOS-1并没有访问任何外部工具或资源,这展示了KOSMOS-1阅读和明白渲染的图像中的文本的内涵本事。

IQ测试

瑞文智力测试是评估非语言的最常用测试之一。

KOSMOS-1在没有举行微调时精确率比随机选择进步了5.3%,颠末微调后则进步了9.3%,表明其具有感知非语言情况中的抽象概念模式的本事。

这是初次有模子可以或许完成零样本Raven测试,证实白MLLMs通过将感知与语言模子连合起来举行零样本非言语推理的潜力。

图像分析

KOSMOS-1在COCO和Flickr30k测试中的零样天性能均表现良好,相比其他模子,其得分更高,但采取的参数目更小。

在少样天性能测试中,得分随着k值增大有所增长。

零样本图像分类

给定一个输入图像,并将该图像与提示 「The photo of the」毗连起来。然后,输入模子以得到图像的种别名称。

通过在ImageNet[DDS+09]上评估该模子,在有束缚和无束缚的条件下,KOSMOS-1的图像归类效果都显着优于GIT[WYH+22],显现了完成视觉使命的强盛本事。

知识推理

视觉知识推理使命要求模子明白现实天下中一样平常物体的属性,如颜色、巨细和外形,这些使命是具有挑衅性的,由于它们大概须要比文本中更多的关于物体属性的信息。

效果表现,KOSMOS-1在尺寸和颜色方面的推理本事都显着好于LLM模子。这紧张是由于KOSMOS-1具备多模态迁徙本事,从而可以或许将视觉知识运用到语言使命中,而不必像LLM那样必须依靠文本知识和线索来推理。

对于微软Kosmos-1,网友歌颂道,未来5年,我可以看到一个高级呆板人欣赏网络,并仅通过视觉方式基于人类的文本输入来工作。真是风趣的期间。

参考资料:

https://arxiv.org/pdf/2302.14045.pdf

收藏 邀请
上一篇:马斯克的机密操持,渐行渐远的宏伟愿景下一篇:紧跟苹果加码XR,三星称正在订定肴杂实际产物蹊径图
我有任务需求要发布
专业服务商主动承接
快速解决你的需求

专注IT众包服务

平台只专注IT众包,服务数 十万用户,快速解决需求

资金安全

交易资金托管平台,保障资 金安全,确认完成再付款

实力商家

优秀软件人才汇集,实力服务商入驻,高效解决需求

全程监管

交易过程中产生纠纷,官方100%介入受理,交易无忧

  • 微信访问
  • 手机APP