首页 > 关注

连百年梗图都整明白了，微软多模态「宇宙」搞定IQ测试，仅16亿参数

来源：IT之家发布时间：2023-03-04 18:19:37 阅读量：8443

微软亚研院发布了仅 16 亿参数的多模态大型语言模型 KOSMOS-1，不仅能看图回答，还搞定了瑞文智商测试。

大模型的卷，已经不睡觉都赶不上进度了......

这不，微软亚研院刚刚发布了一个多模态大型语言模型—— KOSMOS-1。

论文题目 Language Is Not All You Need，还得源于一句名言。

文中有这么一句话，「我语言的局限，就是我世界的局限。—— 奥地利哲学家 Ludwig Wittgenstein」

那么问题来了......

拿着图问 KOSMOS-1「是鸭还是兔」能搞明白吗？这张有 100 多年历史的梗图硬是把谷歌 AI 整不会了。

1899 年，美国心理学家 Joseph Jastrow 首次使用「鸭兔图」来表明感知不仅是人们所看到的，而且是一种心理活动。

现在，KOSMOS-1 便能将这种感知和语言模型相结合。

-图中是什么？

-像一只鸭子。

-如果不是鸭子，那是什么？

-看起来更像兔子。

-为什么？

-它有兔子的耳朵。

这么一问，KOSMOS-1 真有点像微软版的 ChatGPT 了。

不仅如此，Kosmos-1 还能理解图像、文本、带有文本的图像、OCR、图像说明、视觉 QA。

甚至 IQ 测试也不在话下。

「宇宙」无所不能

据论文介绍，最新 Kosmos-1 模型是一个多模态大型语言模型。

其主干是一个基于 Transformer 的因果语言模型，除了文本之外，其他模态，如视觉、音频都可以嵌入模型。

Transformer 解码器用作多模态输入的通用接口，因此它能感知一般模态，进行上下文学习，并遵循指令。

Kosmos-1 在语言和多模态任务上取得了令人印象深刻的表现，无需进行微调，其中包括带有文字指示的图像识别、视觉问答和多模态对话。

如下是 Kosmos-1 生成一些例子式样。

那么，Kosmos-1 是在哪些数据集上进行预训练的呢？

训练所用的数据库，包括文本语料库、图像-字幕对、图像和文本交叉数据集。

文本语料库取自 The Pile 和 Common Crawl；

数据库有了，接下来就是对模型进行预训练了。

MLLM 组件有 24 层、2,048 个隐藏维度、8,192 个 FFN 和 32 个注意力头头，产生了大约 1.3B 的参数。

为了保证优化的稳定性，采用 Magneto 初始化；为了更快地收敛，图像表示是从一个预先训练好的具有 1024 个特征维度的 CLIP ViT-L / 14 模型获取的。在训练过程中，图像被预处理成 224×224 分辨率，CLIP 模型的参数除了最后一层均被冻结。

KOSMOS-1 的参数总量约为 16 亿。

为了使 KOSMOS-1 更好地与指令保持一致，对其进行了只用语言的指令调整，即用指令数据继续训练模型，该指令数据是仅有的语言数据，与训练语料库混合。

该调优过程是按照语言建模的方式进行的，选取的指令数据集为 Unnatural Instructions 和 FLANv2 (LHV+23)。

结果显示，指令跟随能力的提高可以跨模式转移。

总之，MLLM 可以从跨模态迁移中获益，将知识从语言迁移到多模态，反之亦然；

5 大类 10 个任务，都拿捏了

一个模型好不好使，拿出来溜溜就知道了。

研究团队从多角度进行实验来评价 KOSMOS-1 的性能，包括 5 大类十项任务:

1 语言任务

2 多模态转移

3 非语言推理

4 感知-语言任务

5 视觉任务

无 OCR 的文本分类

这是一种不依赖于光学字符识别的专注于文本和图像的理解任务。

KOSMOS-1 对 HatefulMemes 和对 Rendered SST-2 测试集的准确率均高于优于其他模型。

而且 Flamingo 明确提供 OCR 文本到提示中，KOSMOS-1 并没有访问任何外部工具或资源，这展示了 KOSMOS-1 阅读和理解渲染的图像中的文本的内在能力。

IQ 测试

瑞文智力测试是评估非语言的最常用测试之一。

KOSMOS-1 在没有进行微调时准确率比随机选择提高了 5.3%，经过微调后则提高了 9.3%，表明其具有感知非语言环境中的抽象概念模式的能力。

这是首次有模型能够完成零样本 Raven 测试，证明了 MLLMs 通过将感知与语言模型结合起来进行零样本非言语推理的潜力。

图像说明

KOSMOS-1 在 COCO 和 Flickr30k 测试中的零样本性能均表现优秀，相比其他模型，其得分更高，但采用的参数量更小。

在少样本性能测试中，得分随着 k 值增大有所增加。

零样本图像分类

给定一个输入图像，并将该图像与提示「The photo of the」连接起来。然后，输入模型以获得图像的类别名称。

通过在 ImageNet 上评估该模型，在有约束和无约束的条件下，KOSMOS-1 的图像归类效果都明显优于 GIT (WYH+22)，展现了完成视觉任务的强大能力。

常识推理

视觉常识推理任务要求模型理解现实世界中日常物体的属性，如颜色、大小和形状，这些任务是具有挑战性的，因为它们可能需要比文本中更多的关于物体属性的信息。

结果显示，KOSMOS-1 在尺寸和颜色方面的推理能力都明显好于 LLM 模型。这主要是因为 KOSMOS-1 具备多模态迁移能力，从而能够将视觉知识运用到语言任务中，而不必像 LLM 那样必须依靠文本知识和线索来推理。

对于微软 Kosmos-1，网友称赞道，未来 5 年，我可以看到一个高级机器人浏览网络，并仅通过视觉方式基于人类的文本输入来工作。真是有趣的时代。

参考资料:

声明：以上内容为本网站转自其它媒体，相关信息仅为传递更多企业信息之目的，不代表本网观点，亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险，需谨慎。

分享到： QQ空间新浪微博腾讯微博人人网微信

上一篇：瑞思迈全新产品发布推动睡眠呼吸领域个性化新体验

下一篇：返回列表

为你推荐

: 火速护盘！当天制定回购方案，当天下场买股！上市公司真金白银看好后市

4月25日，不少上市公司在下跌中果断实施回购。25日晚间，恒瑞医药、建霖家居、劲嘉股份等公司纷纷公告在盘中实施了回购；威...更多
2022-04-26 01:11:00

: 人弃我取时间已到！券商首席一致看多，A股迎接反攻时刻？

4月25日，上证指数重挫逾5%，失守3000点，创下2020年7月以来新低。盘后，券商中国记者采访了多位券商策略、宏观分...更多
2022-04-26 01:11:00

: 实实在在赚钱了！2021年收入增34%，这家公司要冲击“纯SaaS业务模

4月25日，新三板挂牌公司和创科技晒出了2021年“成绩单”，2021年实现收入1.45亿元，同比增长34%；经营现金流...更多
2022-04-26 01:00:00

: 高玩不买单了水冷头一哥EKWB裁员1/4：业绩持续暴跌

虽然AIO一体式水冷很方便，但分体式水冷依然是目前散热最好、效果最炫的方案，只不过价格很贵，只有高玩才会折腾。然而这个高...更多
2022-04-26 00:38:00

: IEEE发布首个供应链金融区块链国际标准蚂蚁集团牵头制定

，IEEE计算机协会区块链和分布式记账标准委员会召开全体会议，《基于区块链的供应链金融标准》正式发布。这是IEEE发布的...更多
2022-04-26 00:37:00

: 外媒预计在建设P3晶圆厂后三星电子还将在平泽建设P4晶圆厂

，据国外媒体报道，此前有报道称，三星电子2020年年中开始在韩国平泽建设的P3晶圆厂，将在下月开始设备的安装，设备的进入...更多
2022-04-26 00:35:00

: 万华化学首季净利降近两成2021年分红超78亿

25日盘后，万华化学披露2022年第一季度报告。一季度，公司在营业收入增超30%的情况下，净利润回落近两成。具体来看，一...更多
2022-04-26 00:35:00

: 盈利下滑、应收账款和现金流状况恶化！泽达易盛股价较高点已跌超八成

董事长、财务总监协助调查，股价暴跌，业绩下滑，笼罩在泽达易盛头上的疑云久久不散。3月17日晚，泽达易盛发布重大事项公告，...更多
2022-04-26 00:34:00

24小时热点

精彩推荐