谷歌深夜发布复仇神器Gemini，原生多模态碾压GPT-4？

资讯 11个月前

124

作者：一号 GPT-4最强的对手出现了。北京时间12月7日凌晨，谷歌CEO“劈柴”突然发布重磅AI杀手锏——Gemini。就在前几天，还有消息说Gemini要推迟一个月才上线，结果现在这么突然地发布，着实让AI圈料不到

作者：一号

GPT-4最强的对手出现了。

北京时间12月7日凌晨，谷歌CEO“劈柴”突然发布重磅AI杀手锏——Gemini。就在前几天，还有消息说Gemini要推迟一个月才上线，结果现在这么突然地发布，着实让AI圈料不到。以谷歌以往的实力，不用想，这又是AI界的一个“不眠之夜”。

在去年ChatGPT发布不到两周，谷歌就拉响了「警报」来应战，好不容易搞出来的Bard，在首次亮相的时候却出现了失误，让谷歌市值一夜蒸发了1000亿美元。

而且，GPT（Generative Pre-training Transformer）还是基于Transformer开发的，而这个Transformer模型最早还是谷歌提出来，要想谷歌心甘情愿地服输，可不是那么容易。

果然，这一年的时间里，关于Gemini的消息就层出不穷，有的说谷歌大脑和DeepMind部门合并，几乎耗尽谷歌内部算力资源，就是为了背水一战，和OpenAI决战。

不过前段时间，OpenAI的发布会把AI界炸了一圈，还上演了一出“宫斗剧”，甚至还传出让人浮想联翩的Q*,谷歌都没一点新消息，差点就让人以为AI圈的王者已定。

就在一个月之前，英伟达科学家Jim Fan就曾说过，“人们对谷歌Gemini的期望高得离谱！谷歌要想重夺当年AlphaGo的辉煌，Gemini不仅要100%达到GPT-4的能力，还要在成本或者速度上比GPT-4更好。”

生来就是全才

还好，从Gemini公布的演示视频来看，它没让人失望。

“Gemini，从第一天起就是多模态大模型——跨越文本、图像、视频、音频和代码的无缝推理。”这是谷歌官网上，介绍Gemini的第一句话。

与ChatGPT通过升级迭代，逐步加上视觉、音频等多模态能力，形成“合体金刚”的路径不同，Gemini生来就是一位全才。它从第一天起就被设计成原生多模态结构，文本、图像、音视频能力从最开始就一起训练，从这一点上来看，Gemini的学习更像人类。这就意味着，Gemini可以无缝调动多模态能力，抽象和理解、操作和组合不同类型的信息。

举个例子，如果你同时上传一张图片给ChatGPT和Gemini，那么ChatGPT的处理将会是这样的，先借助GPT-4V认出来图里是什么，然后转成文本交给GPT去进行语义理解，然后再作回答；而Gemini则可以基于图像直接进行理解并回应，不用进行不同模型之间的调动。因此，在实操过程中，Gemini可以减少信息的丢失，回应也可以更加迅速和丝滑。

这从谷歌给到的演示视频中便可以看出：

演示者一边画画，Gemini就可以一边辨认，并且用自然、流利的语音和演示者对话，在演示者拿出蓝色的玩具鸭实物后，它还会幽默的回应：“看起来蓝色的鸭子比我想象中更常见。”

很显然，这样的体验更接近漫威中的“贾维斯”——一个高级人工智能，能与人类自如地进行交互。

而这样的体验，离不开Gemini的原生多模态架构。

Gemini VS GPT-4

除了拥有令人惊叹的原生多模态能力，在性能上，Gemini也是相当强悍。

按照尺寸的不同，Gemini共有“中杯”、“大杯”还有“超大杯”三种，即Ultra、Pro和Nano三个不同的版本。它们在性能和适配任务上的侧重点各有不同。