欢迎来到搜虎网

谷歌的复仇大杀器Gemini:塞进多模态模型的搜索引擎

编辑:搜虎网      来源:搜虎网      模型   谷歌   音频   推理   基准

2023-12-08 04:00:43 

在被 ChatGPT 打压了一整年后,谷歌选择了 12 月的这一天,发起最强反击。

多模态 Gemini 是迄今为止最大、最强大的 Google 模型,在文本、视频、语音等多个领域已经超越了 GPT-4。 这真是一种耻辱。

_复仇1.19_复仇1.31

人类有五种感官,我们构建的世界和我们消费的媒体都是以这种方式呈现的。

Gemini的出现,是迈向真正通用的AI模型的第一步!

复仇1.31__复仇1.19

Gemini的诞生代表着AI模型的巨大飞跃,所有谷歌产品都将随之转型。

搜索引擎、广告产品、充满多模式模型的 Chrome 浏览器……这就是 Google 给我们的未来。

多式联运史诗般的创新

过去,大型多模态模型由纯文本、纯视觉和纯音频模型拼接在一起组成,例如 OpenAI 的 GPT-4、DALL·E 和 Whisper。 然而,这不是最佳解决方案。

相比之下,多模式从一开始就是 Gemini 计划的一部分。

从一开始,双子座就接受了不同方式的培训。 然后研究人员使用额外的多模态数据对模型进行微调,以进一步提高模型的有效性。 最终,实现了对各种形式的输入内容的“无缝”理解和推理

从结果来看,Gemini的性能远远优于现有的多模态模型,其功能几乎在每个领域都是SOTA级别的。

而这个最大、能力最强的模型也意味着 Gemini 可以像人类一样理解我们周围的世界,并吸收任何类型的输入和输出——无论是文本、代码、音频、图像、视频。

_复仇1.19_复仇1.31

双子座猜对了,纸团在最左边的杯子里

谷歌 DeepMind 首席执行官兼联合创始人 Demis Hassabis 表示,谷歌一直对非常通用的系统感兴趣。

这里的关键是如何混合所有这些模式,如何从任意数量的输入和感官中收集尽可能多的数据,然后给出同样多样化的响应。

DeepMind 和 Google Brain 合并后,他们真的想出了一些真实的东西。

之所以命名为Gemini,是因为谷歌两大AI实验室的结合。 另一种解释是指美国宇航局的双子座项目,该项目为阿波罗登月计划铺平了道路。

首次超越人类,大幅碾压GPT-4

虽然尚未官方公布,但根据内部信息显示,Gemini 拥有数万亿个参数,用于训练的算力甚至是 GPT-4 的五倍。

既然是用来与GPT-4竞争的模型,Gemini当然要经过最严格的测试。

谷歌评估了这两种模型在多种任务上的表现,惊喜地发现:从自然图像、音频和视频理解到数学推理,Gemini Ultra 在 32 个常用学术基准测试中的 30 个上超越了 GPT-4 !

在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分首次超越人类专家。

复仇1.31__复仇1.19

Gemini 是第一个在 MMLU(大规模多任务语言理解)方面超越人类专家的模型

MMLU考试涵盖数学、物理、历史、法律、医学和伦理学等57个科目,旨在考察世界知识和解决问题的能力。

在这 50 多个不同的学科领域中的每一个领域,Gemini 都与这些领域中最好的专家一样出色。

Google 为 MMLU 设定的新基准让 Gemini 在回答复杂问题之前能够更仔细地使用其推理能力。 与单纯依靠直觉反应相比,这种方法带来了显着的改进。

复仇1.31__复仇1.19

在新的MMMU基准测试中,Gemini Ultra也取得了59.4%的高分。 该测试包括跨不同领域的多模态任务,需要深入的推理过程。

在图像基准测试中,Gemini Ultra 的表现也优于之前的领先机型,而且这一成绩是在没有 OCR 系统帮助的情况下实现的!

各种测试表明,Gemini在多模态处理方面表现出了强大的能力,并且在更复杂的推理方面具有巨大的潜力。

复仇1.31_复仇1.19_

详细内容请参考Gemini技术报告:

复仇1.31_复仇1.19_

报告地址:

复仇1.19_复仇1.31_

中杯、大杯、特大杯!

Gemini Ultra 是 Google 迄今为止创建的最强大的法学硕士,能够完成高度复杂的任务,主要针对数据中心和企业级应用程序。

Gemini Pro 是性能最佳的型号,可用于多种任务。 它将为谷歌的许多人工智能服务提供动力,并从今天开始成为巴德的支柱。

Gemini Nano 是设备上任务最高效的模型,可在 Android 设备上本地和离线运行,Pixel 8 Pro 用户可以立即体验。 其中Nano-1的参数为1.8B,Nano-2的参数为3.25B。

复仇1.31__复仇1.19

Gemini 最基本的模型可以进行文本输入和文本输出,但更强大的模型(如 Gemini Ultra)可以同时处理图像、视频和音频。

不仅如此,双子座甚至可以学习移动和触摸,这更像是一个机器人!

未来,双子座会获得更多的感官,变得更加自觉和准确。

虽然幻觉问题仍然不可避免,但模型知道的越多,它的表现就越好。

准确理解文本、图像和音频

Gemini 1.0经过训练,可以同时识别和理解文本、图像和音频等多种形式的输入内容,因此它也可以更好地理解微妙信息并回答与复杂主题相关的各种问题。

例如,用户先上传非英语音频,然后录制英语音频来提问。

要知道,一般在设计音频摘要时,都会用到文字输入提示。 然而,Gemini 可以同时处理两段不同语言的音频,并准确输出所需的摘要内容。

更神奇的是,如果我想做煎蛋卷,我不仅可以通过语音询问Gemini,还可以将手头的食材拍下来并发送给他。

然后,双子座会结合音频中发送的要求和图片中的食材,一步步教你如何制作煎蛋卷。

你甚至可以在每完成一个步骤时拍一张照片,Gemini 可以根据实际进度继续指导你下一步该做什么。

手癌的人和不会做饭的人都有救了!

而且,这种能力让双子座特别擅长解释数学、物理等复杂学科的推理问题。

例如,如果家长在辅导孩子作业时想省点麻烦,该怎么办?

复仇1.31__复仇1.19

答案很简单,拍张照片并上传即可。 双子座的推理能力足以解决数学、物理等各种科学问题。

_复仇1.31_复仇1.19

对于这些步骤中的任何一个,您都可以向 Gemini 询问更具体的解释。

复仇1.31__复仇1.19

你甚至可以让 Gemini 输出一个与错误类型类似的问题来巩固错误。

复仇1.19__复仇1.31

复杂的推理也能轻松解决

此外,Gemini 1.0具有多模态推理能力,可以更好地理解复杂的书面和视觉信息。 这使其在发现隐藏在大量数据中难以识别的知识方面具有卓越的性能。

通过阅读、过滤和理解信息,Gemini 1.0还可以从数千份文档中提取独特的见解,帮助实现从科学到金融等领域的新突破。

复仇1.19_复仇1.31_

Alpha Code 2:编码能力超过人类竞争对手85%

当然,基准测试毕竟只是测试,真正考验Gemini的是那些想用它来写代码的用户。

编写代码是 Google 为 Gemini 创建的杀手级功能。

Gemini 1.0模型不仅可以理解、解释和生成Python、Java、C++和Go等全球最主流编程语言的高质量代码。 同时它能够跨语言工作并对复杂信息进行推理。

从这一点来看,Gemini无疑将成为全球领先的编程基础模型之一。

复仇1.19_复仇1.31_

两年前,谷歌推出了一款名为Alpha Code的产品,这也是第一个在编程竞赛中达到竞技水平的AI代码生成系统。

基于Gemini的定制版本,谷歌推出了更先进的代码生成系统——Alpha Code 2。

Alpha Code 2 在面对不仅涉及编程、还涉及复杂数学和计算机科学理论的问题时表现出了出色的性能。

复仇1.31__复仇1.19

在与原始 Alpha Code 相同的测试平台上,Google 开发人员还测试了 Alpha Code 2。

结果表明,新模型取得了显着进步,解决的问题数量几乎是之前 Alpha Code 的两倍。

复仇1.31__复仇1.19

其中,Alpha Code 2 的编程表现超过了人类程序员的 85%。 相比之下,Alpha Code 只超过了大约 50% 的程序员。

不仅如此,当人类程序员与 Alpha Code 2 协作,并且人类程序员对代码示例提出具体要求时,Alpha Code 2 的性能将会进一步提升。

_复仇1.31_复仇1.19

Alpha Code 2 依靠法学硕士的强大功能,结合专为竞争性编程设计的高级搜索和重新排序机制。

如下图所示,新模型主要由以下部分组成:

- 多个策略模型为每个问题生成单独的代码示例;

- 能够生成不同代码样本以搜索可能的程序解决方案的采样机制;

- 过滤机制,删除不符合问题描述的代码示例;

- 聚类算法将语义相似的代码样本分组以减少重复;

- 评分模型从 10 个代码示例集群中选择最佳解决方案。

_复仇1.31_复仇1.19

详情请参考Alpha Code 2技术报告:

复仇1.31__复仇1.19

更可靠、更高效、更可扩展

对于 Google 同样重要的是,Gemini 显然是一个更高效、更可靠、更可扩展的模型。

_复仇1.31_复仇1.19

它在 Google 自己的张量处理单元上进行训练,比 Google 之前的模型(例如 PaLM)运行速度更快、成本更低。

开发人员使用谷歌内部开发的张量处理单元TPU v4和v5e在AI优化的基础设施上对Gemini 1.0进行大规模训练。

可靠、可扩展的训练模型和最高效的服务模型是Google开发Gemini的重要目标。

在 TPU 上,Gemini 的运行速度明显快于早期、较小、功能较差的型号。 这些定制设计的人工智能加速器是谷歌大型产品的核心。

您知道,这些产品为搜索、YouTube、Gmail、Google 地图、Google Play 和 Android 领域的数十亿用户提供服务。 他们还帮助世界各地的科技公司经济有效地训练大型模型。

复仇1.31_复仇1.19_

除了Gemini之外,谷歌今天还发布了迄今为止最强大、最高效、可扩展的TPU系统——Cloud TPU v5p,该系统专为训练尖端AI模型而设计。

新一代TPU将加速Gemini的发展,帮助开发者和企业客户更快地训练大规模生成式AI模型并开发新产品和功能。

双子座,让谷歌再次伟大吗?

显然,在皮查伊和哈萨比斯看来,Gemini 的发布只是一个开始——一个更大的项目即将开始。

Gemini 是 Google 一直在等待的模型,是 OpenAI 和 ChatGPT 占领世界后一年探索的顶峰。

自发布“红色警报”以来,谷歌一直在奋起直追,但两家公司都表示,他们不愿意行动太快而跟不上,特别是当我们越来越接近通用人工智能时。

双子座会改变世界吗? 充其量,它可以帮助谷歌在生成人工智能竞赛中赶上 OpenAI。

但皮查伊、哈萨比斯等人似乎都相信,这是谷歌真正伟大的开始。

今天发布的技术报告没有透露架构细节、模型参数或训练数据集。

艾伦人工智能研究所前首席执行官 Oren Etzioni 表示,“没有理由怀疑 Gemini 在这些基准测试上优于 GPT-4,但也许 GPT-5 会比 Gemini 做得更好。” '

构建像 Gemini 这样的大型模型可能需要花费数亿美元,但对于通过云提供人工智能主导地位的公司来说,最终的回报可能是数十亿甚至数万亿美元。

“这是一场不能输、必须赢的战争。 '

_复仇1.31_复仇1.19

海量信息、精准解读,尽在新浪财经APP

搜虎网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。

发表我的评论 共有条评论
    名字:
全部评论