Google I/O之后,Gemini 1.5升级惊艳班霸OpenAI

发布时间:2024-05-20 15:06:36 浏览量:219次

3 月中旬,谷歌宣布 Google I/O 定档北京时间 5 月 15 日凌晨 1 点。而当大会开幕时间临近,本应是讨论度最高的时候,「宿敌」OpenAI 却半路杀出,抢先一天,仅耗时 27 分钟就发布了颠覆性巨作 GPT-4o,将新一轮 AI 争霸带入了「Her 时代」。

正如英伟达科学家 Jim Fan 在评价 GPT-4o 时所言,在 Google I/O 大会之前,OpenAI 发布 GPT-4o 是争取更多时间的明智之举。

抛开双方在公关策略上的博弈不谈,OpenAI 的突然发力或许也预示着,谷歌的 Gemni 也同样来到了语音交互段位。在 Google I/O 开幕前,谷歌官方账号发布了一段与 Gemini 语音交互的视频,在展示 demo 中,Gemini 不仅能够通过手机摄像头实时识别场景,还能够进行流畅的语音交互。

Gemini 1.5 Pro:拓展至 200 万 tokens

经历了昨天凌晨的 GPT-4o 发布,大家已经基本从「大模型实时通话」的震惊中走出来了,这也意味着,OpenAI 成功将行业竞争拉至新的制高点,所以,谷歌也必须跟上。而作为自家「最大、最强」的 AI 模型,Gemini 必须为公司搭建好天梯。

Gemini 1.5 与其他模型的上下文长度对比

Gemini 1.5 与其他模型的上下文长度对比

Gemini 1.5 Flash:100 万 tokens 超长上下文、多模态

就当大家以为 Gemini 1.5 的更新「仅此而已」时,DeepMind CEO Demis Hassabis 缓步登场,带来了今天的第一个惊喜——Gemini 1.5 Flash。

Gemini 1.5 Flash

Project Astra:实时、多模态 AI Agent

在 Google I/O 开幕前的一众爆料与猜测中,AI Assistant Pixie 呼声极高。有媒体称,预计谷歌将推出一款由 Gemini 支持的全新 Pixel AI Assistant,名为 Pixie,其可能具备多模态功能,可以通过用户设备上的信息,如地图或 Gmail,提供更加个性化的服务。

Project Astra

Veo 和 Imagen 3:视频+图像双管齐下

谷歌还推出了最新的视频生成模型 Veo 和高质量的文本到图像模型 Imagen 3。

Veo 和 Imagen 3

AI Overviews:谷歌搜索的大模型时代

25 年前,为了帮助人们更好地理解网上繁杂的信息,谷歌搜索由此诞生,人们可以在该引擎上检索各类问题的答案。现如今,Gemini 的出现将谷歌搜索推到了一个新的高度,重新定义了人们获取知识与解答疑惑的方式。

AI Overviews

Trillium:每个芯片的计算性能提高 4.7 倍

据路透社报道,在人工智能数据中心芯片市场上,英伟达占据了大约 80% 的市场份额,剩下的 20% 绝大部分是谷歌各种版本的 TPU。不过谷歌本身并不销售芯片,而是通过其云计算平台出租芯片。

Trillium

AI for Science:AlphaFold 3 或将开源

DeepMind 创始人 Demis Hassabis 介绍道,「为了探究计算机能否像人一样思考,构建通用人工智能,我们创立了 DeepMind。」

AI for Science

写在最后

至此,连续两日的 AI 狂欢落下帷幕。但 OpenAI 与谷歌的对垒不会停歇——GPT-5 的性能天花板在哪?Gemini 的超长上下文限制能否再有突破?OpenAI 的搜索引擎是否会冲击谷歌的地位……

英伟达科学家 Jim Fan 评价道,「谷歌正在做的一件事是正确的:他们终于在认真努力地将人工智能整合到搜索框中。我感觉到了 Agent:规划、实时浏览和多模态输入,所有这些都来自登陆页面。谷歌最强大的护城河是分销 (distribution)。Gemini 不一定要成为最好的模型,也可以成为世界上最常用的模型。」

诚然,纵览整场发布会,笔者最大的感受是「在大模型时代,搜索或许依旧能够成为谷歌最大的底气」。

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定