当前位置：首页 >人工智能 >谷歌I/O大会，AI助手全面升级，Gemini家族壮大，Veo闪亮登场

谷歌I/O大会，AI助手全面升级，Gemini家族壮大，Veo闪亮登场

发布时间：2024-05-26 13:46:16 浏览量：101次

五月真热闹，OpenAI才开了春季发布会，谷歌I/O大会也如期召开了。

观看主题演讲直播的过程中，脑海不禁会浮现曾被谷歌内部员工泄露的梗图——谷歌AI产品和项目一个又一个不同又相似的名字令人头大。

主题演讲的关键词仍旧是AI，谷歌还自己在现场给出了提到“AI”的次数，在120次以上。

在万众瞩目的AI领域，谷歌宣布了若干新消息。

AI大模型升级了两个，Gemini 1.5 Pro双下文窗口拓展到200万令牌、Gemini Nano增加多模态理解能力；新发布了三个，更轻更快的Gemini 1.5 Flash、新架下的Gemma 2.0，以及视觉语言模型PaliGemma。

另有文生图模型迭代至Imagen 3，还新发布了一个文生视频模型Veo。

AI的具体应用延展上，谷歌这次憋了不少招。

谷歌的核心产品搜索中，发布AI Overviews，加强版AI搜索摘要功能将率先上架美国。谷歌搜索中还将加入制定计划、视频搜索等多重AI驱动的功能。

此外，Gemini还被塞进谷歌照片以及即时通讯应用Google Messages等产品中。

让人联想到OpenAI才发布的GPT-4o的，是谷歌旨在打造未来通用AI助理的新项目Project Astra，以及Gemin的新功能Live。Gemini Live支持与AI语音聊天，年内预计加入相机功能，和AI实时“视频通话”。

有点尴尬的是，在第三方拉流的直播间里，观众直呼“无聊”，并对眼花缭乱的名字感到困惑。CNET的评论员指出，谷歌需要精进讲故事的能力，而不是一上来就将各个部分尽数展开。

OpenAI赶在谷歌I/O大会前一天开春季发布会，原本盛传的搜索产品没来，但“人类级别响应”的GPT-4o让人一窥新一代AI助理大战的轮廓。

难以想象要是没有OpenAI的狙击，谷歌会有多开朗。

本次谷歌I/O大会上，原本最具惊喜的也是AI助手方面的进展。

首先，谷歌公布了一个新项目，名为Project Astra。用谷歌Deepmind负责人哈萨比斯（Demis Hassabis）的话说，这是真正通向AGI的万能助手项目。

相比于谷歌上一代AI助手Google Assistant，Project Astra的AI助手模式多样，且能实时交互。没有烦人的唤醒词，也没有尴尬的延迟。看你所看，为你排忧解难。

在摄像头匆匆扫过场景的情况下，用户求助“眼镜放在哪儿”，助手准确识别并回答“你的眼镜在红苹果的旁边”。

去年12月，Gemini就曾发布通过视频和AI互动的视频，但事后承认视频经过剪辑，谷歌为此没少被戳脊梁骨。

有意思的是，这次在演示视频的一开头，谷歌就郑重承诺，视频是实时、一次性拍摄的。

不过，谷歌尚未针对Project Astra给出明确的时间线，只是含糊地表示今年晚些时候其中的一些功能将更新到Gemini及其他应用中。

谷歌在AI助手方面还有更看得见、摸得着的进展——Gemini Live，也就是对Gemini产品进行多模态功能拓展。Gemini Advanced用户将可以用语音和Gemini进行对话，对话更流畅自然，延迟更低，可以随时打断，预计夏天上线。谷歌还表示，今年年内将加入相机功能，实现实时视频。

可以说这一次，谷歌被OpenAI精准狙击——GPT-4o不仅早一天发布，而且现场演示，未来几周就会开放给全部用户。

近日外界都在盛传OpenAI将推出搜索类产品，与谷歌一战，但这样的情况并没有发生，而谷歌自己也已经马不停蹄地升级了谷歌搜索。

搜索作为谷歌的核心产品，即将迎来一次大升级——搜索摘要功能AI Overview，同时包含多步推理功能Multi-Step Reasoning、在搜索中做计划Planning in Search，以及用视频提问Ask With Video。

AI Overview，顾名思义，是指用户键入文本、点击搜索之后，出现在最上方的将是AI帮忙整理的信息摘要。其中包含用自然语言对搜索结果的总结和概括，以及推荐的链接。从前这被谷歌称为“搜索生成式体验（SGE）”。

多步推理Multi-step reasoning则可以用来做计划。当用户在搜索框键入“附近最好的瑜伽馆”时，AI摘要会将附近瑜伽馆依照评分、课程、距离等信息分类成块，更清晰地展示给用户。Planning in Search则允许用户直接用谷歌搜索做计划，如在搜索框中键入饮食计划的需求，搜索引擎会给你自动生成一份。

想要搜索商品的时候，AI同样会发挥作用，在搜索框键入“有上下坡的五英里通勤自行车”，搜索引擎会在上方给出选购自行车的思路建议，并给出若干商品推荐。

从一个又一个详尽的演示不难看出，谷歌已经下定决心重塑搜索体验。

应用生态的其他新动作更像是补齐，如Gmail邮箱、Google Messages通讯、谷歌照片等，Gemini逐渐拓展到越来越多的谷歌应用中，大有“Gemini无处不在”的态势。

AI背后的模型，谷歌这次也是大手一挥，升级的升级，新发布的新发布，Gemini家族不断壮大。

三个月前发布的Gemini 1.5 Pro终于“发货”了，即日起正式开放给订阅了Gemini Advanced（类似ChatGPT Plus）的用户。

Gemini 1.5 Pro支持100万token的上下文窗口，今年晚些时候将会增加到200万token。更形象地说，升级后的Gemini 1.5 Pro能同时处理22小时音频、2小时视频、超过60000行代码或140万个单词。

新发布的模型中，Gemini 1.5 Flash原本有明星潜质，但被OpenAI狙击。GPT-4o驱动的ChatGPT狙击Project Astra和Gemini Live，GPT-4o狙击Gemini Flash。

Gemini 1.5 Flash主打更轻更快，反应速度和效率是其主打特色，拥有多模态推理能力，擅长总结、聊天、图像、文档数据提取、视频字幕等。但这些特点，显然和GPT-4o撞车了。

除此之外，谷歌的开源模型Gemma也发布了新版本，Gemma 2.0有270亿参数，并拓展出多模态版本PaliGemma。

多模态生成式模型，谷歌在I/O大会上公布了三个，涵盖图像、音乐和视频。

文生图模型谷歌此前就有，此次做了迭代，发布Imagen 3。Imagen 3对提示词的理解更加准确细致，可以生成更逼真的图像。在演示中，Imagen3从一长段提示词中提取了8个细节信息，并在生成的图像中一一体现。

上一篇北师大未来设计学院在第六届中国教博会发布五项PBL大挑战项目

下一篇高考失利，如何调整心态？|新的风貌 | 火星时代教育

热门课程推荐

热门资讯

1. 华为手机神奇“AI修图”功能，一键消除衣服！原图变身大V领深V！

最近华为手机Pura70推出的“AI修图”功能引发热议，通过简单操作可以让照片中的人物换装。想了解更多这款神奇功能的使用方法吗？点击查看！
2. 四款值得推荐的AI以图生图软件，有需要的赶紧来试试!

近年来,人工智能逐渐走入公众视野,其中的AI图像生成技术尤为引人注目。只需在特定软件中输入关键词描述语以及上传参考图就能智能高效生成符合要求的...
3. 照片变漫画效果，这4个方法操作简单有效，快来试试吧！

想将照片变成漫画效果？这篇文章分享了4个方法，包括Photoshop、聪明灵犀、VanceAI Toongineer、醒图，简单操作就能实现，快来尝试一下吧！
4. 一款免费无限制的AI视频生成工具火了!国内无障碍访问!附教程

人人都可以动手制作AI视频! 打开网址https://pixverse.ai/,用邮箱注册后,点击右上角Create,就可以开始创作了。 PixVerse目前有文案生成视频,和图片生...
5. 赶紧收藏好!这4个完全免费的AI视频制作网站和工具

以下是一些免费的AI视频制作网站或工具,帮助您制作各种类型的视频。 1. Lumen5:Lumen5是一个基于AI的视频制作工具,可将文本转换为视频。用户可以使...
6. 零基础10分钟生成漫画，教大家如何用AI生成自己的漫画

接下来,我将亲自引导你,使用AI工具,创作一本既有趣又能带来盈利的漫画。我们将一起探索如何利用这个工具,发挥你的创意,制作出令人惊叹的漫画作品。让...
7. 四款软件让你一键生成AI美女!

就能快速生成一幅极具艺术效果的作品,让现实中不懂绘画的人也能参与其中创作!真的超赞哒~趣趣分享几款超厉害的AI绘画软件,提供详细操作!有需要的快来...
8. AI视频制作神器Viggle：让静态人物动起来，创意无限！

Viggle AI是一款免费制作视频的AI工具，能让静态人物图片动起来，快来了解Viggle AI的功能和优势吧！
9. 10个建筑AI工具，从设计到施工全覆盖!肯定有你从来没听过的

讲述了建筑业比较著名的AI公司小库科技做出的探索,在这儿就不多说了。今天,我们试着在规划设计、建筑方案设计、住宅设计、管道设计、出渲染图、3D扫...
10. Logo Diffusion——基于sd绘画模型的AI LOGO 生成器

这下LOGO设计彻底不用求人了。接下来详细演示一遍操作流程首先进入Logo D... 想学习更多AI技能,比如说关于怎么样利用AI来提高生产效率、还能做什么AI...

谷歌I/O大会，AI助手全面升级，Gemini家族壮大，Veo闪亮登场

请绑定手机号