谷歌推出多模态助手Astra、AI概述搜索、新视频生成模型Veo

发布时间:2024-05-25 19:22:29 浏览量:219次

多模态Agent来了,Gemini精准打击GPT-4o

众所期待的Agent(AI智能代理)终于来了。谷歌在I/O大会上分享了新项目Project Astra,一个不亚于GPT-4o的AI智能助手,可以像人一样了解周遭的复杂世界,在日常生活中提供实时帮助。

比如在办公室里开着摄像头转一圈,AI能识别出画面中的物品,解释正在写的代码,判断所在的地理位置。

搭载了Gemini的谷歌家族产品也华丽升级:谷歌搜索支持输入视频提问,还将上线“AI概述”的结果页面;安卓系统手机内置AI助手,图上画个圈就能全局搜索。

新增图像视频搜索,AI一键联网总结

随着ChatGPT、Copilot等AI产品席卷全球,用户获取信息的方式正悄然改变,本次谷歌的当家产品“谷歌搜索”率先迎来了重大升级,集成了最新的智能代理助手。

在搜索时,你可以通过视频提问,比如录一段视频问道:“为什么这个放不上去?” Gemini能理解问题是视频中的唱片为什么不能固定在唱片机上,并迅速搜索文章、论坛、视频等全网信息,给出解决办法。相比传统的搜索结果罗列,如今有了Gemini加持的谷歌搜索还将上线全新的搜索结果整合功能“AI概述”(AI Overviews)。

Gemini一次搜索就能获得所有信息,并组织呈现出有条理的搜索结果页面。据介绍,谷歌搜索升级后支持多步骤推理功能,可以将大问题分解为若干部分,并找出要解决的问题以及解决的顺序,这意味着AI搜索概述功能将在美国率先推出,未来将覆盖10亿用户。

AIGC模型上新,Veo可生成超60秒高清视频

在图像、音乐、视频领域,谷歌都分别都发布了新的模型或产品。谷歌推出了迄今为止最高质量的文本到图像生成模型Imagen 3,生成的图像细节更丰富、更真实,而且能理解复杂文本提示。

谷歌和YouTube共同打造了Music AI Sandbox,这是一套专业的AI音乐创作工具,可以帮助创作者快速创作。谷歌发布了最新的视频生成模型Veo,只需一个文本、图片或视频提示,即可创建超过60秒的高质量1080p片段。

以上这些AIGC模型,目前都可以在labs.google上申请试用。

谷歌全家桶AI升级,安卓手机抢先搭载AI助手

不出所料,升级后的Gemini 1.5 Pro将集成在更多的谷歌全家桶产品中,包括邮件、会议、文档等软件,以及手机等硬件设备。

比如Gmail中的Gemini能一键总结邮件内容,自己不用去多个邮件、附件中查阅,Gemini会根据语境分析,还会给出回复建议。

对于以AI为核心的手机,谷歌提到了三个关键应用:AI驱动搜索(上文提到的图片画圈搜索),系统自带的AI助手(目前安卓系统可用),AI保护隐私和安全(提示诈骗风险)。谷歌表示,今年晚些将拓展Gemini Nano的多模态功能,新增视觉、声音、口语输入,让AI手机更好地服务用户。

皮查伊近日在接受《The Circuit With Emily Chang》专访时提到,“在技术领域,如果你不持续创新以保持领先,那么任何公司都将不可避免地走向衰败。从今年I/O大会主旨演讲发布了这么多新模型和产品升级来看,谷歌仍在坚持AI First的战略方向,无论是搜索还是AIGC应用等,AI的前沿高地必有谷歌的位置。”

热门课程推荐

热门资讯

请绑定手机号

x

同学您好!

您已成功报名0元试学活动,老师会在第一时间与您取得联系,请保持电话畅通!
确定