您现在的位置是:主页 > 模板分享 > 作品 >
谷歌发布Gemini 2.0,三款AI Agent新产品,能搜网页
发布时间:2024-12-20 20:56编辑:[db:作者]浏览(121)
-
起源:DeepTech深科技Agent 未然成为了科技公司在 AI 范畴的新疆场。外地时光12月11日,谷歌忽然宣布了Gemini 2.0,这款全新的AI模子不只可能自力实现庞杂义务,还初次支撑原生图像天生跟多言语音频功效。(起源:谷歌)统一天,OpenAI的“十二连发”运动停止到了第五天。不外此次直播略显平庸,只是演示了ChatGPT与苹果 Apple Intelligence 的整合。比拟之下,谷歌的宣布堪称是“量年夜管饱”,抢尽了风头。在新模子的加持下,谷歌一口吻推出了三款 AI Agent(智能体)产物,标记着谷歌在与OpenAI、Anthropic跟微软的竞争中迈出了主要一步。(起源:谷歌博客、谷歌翻译)谷歌DeepMind的CEO德米斯·哈萨比斯(Demis Hassabis)表现:“Gemini 2.0 现实上曾经到达了现在 Gemini 1.5 Pro 的程度。这象征着在坚持雷同本钱效力、机能效力跟速率的同时,团体机能晋升了一个品位。这个结果让咱们十分满足。”现在谷歌颁布的是试验版Gemini 2.0 Flash。在官方数据对照中,新模子在编程、数学、推理、图像、视频等范畴的处置才能均超出了Gemini 1.5 Pro,机能晋升引人注目。图 | Gemini 2.0 Flash 的测试成就(起源:谷歌)谷歌 Gemini 产物担任人图尔西·多希(Tulsee Doshi)在消息宣布会上先容说:“咱们晓得 Flash 因其在速率跟机能上的均衡而深受开辟者欢送。新版本不只坚持了同样的疾速呼应才能,并且功效愈加强盛。”据悉,此次机能的晋升并不以就义功效为价值,新版本在运转速率上乃至比前代 Flash 模子快了一倍,同时在代码编写跟图像剖析等方面都有明显晋升。Gemini 2.0 的最年夜亮点是其“代办人工智能”(Agentic AI)功效。这种 AI 体系不再仅仅是主动地答复成绩,而是可能懂得庞杂的高低文,提前计划多个步调,并在用户受权下采用举动。谷歌推出了三个基于 Gemini 2.0 架构的 AI 智能体原型,分辨是 Project Astra、Project Mariner 跟Jules,每一个都针对特定利用场景停止了优化。别的,谷歌还演示了 AI 智能体怎样跟玩家配合打游戏。在《部落抵触》的演示中,AI 能够先容军种特征并给出组合倡议。它还能在 Reddit 上检索信息,为玩家供给脚色抉择倡议。玩家全程都是用对话的情势与智能体互动的。图 | 玩家与 AI 智能体互动(起源:谷歌)通用 AI 助手 Project AstraProject Astra 是一个进级版的通用 AI 助手,它可能在多种言语之间自若切换,应用多种言语跟混杂言语停止攀谈,同时拜访谷歌搜寻、舆图等东西并坚持对话语境影象。DeepMind 的团体产物司理比博·徐(Bibo Xu,音译)展现了它的才能。Project Astra当初能够在会话中坚持长达 10 分钟的影象,并能记着从前与用户的对话,从而供给更有辅助、更特性化的休会。同时,它处置言语的速率能够与人类在一样平常对话中的处置速率相媲美。在现实演示中,该体系展示出了令人印象深入的言语切换才能,并可能及时经由过程谷歌搜寻、舆图跟摄像头获守信息。(起源:谷歌)阅读器操纵东西 Project Mariner为了让 AI 智能体操纵电脑,谷歌推出了 Project Mariner。谷歌表现,Project Mariner 是应用 Gemini 2.0 构建的晚期研讨原型,旨在从阅读器开端摸索人机交互的将来。作为研讨原型,它可能懂得跟推理阅读器屏幕上的信息,包含像素跟文本、代码、图像跟表单等收集元素,而后经由过程试验性的 Chrome 扩大顺序实现义务。(起源:谷歌)Project Mariner 跟 Anthropic 此前推出的 AI 把持电脑(Computer use)功效相似,只不外现在它仅限于操纵 Chrome 阅读器、挪动屏幕上的光标、点击按钮跟填写表格,可能像人类一样应用跟阅读网站。作为 Chrome 阅读器扩大顺序,Project Mariner 在 WebVoyager 单一代办基准测试中获得了 83.5%的胜利率,这个成就在自立网页导航范畴创下了新记录。谷歌试验室产物治理总监杰克琳·孔泽尔曼(Jaclyn Konzelmann)说明说:“Project Mariner 是一个晚期研讨原型,摸索了 AI 智能体在网页阅读跟举动履行方面的才能。”谷歌表现,为了保险、担任地构建 Project Mariner 体系,他们正在踊跃研讨新型危险跟缓解办法,同时让人类参加此中。比方,Project Mariner 只能在阅读器的运动选项卡中输入、转动或点击,而且它会在履行某些敏感操纵(比方购置某物)之前请求用户停止终极确认。(起源:谷歌)编程助手Jules谷歌还针对软件开辟者推出了 Jules。这个基于 Gemini 2.0 平台构建的 AI 编程助手能够在开辟者苏息时自立修复软件过错并筹备代码变动。与传统的编程助手差别,Jules 可能作为自立代办直接集成到 GitHub 的任务流程体系中,剖析庞杂的代码库,跨多个文件实行修复,并筹备具体的拉取恳求(pull requests),而无需连续的人工监视。(起源:谷歌)谷歌特殊夸大了 Jules 的保险特征:“开辟者一直掌控着全部进程。Jules 会在采用举动条件出倡议计划,用户能够监控其编写代码的进程。”它在兼并任何变动之前都须要明白的同意,确保开辟进程一直处于人工监视之下。谷歌指出,Jules 的宣布存在主要的策略意思。在软件开辟行业面对连续的人才缺乏的配景下,主动化编程助手变得越来越主要。市场研讨公司高德纳(Gartner)猜测,到 2028 年,75%的新利用顺序开辟将波及 AI 帮助编程。在美国劳伦斯伯克利国度试验室的晚期测试中,研讨职员应用 Jules 跟相干谷歌 AI 东西,将某些剖析义务的时光从一周收缩到了多少分钟。现在 Jules 仅开放给可托赖测试职员,并将在 2025 年终向其余感兴致的开辟者开放。(起源:谷歌)迈向 AI 智能体时期谷歌的愿景是在 2025 年开启真正的“AI 智能体时期”,而Gemini 2.0将成为这一愿景的基本。Gemini 2.0 在音频跟图像天生方面获得了宏大冲破。体系能够天生跟修正图像,处置照片跟视频,答复相干成绩,还能用差别口音跟言语的声响朗诵文本。你能够请求它加快或放慢语速,乃至能够让它像海盗一样谈话。为了避免滥用,谷歌应用了 SynthID 技巧对全部天生的音频跟图像停止水印标志。别的,谷歌正式向云效劳客户开放了第六代张量处置单位(TPU)Trillium 芯片,并在单个收集构造中安排了超越 10 万枚芯片。Gemini 2.0 模子就是在 Trillium 上练习的。谷歌还推出了多模态及时 API(Multimodal Live API),辅助开辟者构建存在及时音频跟视频流功效的利用顺序。这个 API 支撑来自摄像头或屏幕的音频跟视频输入,可能处置包含打断在内的天然对话形式,这与 OpenAI 的及时 API 非常类似。(起源:谷歌)哈萨比斯表现,除了机能晋升外,模子效力跟速率的提高同样令人高兴。谷歌打算将 Gemini 2.0 普遍利用于其产物生态体系中,包含谷歌搜寻的 AI 概览功效(现在笼罩 10 亿用户)、Gemini 利用顺序以及 Workspace 等办公套件,旨在为用户供给更同一、更强盛的 AI 休会。一年前,当谷歌推出第一代 Gemini 时,AI 范畴还重要由能停止智能对话但难以处置事实天下义务的谈天呆板人主导。现在,跟着 AI 智能体范畴迎来了更多参加者,它们开端迈出奔向自立的第一步,全部行业仿佛又站在了一个新的拐点上。显然,当初的成绩不再是 AI 是否懂得咱们,而是咱们能否筹备好让 AI 代表咱们做出决议。参考材料:https://blog.谷歌/technology/谷歌-deepmind/谷歌-gemini-ai-update-december-2024/https://venturebeat.com/ai/谷歌-gemini-2-0-could-this-be-the-beginning-of-truly-autonomous-ai/https://techcrunch.com/2024/12/11/gemini-2-0-谷歌s-newest-flagship-ai-can-generate-text-images-and-speech/https://deepmind.谷歌/technologies/project-mariner/
申明:新浪网独家稿件,未经受权制止转载。 -->
下一篇:没有了