今日,谷歌来了波大爆发,包括:
我们接下来一一介绍。
首先是谷歌开源模型家族Gemma的新成员——Gemma 3,它是一系列基于Gemini 2.0的轻量级SOTA开源模型。作为谷歌迄今最先进、最便携且最负责任开发的开源模型,Gemma 3专为多种设备设计,从手机、笔记本电脑到工作站,都能实现高速运行,帮助开发者在需要的任何地方创建AI应用。
Gemma 3提供多个版本,包括1B、4B、12B和27B,让开发者能根据特定硬件和性能需求选择合适模型。
Gemma 3在同等规模模型中性能卓越,并在LMArena排行榜的人类偏好评估中超越了Llama-405B、DeepSeek-V3和o3-mini等前沿大模型。在下图中,在取得与DeepSeek-R1相差不多得分的情况下,Gemma 3使用了前者1/32的GPU算力。
这使得用户可以在单个GPU(H100)或TPU上构建流畅的用户体验,并在体验到其它模型相似性能的同时节省至少10倍的算力。
同样在Chatbot Arena榜单中,Gemma-3-27b-it迈进了Top 10,击败了OpenAI的o1-preview和o3-mini-high,成为仅次于DeepSeek-R1的第二好的开源模型。
图源:https://x.com/ai_for_success/status/1899732594486595918Gemma 3的其他技术亮点包括如下:
此外,Gemma 3的技术报告已经放出,想要了解该系列模型更多细节的小伙伴可以移步查阅。
技术报告地址:
https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf
Gemini Robotics:将AI带入物理世界
Google DeepMind 推出了两个新的人工智能模型,旨在帮助机器人执行比以往更广泛的现实世界任务。
第一个模型名为 Gemini Robotics,是一个视觉-语言-动作模型,即使没有接受过相关训练,它也能理解周围最新情况。
第二个是 Gemini Robotics-ER,这是一种具有先进空间理解能力的 Gemini 模型,使机器人能够使用 Gemini 的具身推理 (ER) 能力运行自己的程序。
这两个新模型都是基于Gemini 2.0开发的。
Gemini Robotics: 最先进的视觉-语言-动作模型
机器人想要在现实世界中对人类真正有帮助,需要具备三个核心条件:通用性、交互性和灵巧性。
通用性:Gemini Robotics技术凭借对世界的深度理解能力,能够泛化到全新情境并解决各种任务,包括训练中从未见过的任务。Gemini Robotics尤其擅长应对新物体、多样化指令和新环境。技术报告数据显示,Gemini Robotics在综合泛化能力测试中的表现比其他最先进的视觉-语言-动作模型平均提高了一倍以上。
Gemini Robotics对世界理解能力的展示
交互性:为了在动态物理世界中高效运作,机器人需要能与人类及周围环境无缝互动,并迅速适应变化。
Gemini Robotics基于Gemini 2.0构建,拥有直观的互动能力。它凭借先进的语言理解技术,能够理解并响应日常对话和多语言指令。
与之前的模型相比,它能理解更广泛的自然语言指令,并根据用户输入调整行为。同时,它会持续监测周围环境,检测环境或指令的变化,并相应调整行动。这种被称为「可操控性」的能力,使人们能更好地在家庭和工作场所与机器人助手协作。
灵巧性:打造实用型机器人的第三个关键要素是灵巧的操作能力。人类轻松完成的日常任务,实际上需要精细的运动技能,这对机器人而言仍极具挑战。Gemini机器人能够应对复杂的精确操控多步骤任务,如折纸或将零食装入密封袋。
Gemini机器人展现出卓越的灵巧性
此外,Gemini Robotics系统设计具有强大的适应性,能够兼容各种形状和尺寸的机器人平台。虽然该模型主要基于ALOHA 2双臂机器人平台的数据训练,但研究证实它同样能有效控制基于Franka机械臂(学术实验室广泛使用的设备)的双臂系统。更值得注意的是,Gemini机器人还可针对更复杂的机身结构进行优化定制,如Apptronik开发的Apollo人形机器人,以应对现实环境中的多样化任务。
Gemini Robotics 致力于研究不同类型的机器人
增强Gemini的世界理解能力
除了Gemini Robotics ,谷歌还推出了一种名为Gemini Robotics-ER(Embodied Reasoning)的先进视觉-语言模型。该模型增强了Gemini对世界的理解,特别是在机器人技术所需的空间推理能力方面,同时允许机器人研发者将其与现有的低级控制器集成。
Gemini Robotics-ER显著提升了Gemini 2.0的现有功能,如指向和3D检测。通过结合空间推理与编程能力,Gemini Robotics-ER能够动态实现全新功能。例如,当识别到咖啡杯时,模型能直观推断出合适的双指抓取方式以抓住杯柄,并规划安全的接近路径。
Gemini Robotics-ER能直接执行控制机器人所需的全部步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的应用场景中,该模型的成功率是Gemini 2.0的2至3倍。当代码生成不足以解决问题时,Gemini Robotics-ER还能通过上下文学习能力,从少量人类示范中学习模式并提供解决方案。
Gemini Robotics-ER在具身推理能力方面表现出色,包括检测物体和指向物体部件、寻找对应点以及在三维空间中检测物体。
最后,谷歌开放了Gemini 2.0 Flash的原生图像生成能力。现在,开发者可以在Google AI Studio中使用实验版Gemini 2.0 Flash(gemini-2.0-flash-exp),并通过Gemini API体验这项功能。Gemini 2.0 Flash结合多模态输入、增强推理和自然语言理解来创建图像。
https://blog.google/technology/developers/gemma-3/
https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/