“谷歌版DeepSeek”发布！27B模型单GPU即可运行，击败满血DS V3_前沿资讯

单GPU就能跑的最强模型来了！

谷歌最新模型Gemma 3，主打开源与高效。

27B轻松击败671B满血的DeepSeek V3、o3-mini、Llama-405B，仅次于R1。

而从所需算力来看，其他模型要实现差不多的性能，所需算力资源至少增加10倍，有的情况下甚至高达32倍。

在ChatBot Arena Imarena大模型竞技场中，Gemma 3也跻身Top 10，不仅在同等参数量模型中达到SOTA，开源模型里也仅次于R1。

网友们纷纷表示惊呆，尤其对单GPU就能跑、128K上下文印象深刻。

不过除了这剧情是不是有点似曾相识，有人注意到为啥没有跟QwQ 32B比较。

目前，Gemma 3可以直接在Google AI Studio上体验，在包括抱抱脸、Ollama或者Kaggle等平台下载。

可在单个GPU运行的最强模型

此次Gemma 3有四个版本，27B是最大，还有1B、4B、12B。既有预训练模型，也有通用指令微调版本。

展开来看，主要有这些特点：

如此高效的模型性能不在端侧应用部署可惜了。谷歌也专门给了教程和案例，手把手教的那种。

比如1B模型量化版在手机端运行，在三星Galaxy S24 Ultra上运行的性能如下：

还有在电脑Web端本地创建社媒内容。

MacBook Pro 2023（Apple M3 Pro 芯片）性能如下：

语言语种方面，提供对超过35种语言的开箱即用支持；以及对超过140种语言的预训练支持。

另外还支持函数调用、结构化输出，以帮助您自动执行任务并构建Agent，官方还引入了量化版本。

他们还推出了ShieldGemma 2：一款基于Gemma 3构建的4B图像安全检查器。开发人员可以定制 ShieldGemma 2来满足他们的安全需求。

更多技术细节

与模型一同发布的，还有一份25页的技术报告，里面有不少细节。

如何训练的？

此次结合蒸馏、强化学习和模型合并等方法，对Gemma的前训练和后期训练过程进行了优化。

Gemma 3使用了与Gemma 2一样的Tokenizer，支持140多种语言，并使用JAX框架在Google TPU上对1B的2T tokens、4B的4T tokens、12B的12T tokens和27B的14T tokens进行了训练。

在后训练方面，Gemma 3使用了4个组件：

这种方法提高了数学、编码和指令跟踪方面的性能，使其在LMArena分数达到了1338分。

与之前的版本相比情况：

正文最后一页还放了主要作者们，共同一作共有16位。

OMT：英伟达直接参与优化

除此之外，在技术报告里还看到了这些亮点。

首先，英伟达直接参与了Gemma 3模型的优化，以确保其在任何规格的GPU上都能获得最佳性能，包括Jetson Nano 到最新的Blackwell芯片。

而在英伟达API目录中也出现了Gemma 3，只需调用API即可快速进行原型设计。

针对谷歌自家的TPU，Gemma 3也进行了优化，并通过开源ROCmTM堆栈与AMD GPU集成。还有CPU的解决方案。

Gemma 3还附带了改进的代码库，其中包括高效微调和推理的配方。开发者可以根据特定需求来定制和调整模型。

在其他模型火热的当下，Gemma系列已经来到了一周年，下载量已经默默超过1亿次，在社区中又超过60000个变体诞生。

如今在开源模型这块的竞争，又激烈了不少。

最后，感兴趣的朋友可直接戳下方链接哦~

https://aistudio.google.com/prompts/new_chat

参考链接：

[1]https://blog.google/technology/developers/gemma-3/

[2]https://x.com/sundarpichai/status/1899779090472644881?s=46

[3]https://developers.googleblog.com/en/introducing-gemma3/

中意资讯网