谷歌开源单卡最强多模态模型！分数超满血版DeepSeek V3，一张GPU就能跑_日常知识

谷歌开源单卡最强多模态模型！分数超满血版DeepSeek V3，一张GPU就能跑

创始人

2025-03-12 20:10:52

0次

智东西

编译 | 程茜

编辑 | 心缘

智东西3月12日报道，刚刚，谷歌发布emma 3系列模型。谷歌博客中说，这是其迄今为止最先进、最便携、最负责任开发的开放式模型，是“世界上最好的单GPU模型”。

Gemma 3采用与Gemini 2.0相同的研究和技术，支持超过35种语言，并能够分析文本、图像和短视频。

其优势在于可以直接在手机、PC、工作站上快速运行，参数规模有1B、4B、12B和27B四种，开发者可以根据特定硬件和性能需求选择。

Gemma 3在知名AI排行榜LMArena上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。

谷歌还推出了基于Gemma 3的图像安全分类器ShieldGemma 2，ShieldGemma 2可用于过滤图像输入和输出，以查找归类为色情、危险或暴力的内容。

▲Gemma 3技术报告

Hugging Face地址：https://huggingface.co/blog/gemma3

Kaggle地址：https://www.kaggle.com/models/google/gemma-3

论文地址：https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

一、引入官方量化版本，单卡即可运行

谷歌以不同的标准格式提供模型的量化版本，通过使用量化感知训练（QAT）对每个模型进行少量步骤微调获得的，这使得Gemma 3在保持高精度的同时减少了模型大小和计算要求。

按Chatbot Arena Elo分数对AI模型进行排名：分数越高（排名越靠前的数字）表明越受用户青睐。下方的圆点表示模型对英伟达H100 GPU的需求，Gemma 3 27B模型排名很高，其他模型可能需要多达32块GPU，Gemma 3 27B仅需一块GPU即可运行。

▲Chatbot Arena评估分数越高越受青睐（下方原点指模型运行需要使用的英伟达H100数量）

从Chatbot Arena评测结果来看，Gemma-3-27B-IT得分超过DeepSeek-V3、01-preview等模型。其论文中提到，所有模型均由人类评分员通过盲目并排评估，每个模型都根据Elo评分系统获得一个分数，Gemma-3-27B-IT是2025年3月8日收到的初步结果。

Gemma 3在LMArena排行榜上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。

Gemma 3系列模型为超过35种语言提供开箱即用的支持，并为140多种语言提供预训练支持。

此外，其可以帮助开发者创建具有高级文本和视觉推理功能的AI功能，如分析图像、文本和短视频的应用程序。Gemma 3支持函数调用和结构化输出，可帮助开发者自动执行任务并构建Agent。

▲视觉识别

除了Gemma 3，谷歌还推出了基于Gemma 3构建的4B参数图像安全检查器ShieldGemma 2。

ShieldGemma 2可以输出三个类别的安全标签：危险内容、露骨色情和暴力。开发人员可以根据他们的安全需求和用户进一步定制ShieldGemma。

二、与Gemma 2训练方式类似，增加多语言数据

Gemma 3遵循与Gemma 2类似的方法进行知识提炼的预训练。

训练数据方面，研究人员在比Gemma 2稍大的token预算上对模型进行预训练，即在Gemma 3 27B上使用14T tokens，在12B版本上使用12T tokens，在4B版本上使用4T tokens，在1B版本上使用2T tokens。token的增加解释了预训练期间使用的图像和文本的混合。

此外，研究人员还增加了多语言数据量以提高语言覆盖率，并添加了短语和并行数据等。

Tokenizer（分词器）方面，研究人员使用与Gemini 2.0相同的Tokenizer：具有拆分数字、保留空格和字节级编码的SentencePiece Tokenizer，生成的词汇表有262k个条目，此Tokenizer对于非英语语言来说更加平衡。

Gemma 3使用过滤技术降低不必要或不安全的言论风险，并删除某些个人信息和其他敏感数据。其会从预训练数据混合物中净化评估集，并通过最大限度地减少敏感输出的扩散来降低风险。

研究人员为每个token抽取256个logit，并按教师概率加权。学生通过交叉熵损失在这些样本中学习教师的分布。对于非抽样logit，教师的目标分布设置为零概率，并重新规范化。

三、附带改进代码库高效微调，已在英伟达API上线

开发者现在可以将Gemma 3和ShieldGemma 2无缝集成到现有的工作流程中。

Gemma 3的开发工具包括Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM和Gemma.cpp。

开发者可以在Google AI Studio中访问Gemma 3，或通过Kaggle或Hugging Face下载模型。

在自定义方面，Gemma 3附带了一个改进的代码库，其中包括用于高效微调和推理的配方。开发者可以通过Google Colab、Vertex AI甚至游戏GPU进行训练和微调模型。

Gemma 3提供了多种部署选项，包括Vertex AI、Cloud Run、Google GenAI API、Iocal环境等。

值得一提的是，英伟达直接优化了Gemma 3模型，以确保开发者在从Jetson Nano到最新的Blackwell芯片上都能获得最高性能。Gemma 3现已在英伟达API目录中，开发者只需调用API即可实现快速原型设计。

英伟达API目录：https://build.nvidia.com/search?q=gemma

Gemma 3还针对Google Cloud TPU进行了优化，并通过开源ROCm堆栈与AMD GPU集成。

结语：低硬件需求模型受捧，谷歌Gemma 3学术计划开启

对DeepSeek等模型的关注，凸显出开发者对硬件要求较低的大模型的兴趣。

因此，为了进一步促进学术研究突破，谷歌还推出了Gemma 3学术计划。学术研究人员可以申请Google Cloud积分（每个奖励价值10000美元），以加速他们基于Gemma 3的研究。申请表今天开放，并将持续开放四个星期。

分数语言 emma DeepSeek 输出模型训练图像评估运行谷歌英伟达 Gemma 开发者

上一篇：原创杜特尔特家族火力全开，马科斯情况不妙，根本不用中国出手

下一篇：现在深圳有订欧式蛋糕的吗？

谷歌开源单卡最强多模态模型！分数超满血版DeepSeek V3，一张GPU就能跑

相关内容

热门资讯