谷歌开源单卡最强多模态模型!分数超满血版DeepSeek V3,一张GPU就能跑
创始人
2025-03-12 20:10:52
0

智东西

编译 | 程茜

编辑 | 心缘

智东西3月12日报道,刚刚,谷歌发布emma 3系列模型。谷歌博客中说,这是其迄今为止最先进、最便携、最负责任开发的开放式模型,是“世界上最好的单GPU模型”。

Gemma 3采用与Gemini 2.0相同的研究和技术,支持超过35种语言,并能够分析文本、图像和短视频。

其优势在于可以直接在手机、PC、工作站上快速运行,参数规模有1B、4B、12B和27B四种,开发者可以根据特定硬件和性能需求选择。

Gemma 3在知名AI排行榜LMArena上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。

谷歌还推出了基于Gemma 3的图像安全分类器ShieldGemma 2,ShieldGemma 2可用于过滤图像输入和输出,以查找归类为色情、危险或暴力的内容。

▲Gemma 3技术报告

Hugging Face地址:https://huggingface.co/blog/gemma3

Kaggle地址:https://www.kaggle.com/models/google/gemma-3

论文地址:https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

一、引入官方量化版本,单卡即可运行

谷歌以不同的标准格式提供模型的量化版本,通过使用量化感知训练(QAT)对每个模型进行少量步骤微调获得的,这使得Gemma 3在保持高精度的同时减少了模型大小和计算要求。

按Chatbot Arena Elo分数对AI模型进行排名:分数越高(排名越靠前的数字)表明越受用户青睐。下方的圆点表示模型对英伟达H100 GPU的需求,Gemma 3 27B模型排名很高,其他模型可能需要多达32块GPU,Gemma 3 27B仅需一块GPU即可运行。

Chatbot Arena评估分数越高越受青睐(下方原点指模型运行需要使用的英伟达H100数量)

Chatbot Arena评测结果来看,Gemma-3-27B-IT得分超过DeepSeek-V3、01-preview等模型。其论文中提到,所有模型均由人类评分员通过盲目并排评估,每个模型都根据Elo评分系统获得一个分数,Gemma-3-27B-IT是2025年3月8日收到的初步结果。

Gemma 3在LMArena排行榜上的初步人类偏好评估中优于Llama-405B、DeepSeek-V3和o3-mini。

Gemma 3系列模型为超过35种语言提供开箱即用的支持,并为140多种语言提供预训练支持。

此外,其可以帮助开发者创建具有高级文本和视觉推理功能的AI功能,如分析图像、文本和短视频的应用程序。Gemma 3支持函数调用和结构化输出,可帮助开发者自动执行任务并构建Agent。

▲视觉识别

除了Gemma 3,谷歌还推出了基于Gemma 3构建的4B参数图像安全检查器ShieldGemma 2。

ShieldGemma 2可以输出三个类别的安全标签:危险内容、露骨色情和暴力。开发人员可以根据他们的安全需求和用户进一步定制ShieldGemma。

二、与Gemma 2训练方式类似,增加多语言数据

Gemma 3遵循与Gemma 2类似的方法进行知识提炼的预训练。

训练数据方面,研究人员在比Gemma 2稍大的token预算上对模型进行预训练,即在Gemma 3 27B上使用14T tokens,在12B版本上使用12T tokens,在4B版本上使用4T tokens,在1B版本上使用2T tokens。token的增加解释了预训练期间使用的图像和文本的混合。

此外,研究人员还增加了多语言数据量以提高语言覆盖率,并添加了短语和并行数据等。

Tokenizer(分词器)方面,研究人员使用与Gemini 2.0相同的Tokenizer:具有拆分数字、保留空格和字节级编码的SentencePiece Tokenizer,生成的词汇表有262k个条目,此Tokenizer对于非英语语言来说更加平衡。

Gemma 3使用过滤技术降低不必要或不安全的言论风险,并删除某些个人信息和其他敏感数据。其会从预训练数据混合物中净化评估集,并通过最大限度地减少敏感输出的扩散来降低风险。

研究人员为每个token抽取256个logit,并按教师概率加权。学生通过交叉熵损失在这些样本中学习教师的分布。对于非抽样logit,教师的目标分布设置为零概率,并重新规范化。

三、附带改进代码库高效微调,已在英伟达API上线

开发者现在可以将Gemma 3和ShieldGemma 2无缝集成到现有的工作流程中。

Gemma 3的开发工具包括Hugging Face Transformers、Ollama、JAX、Keras、PyTorch、Google AI Edge、UnSloth、vLLM和Gemma.cpp。

开发者可以在Google AI Studio中访问Gemma 3,或通过Kaggle或Hugging Face下载模型。

在自定义方面,Gemma 3附带了一个改进的代码库,其中包括用于高效微调和推理的配方。开发者可以通过Google Colab、Vertex AI甚至游戏GPU进行训练和微调模型。

Gemma 3提供了多种部署选项,包括Vertex AI、Cloud Run、Google GenAI API、Iocal环境等。

值得一提的是,英伟达直接优化了Gemma 3模型,以确保开发者在从Jetson Nano到最新的Blackwell芯片上都能获得最高性能。Gemma 3现已在英伟达API目录中,开发者只需调用API即可实现快速原型设计。

英伟达API目录:https://build.nvidia.com/search?q=gemma

Gemma 3还针对Google Cloud TPU进行了优化,并通过开源ROCm堆栈与AMD GPU集成。

结语:低硬件需求模型受捧,谷歌Gemma 3学术计划开启

对DeepSeek等模型的关注,凸显出开发者对硬件要求较低的大模型的兴趣。

因此,为了进一步促进学术研究突破,谷歌还推出了Gemma 3学术计划。学术研究人员可以申请Google Cloud积分(每个奖励价值10000美元),以加速他们基于Gemma 3的研究。申请表今天开放,并将持续开放四个星期。

相关内容

台积电给华为造芯片,难怪A...
2025年,全球AI产业迎来了一场历史性变革,DeepSeek通过...
2025-03-12 22:40:59
机构看好AI模型及应用,信...
截至收盘,中证信息安全主题指数上涨1.0%,中证软件服务指数上涨0...
2025-03-12 20:41:08
谷歌开源单卡最强多模态模型...
智东西 编译 | 程茜 编辑 | 心缘 智东西3月12日报道,刚刚...
2025-03-12 20:10:52
今天刚买了副眼镜~可是我有...
今天刚买了副眼镜~可是我有点东西不明白~请教高人~只要回答详细~分...
2025-03-12 19:35:13
以AI赋能AI,澳鹏不断提...
大模型与生成式AI无疑已经成为实实在在的效率和增长引擎,而Deep...
2025-03-12 18:14:07
口腔医疗也玩转AI!华西口...
封面新闻记者 邱添 深夜牙痛难忍,张女士正对着华西口腔医院挂号界面...
2025-03-12 18:13:08

热门资讯

王家大院现在的所有者还是王家的... 王家大院现在的所有者还是王家的后人吗?我说的是山西灵石的王家大院...现在不知道是被收为国,还是仍为...
写字好看的女生有什么优势 写字好看的女生有什么优势见字如见人,字好看 很加分的。学校有书法比赛时很吃香哦感觉没有打字快的女生有...
杨大勇的妻子是谁 杨大勇的妻子是谁杨大勇的妻子是一位名叫王小丽的女性。据悉,王小丽与杨大勇相识于大学时期,两人相恋多年...
我家办白事,朋友给我发红包,我... 我家办白事,朋友给我发红包,我该怎么说感谢话我家办白事,朋友给我发红包,我该怎么说感谢话当家里有事情...
顶级绝伦推理片100部介绍 顶级绝伦推理片100部介绍 《白夜追凶》;可以说是刑侦国剧天花板了,逻辑,叙事方式,主演演技,这些几...
小猿众包骗局 小猿众包骗局小猿众包是小猿旗下的可以在家做题赚钱的兼职,平时如果时间充裕的情况下可以做做小猿众包挣个...
女生说男生丑萌什么意思? 女生说男生丑萌什么意思?丑萌就是又丑又萌,意思是男生在她的审美里不是好看的那种,但是又很戳她萌点就是...
自从和女朋友确定关系后,女朋友... 自从和女朋友确定关系后,女朋友为什么每天晚上发视频要我给她讲故事哄她睡觉?每次给她讲一个小时她都不睡...
外婆发外孙朋友圈说说有哪些? 外婆发外孙朋友圈说说有哪些? 1、天伦之乐,幸福便是如此简单。2、难得好时光,携孙儿共享天伦之乐,哪...
一个女生。让我去找她玩。是什么... 一个女生。让我去找她玩。是什么意思呢?求解。她是对你有好感的,不然也不会邀请你去找她玩。有可能把你当...