谷歌Gemini Embedding 2登场：全模态融合，开启AI嵌入技术新篇章-科技数码-数据世界

谷歌DeepMind近日宣布推出Gemini Embedding 2，这一突破性模型首次实现了文本、图像、视频、音频和文档五种媒体形式的原生多模态嵌入。通过将不同类型的数据统一映射到单一向量空间，该技术为人工智能在跨模态理解领域开辟了新路径，标志着嵌入技术从单一模态向全模态融合的重要跨越。

该模型支持超过100种语言的语义理解，在文本、图像和视频任务的基准测试中展现出超越现有主流模型的性能。其核心创新在于引入了原生语音处理能力，可直接将音频数据转换为嵌入向量，无需经过传统语音转文本的中间步骤。这种端到端的处理方式显著提升了语音数据的处理效率，同时保留了原始音频中的情感、语调等非文本信息。

在技术架构层面，Gemini Embedding 2基于成熟的Gemini框架扩展而来。输入处理能力覆盖多种媒体类型：文本支持最长8192个token；图像可同时处理6张PNG或JPEG格式图片；视频支持最长120秒的MP4/MOV文件；文档则可直接嵌入最多6页的PDF内容。更值得关注的是，模型支持交错输入模式，允许开发者在单次请求中组合多种媒体类型，从而捕捉不同形式数据间的复杂语义关联。

针对企业级应用场景，该模型提供了灵活的向量维度配置选项。开发者可根据实际需求选择3072、1536或768三档输出维度，在模型性能与存储成本间取得平衡。这项特性对于需要处理海量嵌入向量的企业尤为重要，例如构建多模态检索增强生成系统时，可在保证精度的前提下显著降低基础设施开销。

在技术实现上，模型延续了谷歌自主研发的Matryoshka表示学习技术。该技术通过动态压缩向量维度的"嵌套"机制，使输出维度可根据应用场景灵活调整。这种创新设计既保持了高维向量的表达能力，又通过维度缩减优化了存储效率，特别适用于需要大规模部署嵌入向量的商业场景。

目前，Gemini Embedding 2已通过Gemini API和Vertex AI平台开放公开预览。早期访问合作伙伴正在探索其在多模态语义搜索、数据分类等领域的实际应用，部分用例已展现出显著的技术优势。随着更多开发者接入该模型，预计将催生出更多创新应用场景，推动人工智能在跨模态理解领域的技术演进。

【环球网科技综合报道】3月11日消息，据mashable援引彭博社报道称，马克·古尔曼（Mark Gurman）称，苹果计划于今年晚些时候推出搭载全新M5芯片的iMac，并可能引入一套灵感源自平价笔记本电脑…

IT之家注意到，博主还在评论区与网友展开了互动，有网友询问：“两家 18 系列全系都会上 2nm 芯片，还是有部分上 3nm 芯片？”博主表示：“蒽，还是灵动岛和横向大矩阵，包括三摄排列也一样，机身工艺有变…

1998年10月至2003年10月，任中国煤矿工程机械装备集团有限公司副总经理；2003年10月至今，历任中天科源总经理、监事；2007 年4月至2024年4月，历任朗德金燕董事长兼总经理、董事；2010年1…

快科技3月11日消息，今日，追觅科技联合主办的“AWE 2026芯片产业高峰论坛”上，旗下“芯际穿越”首次透露业务规划。同时，公司还发布了涵盖手机处理器、自动驾驶芯片、个人超级AI电脑、泛机器人SOC，以及…

为吸引Z世代，铜师傅虽积极与三星堆、敦煌等IP联名，并推出塑胶潮玩，但授权IP产品收入占比仍不足10%，塑胶潮玩收入占比不到3%，虽市场把其称为“中年男人的泡泡玛特”但却尚未真正成功打造出如泡泡玛特“LABU…

在谢欣看来，个人电脑上跑agent和企业里用agent，是完全不同的事情。他强调，agent的能力上限让人兴奋，但安全的下限决定了它能不能真正进入工作场景。“这也是我们要帮大家解决的问题，让个人和企业，都…

7 结语：折叠屏从尝鲜走向唯一主力机，Magic V6给出了更完整的答案把荣耀Magic V6放在一起看，Magic V6的价值已经不只是某一项卖点上的领先，而是轻薄、续航、屏幕、可靠性、性能、影像和效率…

但在极致精密的工艺标准下，产品既不牺牲性能，更实现了续航体验的大幅提升，在此基础上每降低 0.01mm 都是一次技术跨越。荣耀把 MagicV6 想要让市场知道的是，折叠屏在满血性能和长续航的同时还能不牺牲…

东集小码哥CRUISE Ge2-M手持终端PDA，凭借其精准适配零售电商仓配场景的综合性能，成为破解行业痛点、提升协同效率的重要助力。对于想要提升现场数据采集效率、强化仓配系统协同能力的零售电商企业来说，选…