荣耀端侧AI语音技术突破,入选国际顶会,引领智能翻译新时代

   时间:2025-08-27 19:35 来源:ITBEAR作者:钟景轩

在全球人工智能技术的快速发展浪潮中,AI的应用重心正悄然向边缘设备转移,其中端侧AI语音技术已逐渐渗透到人们的日常生活中,为用户的工作与生活带来了前所未有的便捷与高效。近日,荣耀公司与上海交通大学的联合研究成果在国际音频领域顶级会议INTERSPEECH 2025上大放异彩,两篇聚焦端侧多语种任务的研究论文被成功录用,这标志着中国在端侧AI语音技术领域的国际影响力显著提升。

荣耀MagicOS副总裁孙建发强调:“AI技术的核心价值在于更好地服务于用户,而端侧AI则是实现隐私安全与极致体验平衡的最佳途径。”他进一步指出,此次研究成果入选INTERSPEECH,不仅是对荣耀技术创新能力的肯定,也验证了荣耀始终坚持的“以用户需求为导向”的研发理念。通过这一技术,用户即使在没有网络的环境下,也能享受到精准、实时的多语种翻译服务,这正是端侧AI技术的普惠价值所在。

在语音交互领域,长期以来,高精度语音识别与翻译的实时性和隐私保护之间存在着难以调和的矛盾。云端处理虽然能提供强大的算力支持,但往往伴随着延迟高和隐私泄露的风险。而端侧处理虽然能保障隐私和实时性,却受限于设备的算力与存储,难以实现复杂场景下的多语种、高准确率处理。尤其是面对全球多样的语种和复杂的口音环境,传统端侧方案往往力不从心,用户体验割裂且繁琐。

为了破解这一行业难题,荣耀与上海交通大学在联合研究中提出了两项创新技术——“单调有限前瞻注意力机制”与“键-值寄生投机网络”。前者使得AI能够在用户说话的同时进行流式识别与转写,极大降低了交互延迟;后者则通过巧妙的模型结构设计,实现了在不损失精度的情况下,推理速度额外提升40%。实测数据显示,这两项技术将内存占用从传统方案的3-4GB降低至仅800MB,翻译准确率提升16%,推理速度提升38%。

荣耀基于这些研究成果构建的全球首个端侧语音大模型,参数量仅为0.8B,却已内置中、英、德、法、西、意六种语言能力。用户无需单独下载任何语种包,即可实现离线、实时互译,带来了“即开即用”的极致体验。荣耀CEO李健曾表示:“荣耀阿尔法战略的第一步,是将以人为本的AI技术深度融入智能手机,旨在全面激发人类潜能。”此次端侧语音大模型的落地,正是这一战略理念的生动体现。

荣耀与上海交通大学的合作,不仅加速了技术创新,更缩短了从实验室到产品的转化路径。这种产学研深度融合的创新模式,为端侧AI技术的突破带来了显著的乘法效应。自阿尔法战略发布以来,荣耀持续深化AI技术领域布局,从AI应用落地、技术开源到端侧语音大模型的关键突破,展现了清晰的AI战略演进脉络。

在WAIC 2025期间,荣耀发布的自研多模态感知大模型MagicGUI,作为荣耀首个开源GUI大模型,以70亿参数的规模,支撑了底层AI智能体的多模态环境感知与自动执行规划能力,综合性能已达到行业领先水平。此次端侧语音大模型的落地,进一步丰富了荣耀的AI技术矩阵,为MagicOS用户带来了更加高效、自然的AI体验。

随着端侧AI技术在手机上的加速落地,全球AI手机的市场份额也在迅速增长。Canalys发布的报告显示,2024年全球16%的智能手机出货为AI手机,预计到2028年,这一比例将激增至54%。在阿尔法战略的指引下,荣耀将集结生态力量,持续推动AI技术创新,不断突破人机交互的体验边界,让智能设备真正成为用户可靠的数字助手,为用户创造更多新价值。

荣耀正通过扎实的技术创新,让AI真正“听懂”世界——不仅听清语音,更听懂用户在不同场景下的实时需求、隐私关切以及无缝交流的期待。这一过程的实现,离不开对技术创新的坚持、对用户需求的深入洞察以及对产业合作的开放态度。随着荣耀等企业的不断努力,一个更智能、更安全、更无缝的人机语音交互时代正在加速到来。

 
 
更多>同类内容
全站最新
热门内容