AMD ROCm 7发布:AI推理性能大幅提升,DeepSeek R1增速达3.8倍

   时间:2025-06-17 01:43 来源:ITBEAR作者:冯璃月

AMD在近日举行的AMD Advancing AI 2025活动中,正式揭晓了其备受瞩目的下一代开源软件栈技术——ROCm 7。这一发布标志着AMD在加速AI与提升开发者生产力方面迈出了重要一步。

ROCm 7的问世,是AMD继ROCm 6之后的又一次重大更新。自AI计算兴起以来,ROCm软件栈经历了多次迭代与优化。此次ROCm 7的发布,带来了多项关键功能的增强:

首先,ROCm 7引入了最新的算法与模型,为AI应用提供了更为强大的计算基础。其次,AMD在ROCm 7中加入了扩展AI的高级功能,进一步提升了软件的灵活性和适用性。ROCm 7还首次支持了MI350系列,为这一系列的用户提供了更为全面的软件支持。集群管理和企业级功能的加入,也使得ROCm 7更加适合大规模部署和复杂应用场景。

AMD在ROCm 7中特别强调了其软件堆栈中日益增长的推理能力。为此,ROCm 7堆栈中包含了增强型框架,如vLLM v1、llm-d和SGLang等,这些框架旨在提供多种优化,以满足不同场景下的需求。ROCm 7还引入了新的内核和算法,包括GEMM自动调优、MoE、Attention以及基于Python的内核编写,这些新技术的加入将进一步提升软件的性能和灵活性。

在数据类型支持方面,ROCm 7也取得了显著进展。AMD宣布对其MI350系列提供FP6和FP4支持,同时ROCm 7也全面支持FP8、FP6、FP4和混合精度等高级数据类型。这些支持的加入,将使得ROCm 7在处理复杂AI任务时更加得心应手。

从性能表现来看,ROCm 7同样不负众望。AMD表示,ROCm 7将推理作为重点,为AI工作负载带来了高达3.5倍的性能提升。具体来说,相较于ROCm 6,ROCm 7在Llama 3.1 70B上的性能提升了3.2倍,在Qwen2-72B上提升了3.4倍,在DeepSeek R1上更是实现了3.8倍的性能飞跃。

这些显著的性能提升和新增功能,无疑将使得ROCm 7成为AI领域的一股强劲力量。对于开发者而言,ROCm 7的发布无疑将为他们提供更多的选择和可能性,助力他们在AI领域取得更加辉煌的成就。

 
 
更多>同类内容
全站最新
热门内容