近日,科技分析机构 SemiAnalysis 发布了一项为期五个月的调查报告,揭示了 AMD 最新推出的 MI300X AI 芯片在软件方面存在重大问题,导致其无法发挥应有的性能,因而在 AI 芯片市场中无法挑战 Nvidia 的主导地位。

图源备注:图片由AI生成,图片授权服务商Midjourney

报告指出,AMD 的软件存在大量漏洞,导致 AI 模型训练几乎不可能,用户需要耗费大量时间进行调试。与此同时,Nvidia 持续推出新的功能、库以及性能更新,进一步扩大了两者之间的差距。分析人员进行了大量测试,包括 GEMM 基准测试和单节点训练,结果显示 AMD 始终无法克服所谓的 “CUDA 护城河”—— 即 Nvidia 在软件方面的强大优势。

从硬件规格上看,MI300X 的性能数据相当抢眼,FP16计算能力达到1307TeraFLOPS,配备192GB 的 HBM3内存。而相比之下,Nvidia 的 H100为989TeraFLOPS 和80GB 内存,尽管 Nvidia 最新的 H200在内存方面缩小了这一差距,提供了141GB 的配置。值得一提的是,AMD 系统在总拥有成本方面具有优势,价格更低且以太网网络更为实惠。

然而,这些硬件优势在实际使用中并未带来应有的效果。SemiAnalysis 将这种现象形容为 “仅通过像素数量来比较相机”,暗示 AMD 在数字游戏中迷失,而未能提供足够的实际性能。为了获得可用的基准结果,分析师不得不与 AMD 工程师直接合作,解决了多个软件漏洞,反观 Nvidia 的系统则可以直接使用,无需额外调整。

报告中还提到,AMD 最大的 GPU 云服务提供商 Tensorwave 甚至不得不向 AMD 团队免费提供自己购买的 GPU,以帮助解决软件问题。为此,SemiAnalysis 建议 AMD 首席执行官苏姿丰需要加大对软件开发和测试的投资,尤其是分配大量 MI300X 芯片进行自动化测试,简化复杂的环境变量,并改善默认设置,以提升出厂体验。

尽管 SemiAnalysis 希望 AMD 能成为 Nvidia 的有力竞争者,但他们也表示 “可惜还有很多工作要做”。如果不对软件进行重大改进,AMD 将面临进一步落后的风险,尤其是在 Nvidia 准备推出下一代 Blackwell 芯片的情况下,尽管也有报告指出 Nvidia 的下一代产品推出并非一帆风顺。

划重点:

🌟 AMD MI300X AI 芯片面临严重的软件问题,导致 AI 模型训练变得困难。

🔧 Nvidia 凭借强大的 CUDA 平台不断扩展市场优势,软件更新频繁。

💡 SemiAnalysis 建议 AMD 加大软件开发投资,改善用户体验以提升竞争力。