云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA

2026-04-24 08:55:293
云天励飞DeepEdge10适配DeepSeek开源周“首个大招”:FlashMLA - 云天励飞

DeepSeek"开源周"正式启动,并发布首个代码库FlashMLA,引发全球关注。

FlashMLA是针对英伟达Hopper GPU优化的高效MLA解码内核,专为可变长度序列优化设计,是DeepSeek高效使用算力的核心程序模块。FlashMLA通过MLA解码优化与分页KV缓存技术,显著提升硬件利用率,加速大语言模型解码过程,有效提高响应速度与吞吐量,适用于各种实时对话生成场景。

云天励飞芯片团队在FlashMLA开源后,迅速完成了DeepEdge10平台与FlashMLA的适配工作。在适配过程中,云天励飞采用了Op fusion tiling、Online softmax、Double buffer、细粒度存算并行等先进技术,并基于自研的Triton-like编程语言快速开发验证了高效的FlashMLA算子。通过一系列优化,不仅显著提升了计算效率,还大幅降低了显存占用,充分展现了DeepEdge10平台“算力积木”芯片架构的卓越优势,以及其与DeepSeek生态的高度契合性。

今日,云天励飞已将相关代码提交至开源平台Gitee,为开源AI贡献了重要的技术力量。

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。