2025年8月12日,“2025金融AI推理应用落地与发展论坛”在上海举行。华为在此次论坛上正式发布了AI推理创新技术UCM(推理记忆数据管理器),通过创新架构设计降低对高带宽内存(HBM)的依赖,提升国产大模型推理性能,推动AI产业自主化进程。华为计划于9月将该技术进行开源。
据了解,目前,国外主流模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),而我国普遍小于60 Tokens/s(时延50—100ms),如何解决推理效率与用户体验的难题迫在眉睫。
“高延迟、高成本是当下AI推理领域发展的主要挑战。”华为数字金融军团CEO曹冲在会上表示,为了解决之一问题,华为推出了UCM推理记忆数据管理器。
据介绍,华为UCM包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“体验更优、成本更低”。
首Token时延降低90%:依托UCM层级化自适应的全局前缀缓存技术,在多轮对话、知识检索等场景中,系统能直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。比如,在实时客服对话中,首Token响应时间可从50-100ms缩短至5ms以内。
长序列处理效率提升2-22倍:UCM将超长序列Cache分层卸载至外置专业存储,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动;通过算法创新突破模型和资源限制,实现推理上下文窗口10倍级扩展,满足长文本处理需求。同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本,为企业减负增效。
更低的推理成本:UCM分级缓存策略使单Token处理能耗降低28%,减少了对HBM的依赖,硬件采购成本显著降低。同时,在保持算力基础设施不变的前提下,将每Token推理成本降低30%以上。
总结来说,UCM是一款以KV Cache为中心的推理加速套件,它融合多类型缓存加速算法工具,对推理过程中产生的KV Cache记忆数据进行分级管理。通过层级化自适应的全局前缀缓存技术,将推理过程中产生的KV数据按热度分级存储在HBM、DRAM和SSD中。同时,通过动态KV分层卸载和位置编码扩展技术,将超长序列的KV Cache从GPU显存转移至外置专业存储,突破硬件显存容量限制。
据介绍,在与中国银联的联合创新技术试点中,UCM的技术价值得到充分验证。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进服务质量提升。未来,中国银联将依托国家人工智能应用中试基地,联合华为等生态伙伴共建“AI+金融”示范应用,推动技术成果从“实验室验证”走向“规模化应用”。
华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给Hugging Face、TensorRT等主流推理引擎社区,并共享给业内所有ShareEverything(共享架构)存储厂商和生态伙伴。
编辑:芯智讯-林子