IT世界网 >> 科技

科技

昇腾生态硬核赋能!上交大攻克超长上下文推理难题,性能大幅跃升

   时间:2025-11-26 16:37   来源:网络   阅读量:7588   会员投稿

随着大语言模型在文本分析、智能问答等场景的广泛应用,处理1M超长文本推理时,常常面临显存不足、运算速度卡顿的行业痛点,严重限制了超长文本场景的应用。近日,上海交通大学李健教授团队依托上海交通大学 鲲鹏昇腾科教创新卓越中心的算力支持,基于vLLM-Ascend 推理框架研发出一套针对超长上下文推理的稀疏注意力 KV Cache 分层缓存管理系统。在昇腾 AI 软硬件平台的全方位赋能下,该项目成功破解单卡支持超长上下文推理的显存与性能双重难题,同时大幅提升吞吐量。

项目核心创新在于设计了 KV Cache 分级缓存集成机制。该机制先对推理任务进行实时分析,智能识别Top-K 重要块并集中算力处理,从源头提升计算效率;同时采用数据冷热分层存储策略,根据数据访问频率,将生成数据动态划分为高频热数据与低频冷数据,再针对性优化存储位置,减少资源浪费。这一机制的落地依托昇腾CANN异构计算架构灵活的动态调度能力,能精准控制冷热数据在显存与主存间的流转,大幅降低数据迁移开销。最终,该方案实现单卡流畅处理超过1M的超长文本推理任务,系统推理吞吐量超过39%,彻底突破传统系统在长序列处理上的显存与性能瓶颈。

同时项目进行了元数据结构优化与缓存机制设计,其中数据索引与掩码是关键支撑 —— 通过精简索引结构、合并掩码维护步骤,有效减少重复运算,使昇腾NPU算力更集中于注意力计算与文本生成等核心任务,提升硬件利用效率。相关优化已通过vLLM-Ascend推理框架灵活集成,保障了技术方案的顺利落地。

目前,该项目源代码已在 Gitee 社区中开源,后续将进一步推送到昇腾开源生态,合入GitHub社区vLLM-Ascend项目专区。此次技术突破,不仅为超长文本推理提供了高效解决方案,更印证了昇腾生态在AI创新中的赋能价值。未来,随着该系统在更多行业场景的落地,昇腾将持续为AI技术研发提供算力与技术保障,推动大语言模型在长文本分析、智能办公、数字孪生等千行百业的深度应用,加速人工智能产业化进程。

免责声明:该文章系本站转载,旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议,仅供读者参考。

  • 宝马中国联合华为终端深度融合鸿蒙生态开启智能出行新体验
    宝马中国联合华为终端深度融合鸿蒙生态开启

    在科技飞速发展的今天,汽车智能化已然成为行业发展不可逆转的必然趋势。宝马中国与华为终端的合作,宛如两颗璀璨星辰在浩瀚宇宙中交汇,为汽车智能互联领域带来了全新的曙光和无限可能。宝马,一直以来凭借其卓越的驾驶操控性能,无论是在蜿蜒的山路还是平坦...

  • 汽车行业首批增程器综合性能认证自主品牌技术实力彰显
    汽车行业首批增程器综合性能认证自主品牌技

    在汽车行业技术不断迭代升级的进程中,增程器领域传来了令人振奋的消息。中国汽车工程研究院股份有限公司联合中国质量认证中心有限公司颁发了汽车行业首批“乘用车增程器综合性能之星”认证证书,这一举措在汽车行业发展历程中具有里程碑式的意义。此次认证基...

  • 怎么选购电动叉车呢?易工机械分享几个要点
    怎么选购电动叉车呢?易工机械分享几个要点

    电动叉车是现代物流行业中的重要设备之一,与传统的燃油叉车相比,它具有更好的环保性、低噪音、更低的维护成本、操作简便、节省时间和更高的安全性等优势。但在选购电动叉车时,需要考虑以下几个方面:一、载货能力叉车的载货能力是一个非常重要的指标。在选...

  • 不断创“芯”,亚略特为行业高质量发展提供强劲动能
    不断创“芯”,亚略特为行业高质量发展提供

    近日,由深圳市芯片行业协会联合凤凰网举办的“新时代芯未来“全球芯片产业链发展高峰论坛在深圳前海万科国际会议中心成功召开。亚略特作为杰出企业代表之一受邀参与了此次峰会,并凭借在多模态生物识别核心技术上的不断创新,以及芯片研发领域的持续突破,获...