精品国产免费一区二区,日本不卡一区二区视频,色狠狠一区二区三区熟女91,亚洲精品一区二区在线,色999自拍偷拍,蜜桃久久久亚洲精品成人,美女裸体网站久久久久胸胸馒头,亚洲一区二区精品粉嫩17c,98一区二区精品视频

您好,歡迎來到教育裝備網(wǎng)!登錄注冊新賬戶

http://www.www.2776g.com/zt/2022/ceeia/
全國教育辟謠平臺
  首頁>教育資訊 > 商訊>正文

昇騰生態(tài)硬核賦能!上交大攻克超長上下文推理難題,性能大幅躍升

http://www.www.2776g.com2025年11月27日 09:55教育裝備網(wǎng)

  隨著大語言模型在文本分析、智能問答等場景的廣泛應(yīng)用,處理1M超長文本推理時,常常面臨顯存不足、運算速度卡頓的行業(yè)痛點,嚴(yán)重限制了超長文本場景的應(yīng)用。近日,上海交通大學(xué)李健教授團(tuán)隊依托上海交通大學(xué) 鯤鵬昇騰科教創(chuàng)新卓越中心的算力支持,基于vLLM-Ascend 推理框架研發(fā)出一套針對超長上下文推理的稀疏注意力 KV Cache 分層緩存管理系統(tǒng)。在昇騰 AI 軟硬件平臺的全方位賦能下,該項目成功破解單卡支持超長上下文推理的顯存與性能雙重難題,同時大幅提升吞吐量。

  項目核心創(chuàng)新在于設(shè)計了 KV Cache 分級緩存集成機(jī)制。該機(jī)制先對推理任務(wù)進(jìn)行實時分析,智能識別Top-K 重要塊并集中算力處理,從源頭提升計算效率;同時采用數(shù)據(jù)冷熱分層存儲策略,根據(jù)數(shù)據(jù)訪問頻率,將生成數(shù)據(jù)動態(tài)劃分為高頻熱數(shù)據(jù)與低頻冷數(shù)據(jù),再針對性優(yōu)化存儲位置,減少資源浪費。這一機(jī)制的落地依托昇騰CANN異構(gòu)計算架構(gòu)靈活的動態(tài)調(diào)度能力,能精準(zhǔn)控制冷熱數(shù)據(jù)在顯存與主存間的流轉(zhuǎn),大幅降低數(shù)據(jù)遷移開銷。最終,該方案實現(xiàn)單卡流暢處理超過1M的超長文本推理任務(wù),系統(tǒng)推理吞吐量超過39%,徹底突破傳統(tǒng)系統(tǒng)在長序列處理上的顯存與性能瓶頸。

  同時項目進(jìn)行了元數(shù)據(jù)結(jié)構(gòu)優(yōu)化與緩存機(jī)制設(shè)計,其中數(shù)據(jù)索引與掩碼是關(guān)鍵支撐 —— 通過精簡索引結(jié)構(gòu)、合并掩碼維護(hù)步驟,有效減少重復(fù)運算,使昇騰NPU算力更集中于注意力計算與文本生成等核心任務(wù),提升硬件利用效率。相關(guān)優(yōu)化已通過vLLM-Ascend推理框架靈活集成,保障了技術(shù)方案的順利落地。

  目前,該項目源代碼已在 Gitee 社區(qū)中開源,后續(xù)將進(jìn)一步推送到昇騰開源生態(tài),合入GitHub社區(qū)vLLM-Ascend項目專區(qū)。此次技術(shù)突破,不僅為超長文本推理提供了高效解決方案,更印證了昇騰生態(tài)在AI創(chuàng)新中的賦能價值。未來,隨著該系統(tǒng)在更多行業(yè)場景的落地,昇騰將持續(xù)為AI技術(shù)研發(fā)提供算力與技術(shù)保障,推動大語言模型在長文本分析、智能辦公、數(shù)字孿生等千行百業(yè)的深度應(yīng)用,加速人工智能產(chǎn)業(yè)化進(jìn)程。

(來源: )

責(zé)任編輯:黃程程

本文鏈接TOP↑

聲明: 本網(wǎng)部分文章系教育裝備網(wǎng)轉(zhuǎn)載自其它媒體,目的在于信息傳遞,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé),如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。
名企展播 申請加入
行業(yè)訪談
第87屆中國教育裝備展示會
2026第十二屆亞洲教育裝備博覽會
第87屆中國教育裝備展示會《展會會刊》廣告招商