

場景驅動的創新模式是中國算力產業的獨特優勢。
2025年12月3日,「甲子光年」在北京萬達文華酒店圓滿舉辦“轟然成勢,萬象歸一”2025甲子引力年終盛典。
在算力產業專場圓桌對話中,甲子光年分析師王藝作為主持人,對話后摩智能聯合創始人、戰略副總裁項之初,海光信息智算產品負責人賀群,藍耘科技CTO安江華,新華三集團企業技術部總經理朱哲,圍繞《中國算力方案:如何用有限資源做出無限可能?》展開深入探討。
在當下全球算力競爭從“有沒有”轉向“夠不夠、好不好”的深水區,中國算力產業面臨先進制程受限、高端GPU供應收緊等獨特外部約束。嘉賓們指出,制程瓶頸、軟件生態和系統化工程成為年度高頻詞,產業正處于從“堆疊算力”到“高效協同”的關鍵“拐點”。
面對算力不足、互聯受限、生態薄弱的“三重困境”,產業界分享了如何通過找準應用場景、構建差異化技術路線、以及推動端云協同來實現突破的策略。從存算一體芯片的商業化落地,到超節點萬卡集群的系統工程,從Scale-up與Scale-out的技術抉擇,到液冷技術的必然選擇,嘉賓們用實戰案例揭示了中國算力方案的創新路徑。
對于未來的全球競爭格局,嘉賓們普遍認為,無論是芯片廠商、系統集成商還是算力運營方,唯有具備深刻的場景洞察力、扎實的工程化能力以及完整的產業鏈協同優勢,才能在資源約束中創造無限可能,實現算力產業的持續突破。
以下為本場圓桌的文字實錄,經「甲子光年」編輯,在不改變原意的基礎上略有刪改。
1.關鍵瓶頸:從制程到生態的多維挑戰

王藝(主持人):當前中國算力面臨結構性錯配,包括芯片算力不足、互聯帶寬限制、軟件棧不成熟、系統集成和調度能力欠缺等問題。各位認為中國算力“卡脖子”最先卡在哪里?請給出優先級判斷。
項之初(后摩智能聯合創始人、戰略副總裁):如果用一句話簡短說,還是編譯器工具鏈的軟件棧,我覺得是最卡的。端側因為有很分散的場景,可能有各行各業的、各種各樣的需求,其實對于軟件的生態是有比較高的要求。大家都知道CUDA是2006年發布的,經過了快20年的積累,每一個長尾的賽道,長尾的場景其實都有足夠多的軟件積累,這是每一個國產算力芯片公司都需要時間才能趕上的。
但我覺得軟件棧的問題是可以慢慢克服的,關鍵是要有一個硬件上足夠好的產品,跟國外的友商能形成差異化。你的硬件上比如說有幾倍的優勢,但你的軟件生態不如它好,你還是有機會勝出的。

后摩智能聯合創始人、戰略副總裁項之初
賀群(海光信息智算產品負責人):從芯片廠商的角度看,制程的問題確實是逃不過去的,它不僅制約了芯片本身的算力密度,也制約了芯片的卡間互聯帶寬。所以,這兩大方面的限制,確實可能需要整個AI上游產業在國產化上有一些突破。
剛才項總提到的生態問題,從我們的角度看,其實是兩個部分:一個是習慣,怎么樣打破習慣?這是挺難的一個問題,因為大家都有慣性。另一個在系統化工程這塊,一定不是“單點能力強=整體強”,而是通過有機的調度和協同,從上層應用到底層硬件的調優、演進形成閉環。

海光信息智算產品負責人賀群
安江華(藍耘科技CTO):我覺得剛才兩位說得都很對,但最重要的是我們要找對場景。軟件棧的問題我們可以找準一個場景,這個場景只要能夠帶來一定市場、一定收益,其實我們瞄準這個場景去做軟件棧的適配就好了。制程問題也是一樣,并不是所有的應用場景都需要非常強的算力,有些場景需要的算力不需要那么高。

藍耘科技CTO安江華
朱哲(新華三集團企業技術部總經理):站在我們這個視角來看,最大的卡脖子點一定就是算力支撐。很多背后問題跟它就是一個關聯關系,因為沒有特別先進算力的卡,所以我們才需要大量的國產卡或者大量算力卡堆疊,才會對卡間互聯技術產生要求。因為我們沒有更高算力的卡,想增加算力就需要通過算力堆疊的方式產生更大的功耗,對液冷會造成更多要求。

新華三集團企業技術部總經理
2.超節點與集群:萬卡級算力的系統工程

王藝(主持人):朱總,能否分享一下新華三在超節點方案上的實踐?當集群從千卡擴展到萬卡,甚至十萬卡的時候,系統層面會遇到哪些非線性的挑戰?
朱哲:非線性的挑戰還是很大的,千卡集群或者萬卡集群的性能肯定不是等于單卡性能乘一千或者乘一萬。在卡間互聯階段,通信帶寬或者時延丟包其實都會極大影響性能。尤其像丟包這種事情,在訓練的時候如果丟了一個包,整個要推倒重來。
之所以有超節點這個形態出現,如果大家都是8卡模組的集群,所有卡間的互聯,尤其是O2O形式的情況下,所有的流量還要通過網卡轉換,其實性能會降低,時延也會增加,而且尋址方式也不太方便。
新華三跟很多國產廠商對于超節點的認知有些不同,我們會認為超節點不僅僅是在訓練場景,在推理場景也有它的用處。應用到推理場景,無論你做多大的超節點,它本質上都是要節省單個Token產生的成本,所以超節點本身不應該成為一個非常昂貴的方式。
王藝(主持人):賀總,海光DCU兼容CUDA等主流AI生態,有些友商走專屬技術架構路線重新打造生態體系。海光為什么選擇通用架構,這種軟兼容策略是出于什么考量?
賀群:大家比較熟知的有兩大陣營,一個是以NV和AMD為代表的GPGPU陣營,另一個是以TPU為代表的DSA類(領域專用芯片)陣營。
GPGPU是更偏向于綜合型選手,計算類型的點線面都能覆蓋。現在大家Transformer類的大模型用得最多,但我們也可以看到有Mamba base的,也有液態神經網絡的,還有擴展到高性能計算,還有傳統的機器學習類,這些都得跑得不錯,這是GPGPU比較擅長的方面。
DSA在Transformer base類的算法上,可以實現硬件和軟件深耦合,達到針對性調優目的,取得不錯效果。但犧牲掉的就是計算類型的覆蓋。
對于海光來講,我們選定GPGPU的路線也是希望DCU可以成為數據中心人工智能通用的解決方案。后續AI會不斷高速發展,無論是新的模型、算法,還是其他場景的需求,海光DCU都具備覆蓋能力。
對于兼容性,我們希望先依靠通用的硬件和兼容性很高的軟件棧,讓客戶和合作伙伴集成起來、初期使用非常方便,盡量不改變大家原來的編程習慣。海光DCU現在也做到了從Github上Down下來一個代碼可以直接跑,不需要復雜的適配過程。
3.端云協同:算力分布的未來圖景

王藝(主持人):項總,存算一體技術被視為突破內存墻的關鍵。從您的實戰經驗看,存算一體的技術產業化拐點到來了嗎?哪些應用場景會最先爆發?
項之初:我們現在已經出到第二代芯片了,今年7月份在上海WAIC上發布了我們第二代M50芯片,完全是沖著大規模商業化去的。我們有幾個客戶都是知名的頭部,比如說AIPC的頭部、知名語音的頭部廠商,包括運營商的頭部,做AI網關,都是完全以商業化量產的標準來要求我們的芯片。
我們的下游客戶完全是基于市場原則的采購,所以我們還不得不去PK一些國外的傳統架構廠商。從這幾點歸結為一句話,我們產品完全到了商業化量產階段。
但您可能想問的是為什么還沒爆發?因為端側的大模型,包括端側整個的應用還沒有出現像GPT或者豆包這樣的Killer APP。只有出現了Killer APP廣泛地被大家使用,才會拉動整個產業鏈的爆發。
王藝(主持人):在AI計算需求從云側向端側轉移的情況下,這種趨勢對數據中心基礎設施和芯片設計帶來什么顛覆性需求?端側芯片要怎么在本地隱私和云端協同之間找到最優解?
項之初:端側必然要擔負起一部分或者說大部分,至少50%以上的計算任務。如果說你給每一個用戶都有足夠的帶寬和足夠好的體驗,尤其AI開始進入多模態時代,即使把海底所有光纜的總帶寬加在一起,可能只能服務4000萬的用戶量。
端側AI的第一個優點是隱私性。如果有了端側,比如說在手機上,我可以把我的照片、視頻、家里的情況,甚至以后有了AR眼鏡,把所有實時的東西都傳給本地的AI做運算。哪怕是涉及商業機密的工作文件,也能放心交給端側AI做深度解析,從源頭杜絕數據泄露風險,這正是真正安全可靠的智能助手誕生的基礎。
而實時性,則讓端側AI成為沉浸式交互的關鍵。比如說陪伴機器人,它需要通過語音、視頻、表情識別等多模態感知精準捕捉你的情緒狀態,當你疲憊歸來時自動播放舒緩音樂,當你情緒低落時主動發起暖心對話。這類毫秒級響應的交互場景,我覺得完全依賴端側AI的本地算力:若數據往返云端,延遲會徹底破壞體驗,只有端側才能實現 “所思即所應” 的流暢交互。
4.互聯與液冷:突破物理極限的關鍵

王藝(主持人):業界對超節點的兩種技術路徑,Scale-out和Scale-up存在爭議。想請各位從系統架構和運維實踐角度分析一下兩者的優劣勢,以及液冷技術是怎么成為超節點落地的關鍵一環?
朱哲:Scale-up叫南向互聯,Scale-out叫北向互聯,實際上超節點在這個層面更強調的是Scale-up。Scale-out非常常見,主流有兩個,一個就是英偉達邁絡思的IB網絡,還有一個就是國內現在做比較多的RoCE網絡。
Scale-up更多強調的是在超節點內部,怎么樣用更短的互聯距離、用更大的互聯帶寬,甚至將來用光互聯的方式,能夠把超節點內部GPU之間的互聯帶寬做得更大、延遲做得更低。
關于液冷,我們現在看到液冷已經是高密度節點的一個必然選擇。超節點本身就是高密度的,一個節點里有72張卡甚至更多,這種密度下如果用風冷是解決不了問題的。
安江華:從性能角度來講,Scale-up會更好一些,因為卡間通信會更高效。但是從靈活性角度,Scale-out會更合適,你可以靈活地擴容縮容。
液冷最直接的好處是節能,大概能節能30%左右,而且降噪表現很好。在超高密度下,液冷真的是不可或缺的。
賀群:技術路線需要結合業務場景,Scale-up快但貴,需要考察投入產出。我們海光DCU產品在液冷兼容性方面已經做好了充分準備。
5.工程化實踐:從紙面到落地的鴻溝

王藝(主持人):能否分享一些“紙面參數很好,部署時踩坑”的案例?在工程化落地過程中有哪些實踐經驗?
項之初:對于每一個創業公司都必經歷多代產品迭代,被真實客戶“虐”是最寶貴的財富,越挑剔的客戶產品進步越快。我們第一代產品在實際部署中發現了很多紙面上看不到的問題,編譯器工具鏈經過幾次迭代才到今天可以快速適配。這些都需要在真實環境中不斷調優。
朱哲:所有國產卡都需要適配調優,我們與杭州蕭山共同打造了芯模社區這一開放共贏的生態平臺,通過匯聚芯片廠商、模型企業、ISV及各行業伙伴,聯合打造研發、測試、驗證的“試驗田”。很多時候紙面參數和實際表現的差異,往往在于沒有針對具體應用場景做深度優化。我們現在要求每一款芯片都要在我們的測試環境中跑滿至少3個月,發現各種邊界條件下的問題。
安江華:我們在運營過程中發現,多場景測試非常重要。同樣一張卡,在不同的模型、不同的批次大小、不同的序列長度下,性能表現可能差異很大。我們現在建立了全面的測試矩陣,幫助客戶找到每張卡的最佳使用場合。
王藝(主持人):最后請各位展望一下,中國算力方案在全球競爭中可能具備哪些獨特優勢?
項之初:我覺得是端側芯片和生態創新。中國有完整的產業鏈優勢,可以利用這個優勢以應用反哺模型芯片迭代。我們在AIPC、智能會議、陪伴機器人等場景都有獨特的應用創新,這些場景的大規模落地會驅動整個端側算力生態的發展。
賀群:中國的優勢在于系統化工程能力。我們有集中力量辦大事的體制優勢,在政策支持下可以快速協調資源。另外在調度與工程能力上,我國的大規模集群建設經驗是獨樹一幟的。
安江華:我覺得是AI應用領域的優勢。中國在尖端科技民用普及方面一直很擅長,我們有龐大的市場和豐富的應用場景,這為算力技術提供了最好的試驗田和迭代環境。
朱哲:細分場景應用市場體量大,場景孵化反推模型與芯片創新。中國市場的多樣性和規模優勢,讓我們能夠在不同細分領域都找到足夠大的市場來支撐技術迭代,這種場景驅動的創新模式是我們的獨特優勢。
(封面圖及文中配圖來源:2025甲子引力年終盛典)
END.





