近日,香港科技大學智能網(wǎng)絡與系統(tǒng)實驗室(iSING Lab)的論文MixNet被國際通信網(wǎng)絡領域頂級會議SIGCOMM 2025[1]接收,恒為科技作為研究團隊成員之一,與麻省理工大學、北京大學、廈門大學、Meta一起提出了一種面向混合專家模型訓練的光電混合可重構(gòu)網(wǎng)絡架構(gòu),用區(qū)域性動態(tài)拓撲打破靜態(tài)網(wǎng)絡的性能與成本瓶頸。
圖為“論文標題及作者”
[1]SIGCOMM,Special Interest Group on Data Communication,即數(shù)據(jù)通信專業(yè)組,是ACM組織在通信網(wǎng)絡領域歷史最為悠久也最為權威的學術會議之一。
今年的第39屆SIGCOMM 2025 將于9 月8日-11日在葡萄牙科英布拉舉行。屆時,恒為科技將公布更詳細的OCS光交換產(chǎn)品系統(tǒng)方案細節(jié)。
隨著生成式AI模型規(guī)模不斷擴大,Mixture-of Experts(MoE)架構(gòu)因其激活稀疏性而成為主流方案。MoE模型訓練中產(chǎn)生的大量專家并行(EP)通信具有稀疏性、區(qū)域性和動態(tài)性,而傳統(tǒng)靜態(tài)網(wǎng)絡拓撲難以高效承載這一模式下的all-to-all通信。
MixNet提出一種從第一性原理出發(fā)設計的光電混合、運行時可重構(gòu)的互聯(lián)架構(gòu),專為大規(guī)模MoE訓練打造,核心創(chuàng)新包括:
區(qū)域性光路互聯(lián) + 全局數(shù)據(jù)包交換網(wǎng)絡:基于訓練通信測量與結(jié)構(gòu)性分析,MixNet使用區(qū)域OCS(Optical Circuit Switch)按需連接處于同一專家組的GPU,極大降低光端口需求與硬件成本;同時,所有節(jié)點通過電交換網(wǎng)絡(EPS)實現(xiàn)全局互聯(lián),確保靈活性與可達性。該光電混合架構(gòu)兼具 OCS的高帶寬與EPS的可擴展性,可支持至萬卡甚至十萬卡規(guī)模。
訓練中動態(tài)拓撲重配置:根據(jù)每輪訓練中活躍專家對的通信需求,MixNet在all-to-all通信前按需重配置光路,精準匹配流量拓撲,提升通信效率、減少資源浪費。
支持GPU/NIC故障恢復與訓練連續(xù)性:MixNet結(jié)合OCS和EPS備份路徑與區(qū)域重映射機制,支持單 GPU、單NIC故障容忍與整節(jié)點故障恢復,保障大規(guī)模分布式訓練的可靠性。
研究團隊在真實系統(tǒng)(32端口毫秒級OCS光交換機 + 32×A100 GPU)上完成了MixNet的原型驗證,并使用大規(guī)模數(shù)據(jù)包級仿真對其進行了系統(tǒng)評估。結(jié)果顯示,MixNet可逼近理想Fat-tree / Rail-optimized網(wǎng)絡性能,同時將網(wǎng)絡部分的性價比提升2.5倍。
MixNet成功入選SIGCOMM 2025,是恒為科技在智能算力網(wǎng)絡核心技術領域持續(xù)投入研究的有力證明,彰顯了公司通過協(xié)同創(chuàng)新解決產(chǎn)業(yè)關鍵難題的能力,為未來智能算力網(wǎng)絡的建設注入新動能。
恒為科技作為國內(nèi)領先的網(wǎng)絡可視化、智能系統(tǒng)平臺、智算方案和服務提供商,近年來持續(xù)積極探索大規(guī)模智算場景下的高性能網(wǎng)絡技術與架構(gòu)創(chuàng)新;在MixNet近一年的研究過程中,公司積極跟進國內(nèi)外OCS光交換的產(chǎn)業(yè)化進展以及相關的CPO、LPO光模塊和先進硅光互聯(lián)技術研究,并與智算中心應用場景深度結(jié)合,攜手業(yè)界領先的光器件廠家,快速推進OCS與光電混合組網(wǎng)的商業(yè)化落地。
當前光電路交換技術和應用場景 - 來源:CignalAI 2025Q1
后續(xù),恒為科技將陸續(xù)推出多款OCS光交換產(chǎn)品,涵蓋不同切換時延指標和端口規(guī)模的光交換設備,能有效滿足算力集群持續(xù)演進的全光交換場景需求。結(jié)合本次MixNet的研究成果,為大規(guī)模MoE訓練和新型智算超節(jié)點的高效能組網(wǎng)開辟了全新技術路徑。