騰訊雲推出星脈網路2.0 大模型訓練再提速20%

騰訊雲最近推出了升級版的星脈網路2.0,旨在提高大模型訓練的效率。在先前的版本中,大型模型的計算結果同步通訊時間佔了50% 以上的比例,導致效率低落。新版的星脈網路2.0在多個方面進行了升級:

微信截图_20240701164156.png

1. 支援單集群10萬卡組網,規模翻倍,網路通訊效率提升60%,大模型訓練效率提升20%,故障定位從天級降至分鐘級。

2. 自研交換器、光模組、網卡等網路設備升級,基礎設施更加可靠,支援單集群10萬卡GPU 以上的規模。

3. 全新通訊協定TiTa2.0部署在網路卡上,擁塞演算法升級為主動擁塞控制演算法,通訊效率提升30%,大模型訓練效率提升10%。

4. 高效能集合通訊庫TCCL2.0採用NVLINK+NET 異質並行通信,實現資料的平行傳輸,同時具備Auto-Tune Network Expert 自適應演算法,提升通訊效能30%,大模型訓練效率提升10%。

5. 新增騰訊獨家技術靈境模擬平台,實現全面監控叢集網絡,精確定位GPU 節點問題,將萬卡級訓練故障定位時間從天級降至分鐘級。

透過這些升級,星脈網路的通訊效率提升60%,大模型訓練效率提升20%,故障定位精準度也提升了。這些改進將有助於提高大型模型訓練的效率和效能,讓昂貴的GPU 資源得到更充分的利用。