DeepSeek發布梁文官署名新論文:提出mHC新架構提升大模型訓練穩定性

PANews 1月1日消息,據金十報道,DeepSeek發布新論文,提出了一種名為流形約束超連接(mHC)的新架構,旨在解決超連接網絡(HC)技術因破壞恆等映射特性而導致的訓練不穩定和可擴展性受限等問題。該架構透過將HC的殘差連接空間映射至特定流形以恢復恆等映射特性,同時結合嚴格的基礎設施優化以確保效率,實現了顯著的性能改進和優越的可擴展性。 DeepSeek預計,mHC作為HC的一種靈活實用拓展,將有助於更深入地理解拓樸架構設計,並為基座模型的演進指明有前景的方向。論文由Zhenda Xie(解振達)、Yixuan Wei(韋毅軒)、Huanqi Cao共同擔任第一作者,梁文鋒也在作者名單之中。

分享至:

作者:PA一线

本內容只為提供市場資訊,不構成投資建議。

關注PANews官方賬號,一起穿越牛熊
推薦閱讀
2025-12-31 14:52
2025-12-30 23:00
2025-12-30 11:54
2025-12-30 11:37
2025-12-30 08:00
2025-12-30 05:00

熱門文章

行業要聞
市場熱點
精選讀物

精選專題

App内阅读