Gate 广場「創作者認證激勵計畫」優質創作者持續招募中!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人首頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000 的豐厚獎勵等你拿!
活動詳情:https://www.gate.com/announcements/article/47889
DeepSeek 揭示了多重約束超連接架構,以克服網絡訓練中的挑戰
DeepSeek 發布了開創性的研究,介紹了一種新型的網絡架構——流形約束超連接 (mHC),在解決現有超連接網絡 (HC) 系統中的基本挑戰方面取得了重大進展。
問題:訓練不穩定性與擴展性限制
傳統的超連接網絡面臨一個關鍵瓶頸——在訓練過程中身份映射屬性的崩潰,導致普遍的不穩定性,並嚴重限制系統的擴展能力。這些干擾隨著模型規模的增大而積累,造成性能下降,限制了在基礎模型開發中的實際應用。
解決方案:基於流形的約束
創新的 mHC 架構通過一種精巧的方法來應對這一挑戰:它將 HC 的殘差連接空間重新映射到受約束的流形幾何上。通過在超連接拓撲上強制實施流形約束,該架構成功地在整個訓練過程中恢復並維持身份映射特性。這一結構創新得到了嚴格的基礎設施優化的補充,確保了理論的合理性與計算效率。
性能突破與擴展性提升
結果顯示——mHC 在性能上相較於標準超連接網絡有顯著提升,同時展現出優越的擴展性。該架構即使在模型複雜度和規模增加時也能保持穩定,為下一代基礎模型開辟了新的可能性。
學術貢獻與未來展望
由謝振達、韋一軒、曹歡奇與梁文峰共同領銜的這項研究,將 mHC 定位為現有 HC 框架的實用且可擴展的擴展。通過基於流形的約束建立更清晰的拓撲架構設計原則,這項工作為理解未來模型如何實現更高的穩定性與效率奠定了堅實的基礎。DeepSeek 預計這些見解將引導基礎模型架構的演進,朝著更穩健、更具擴展性的系統邁進。