Gate 广場「創作者認證激勵計畫」優質創作者持續招募中!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人首頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000 的豐厚獎勵等你拿!
活動詳情:https://www.gate.com/announcements/article/47889
DeepSeek 的 mHC 架構解決超連接網路設計中的核心挑戰
在朝著改善深度學習模型架構的重要方向邁出一大步,DeepSeek 公布了關於 Manifold-Constrained Hyperconnections (mHC) 的研究,這是一個旨在克服現有超連接網絡 (HC) 關鍵限制的解決方案。該研究突顯了傳統 HC 系統在訓練不穩定性和擴展性受限方面的困難,這些問題根源於網絡運作過程中身份映射特性的退化。
mHC 背後的技術創新
mHC 框架通過將超連接網絡中的殘差連接空間投影到特定的流形結構上來運作。這種幾何方法成功地恢復了在傳統 HC 設計中被破壞的身份映射特性。除了這一流形映射策略外,DeepSeek 還融入了嚴格的基礎設施優化,旨在在整個訓練過程中保持計算效率。
其結果是雙重優勢:該架構在性能指標上顯著提升,同時實現了更優越的擴展能力——這兩個指標在神經網絡設計中通常存在權衡。
對基礎模型的更廣泛影響
DeepSeek 將 mHC 定位為一個可擴展的框架,能夠靈活地適應並整合到現有的超連接範式中。團隊預計,該架構將深化該領域對神經網絡拓撲設計原則的理解,並可能在未來幾年內重塑基礎模型的演進方式。
該研究團隊包括謝振達、韋一軒和曹歡奇作為主要作者,梁文峰則為合作貢獻者。這項工作代表了 DeepSeek 在推動神經架構設計和模型優化策略方面的又一進展。