Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
DeepSeek的mHC架构应对超连接网络设计中的核心挑战
在朝着改善深度学习模型架构的重要方向迈出了一大步,DeepSeek 发布了关于流形约束超连接 (mHC) 的研究,这是一种旨在克服现有超连接网络 (HC) 关键限制的解决方案。该研究强调了传统 HC 系统在训练不稳定性和扩展性受限方面的困难,这些问题源于网络操作过程中身份映射属性的退化。
mHC 背后的技术创新
mHC 框架通过将超连接网络中的残差连接空间投影到特定的流形结构上进行操作。这种几何方法成功地恢复了在传统 HC 设计中被破坏的身份映射特性。除了这种流形映射策略外,DeepSeek 还引入了严格的基础设施优化,旨在在整个训练过程中保持计算效率。
其结果是双重优势:该架构在性能指标上表现出显著提升,同时实现了更优的扩展能力——这两个指标在神经网络设计中通常存在权衡。
对基础模型的更广泛影响
DeepSeek 将 mHC 定位为一个可扩展的框架,能够灵活地适应和集成到现有的超连接范式中。团队预计,该架构将加深学界对神经网络拓扑设计原则的理解,可能在未来几年内重塑基础模型的发展方向。
该研究团队包括谢震达、韦一轩和曹焕奇作为主要作者,梁文峰为合作贡献者。这项工作代表了 DeepSeek 在推动神经架构设计和模型优化策略方面的持续努力的又一里程碑。