DeepSeek开年炸场！梁文锋又发论文了，一如既往地强

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

智东西1月1日报道，昨日晚间，DeepSeek团队送出一份新年“贺礼”，正式发布新论文《Manifold-Constrained Hyper-Connections》，提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。论文核心指出，尽管当前如Hyper-Connections（HC

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强 - 知乎

智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。 DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升...

DeepSeek新年炸场!梁文锋署名论文发布

1月1日消息，DeepSeek赶在新年前发送了“贺礼”，在新论文中提出了名为mHC（流形约束超连接）的新网络架构，旨在解决传统架构在大规模模型训练中的不稳定性问题，这一研究或将为下一代基础架构的演进指明新方向。新论文名为《mHC :Manifold-Constrained Hyper-Connections》（《mHC：流形约束超连接》），DeepSeek创...

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强|梯度_新浪财经_新浪...

智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。 DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升...

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强_训练_信号_模型

梁文锋又发论文了,一如既往地强智东西作者| 江宇王涵编辑| 心缘智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。

DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构

【新智元导读】2026新年第一天，DeepSeek发表了梁文锋署名的重磅新论文，提出了一种名为「mHC（流形约束超连接）」的新架构，在27B参数模型上，仅增加约6.7%的训练时间开销，即可实现显著性能提升。刚刚，DeepSeek送上2026年新年第一个王炸。这次的创新是，mHC（流形约束超连接）新架构。标题：mHC：Manifold-...

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强_财富号_东方...

智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。 DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升...

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

这篇论文的第一作者有三位：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao。值得注意的是，DeepSeek 创始人 & CEO 梁文锋也在作者名单中。传统的残差连接（即 Transformer 中的 x + F (x) 结构）凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C...

梁文锋: 低调的颠覆者

2025年12月9日,深度求索(DeepSeek)公司创始人梁文锋登上《自然》杂志年度十大科学人物榜单,让全球科技界的目光再次聚焦于这位来自中国的AI研究者。《自然》称他为“Tech disruptor”,即“科技颠覆者”,这可谓实至名归:2025年年初,他带领团队推出的DeepSeek-R1模型比肩国际顶尖水平,以颠覆性的低成本打破行业垄断,随后...

DeepSeek发布mHC架构新论文,梁文锋现身作者名单

DeepSeek发布mHC架构新论文，梁文锋现身作者名单来源：IT之家【DeepSeek 开年发布新论文：提出全新 mHC 架构，梁文锋现身作者名单】这篇论文的第一作者有三位：Zhenda Xie（解振达）、Yixuan Wei（韦毅轩）、Huanqi Cao。值得一提的是，DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。

梁文锋署名论文,DeepSeek最强开源Agent模型炸场

在后训练中，DeepSeek-V3.2着重解决“思考模式与工具使用如何结合”的难题。为了避免模型在多轮工具调用中频繁重复推理，他们设计了一套新的上下文管理机制：只有当出现新的用户消息时才会清除思考轨迹，而工具输出的追加并不会导致推理内容被丢弃。同时，工具调用历史仍会被完整保留，确保模型能够连续地利用已有推理继续完成后续动作。

梁文锋署名,DeepSeek再发论文

论文显示 DeepSeek创始人兼CEO梁文锋也是参与者之一 DeepSeek论文《深入解读 DeepSeek-V3：AI 架构的扩展挑战与硬件思考》图源：论文截图有业内人士表示该论文聚焦“硬件-模型”协同创新底层逻辑直击当前大模型训练与推理的效率痛点一起来看↓ 揭秘DeepSeek模型设计原则在训练大模型这条路上可以说一直有“...

估值1.05万亿!DeepSeek再次封神,英伟达市值一夜蒸发6000亿美元

其实在今年9月,梁文锋作为DeepSeek-R1论文的作者,就已经上过《自然》封面了。这才没过多久,又因为入选年度人物火出圈,足以证明其实力有多强。正如《自然》给他的评语“Tech disruptor”所指的那样,这是一位AI领域的科技颠覆者。这接连的“封神”时刻,让梁文锋的崛起之路显得异常耀眼,耀眼到连雷军这样的科技大佬...

刚刚,梁文锋发Nature了!

智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢迎...

DeepSeek论文登上Nature,再次创造历史,也彻底暴露了梁文锋的...

即使考虑到底层基础模型V3-base的成本，DeepSeek-R1的效率也是十分惊人的。之前，Meta内部甚至有人开玩笑：“DeepSeek V3的成本，比我们随便一个管理层的年薪都低。”这下可是比月薪都低了。DeepSeek这篇论文的意义远超论文本身。梁文锋这波的格局太大了。他领导的DeepSeek团队具有浓厚的技术理想主义色彩，相信开源是...

“外行看热闹”?DeepSeek创始人论文公开,业内评价藏玄机

2025年2月，国内科技圈里掀起了一场不大不小的风波。一篇由DeepSeek创始人梁文锋公开的论文，引发了业内外的微妙评价。有人觉得这篇文章“平平无奇”，甚至连外行都能挑出毛病；也有人认为，这背后隐藏着中国人工智能领域不得不面对的尴尬现状。论文本身的质量争议固然是个焦点，但更值得品味的，是这篇文章背后折射...

AI硬件“天花板”被捅破?梁文锋署名DeepSeek-V3新论文! - 知乎

但到了2024、2025年,大家发现,硬件的升级速度,似乎有点跟不上模型的膨胀速度了。内存墙、功耗墙、带宽墙,每一堵都让人头疼。 Deepseek,一家围绕“现有硬件的极限优化”和“软硬件协同设计”,对抗“暴力堆料”的领先者,最近发布了一篇关于DeepSeek-V3的论文。

独家首发!DeepSeek新论文出炉,梁文锋大神亲自操刀! - 知乎

就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果,DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)! 这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的...

DeepSeek-R1创造历史!#梁文锋论文登上自... 来自中国教育在线...

【DeepSeek-R1创造历史!#梁文锋论文登上自然封面# 】据科技日报消息,9月17日,DeepSeek-AI团队梁文锋及其同事在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。#梁文...

梁文锋出手!29万美元干翻1亿美金,Nature封面炸场DeepSeek-R1横空...

梁文锋出手！29万美元干翻1亿美金，Nature封面炸场DeepSeek-R1横空出世！纯强化学习破局，AI巨头慌了导语当OpenAI用1亿美元垒起GPT-4的高墙，当谷歌、Meta在算力军备竞赛中烧钱如流水，中国团队DeepSeek却用29万美元的推理成本，在《自然》封面上凿开了一道裂缝。9月17日，梁文锋团队带着DeepSeek-R1模型横空出世，...