DeepSeek开年炸场!梁文锋又发论文了,一如既往地强
智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。论文核心指出,尽管当前如Hyper-Connections(HC
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强 - 知乎
智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。 DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。 论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升...
DeepSeek新年炸场!梁文锋署名论文发布
1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代基础架构的演进指明新方向。新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创...
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强|梯度_新浪财经_新浪...
智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。 DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。 论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升...
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强_训练_信号_模型
梁文锋又发论文了,一如既往地强 智东西 作者| 江宇 王涵 编辑| 心缘 智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。
DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构
【新智元导读】2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升。刚刚,DeepSeek送上2026年新年第一个王炸。这次的创新是,mHC(流形约束超连接)新架构。标题:mHC:Manifold-...
DeepSeek开年炸场!梁文锋又发论文了,一如既往地强_财富号_东方...
智东西1月1日报道,昨日晚间,DeepSeek团队送出一份新年“贺礼”,正式发布新论文《Manifold-Constrained Hyper-Connections》,提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。 DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。 论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升...
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C...
梁文锋: 低调的颠覆者
2025年12月9日,深度求索(DeepSeek)公司创始人梁文锋登上《自然》杂志年度十大科学人物榜单,让全球科技界的目光再次聚焦于这位来自中国的AI研究者。《自然》称他为“Tech disruptor”,即“科技颠覆者”,这可谓实至名归:2025年年初,他带领团队推出的DeepSeek-R1模型比肩国际顶尖水平,以颠覆性的低成本打破行业垄断,随后...
DeepSeek发布mHC架构新论文,梁文锋现身作者名单
DeepSeek发布mHC架构新论文,梁文锋现身作者名单 来源:IT之家 【DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单】这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。
梁文锋署名论文,DeepSeek最强开源Agent模型炸场
在后训练中,DeepSeek-V3.2着重解决“思考模式与工具使用如何结合”的难题。为了避免模型在多轮工具调用中频繁重复推理,他们设计了一套新的上下文管理机制:只有当出现新的用户消息时才会清除思考轨迹,而工具输出的追加并不会导致推理内容被丢弃。同时,工具调用历史仍会被完整保留,确保模型能够连续地利用已有推理继续完成后续动作。
梁文锋署名,DeepSeek再发论文
论文显示 DeepSeek创始人兼CEO梁文锋 也是参与者之一 DeepSeek论文《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》图源:论文截图 有业内人士表示 该论文聚焦“硬件-模型”协同创新底层逻辑 直击当前大模型训练 与推理的效率痛点 一起来看↓ 揭秘DeepSeek模型设计原则 在训练大模型这条路上 可以说一直有“...
估值1.05万亿!DeepSeek再次封神,英伟达市值一夜蒸发6000亿美元
其实在今年9月,梁文锋作为DeepSeek-R1论文的作者,就已经上过《自然》封面了。这才没过多久,又因为入选年度人物火出圈,足以证明其实力有多强。 正如《自然》给他的评语“Tech disruptor”所指的那样,这是一位AI领域的科技颠覆者。 这接连的“封神”时刻,让梁文锋的崛起之路显得异常耀眼,耀眼到连雷军这样的科技大佬...
刚刚,梁文锋发Nature了!
智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢迎...
DeepSeek论文登上Nature,再次创造历史,也彻底暴露了梁文锋的...
即使考虑到底层基础模型V3-base的成本,DeepSeek-R1的效率也是十分惊人的。之前,Meta内部甚至有人开玩笑:“DeepSeek V3的成本,比我们随便一个管理层的年薪都低。”这下可是比月薪都低了。DeepSeek这篇论文的意义远超论文本身。梁文锋这波的格局太大了。他领导的DeepSeek团队具有浓厚的技术理想主义色彩,相信开源是...
“外行看热闹”?DeepSeek创始人论文公开,业内评价藏玄机
2025年2月,国内科技圈里掀起了一场不大不小的风波。一篇由DeepSeek创始人梁文锋公开的论文,引发了业内外的微妙评价。有人觉得这篇文章“平平无奇”,甚至连外行都能挑出毛病;也有人认为,这背后隐藏着中国人工智能领域不得不面对的尴尬现状。论文本身的质量争议固然是个焦点,但更值得品味的,是这篇文章背后折射...
AI硬件“天花板”被捅破?梁文锋署名DeepSeek-V3新论文! - 知乎
但到了2024、2025年,大家发现,硬件的升级速度,似乎有点跟不上模型的膨胀速度了。内存墙、功耗墙、带宽墙,每一堵都让人头疼。 Deepseek,一家围绕“现有硬件的极限优化”和“软硬件协同设计”,对抗“暴力堆料”的领先者,最近发布了一篇关于DeepSeek-V3的论文。
独家首发!DeepSeek新论文出炉,梁文锋大神亲自操刀! - 知乎
就在马斯克发布grok3,sam altman 还在犹豫要不要开源时,刚刚梁文锋作为co-authors携deepseek研究团队丢出重磅研究论文成果,DeepSeek 发布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)! 这项技术有望大幅提升下一代大语言模型处理长文本的能力,同时还能兼顾效率,可谓是 LLM 领域又一里程碑式的...
DeepSeek-R1创造历史!#梁文锋论文登上自... 来自中国教育在线...
【DeepSeek-R1创造历史!#梁文锋论文登上自然封面# 】据科技日报消息,9月17日,DeepSeek-AI团队梁文锋及其同事在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。#梁文...
梁文锋出手!29万美元干翻1亿美金,Nature封面炸场DeepSeek-R1横空...
梁文锋出手!29万美元干翻1亿美金,Nature封面炸场DeepSeek-R1横空出世!纯强化学习破局,AI巨头慌了 导语当OpenAI用1亿美元垒起GPT-4的高墙,当谷歌、Meta在算力军备竞赛中烧钱如流水,中国团队DeepSeek却用29万美元的推理成本,在《自然》封面上凿开了一道裂缝。9月17日,梁文锋团队带着DeepSeek-R1模型横空出世,...