梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。 新京报...
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板
新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。 新京报...
...大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?
DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计算”(MoE)之外,开辟了第二条稀疏化战线——“条件记忆”。这不只是一次技术修补,而是一场关于模型“脑容量”的供给侧改革。它...
DeepSeek-V4核心公开?梁文锋署名新论文发布,实习生挑大梁
智东西1月13日报道,昨晚,DeepSeek又开源了,还发布一篇新论文。这次,他们提出了一种全新的“条件记忆”机制——Engram,旨在让MoE模型在保持巨量参数的同时,更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。Engram架构的核心优势在于以更低成本实现更优...
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板__财经头条...
新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板 _ 东方财富网
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板 炒股第一步,先开个股票账户 新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新...
DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram
【DeepSeek发布梁文锋署名新论文 开源相关记忆模块Engram】《科创板日报》13日讯,DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为北京大学与DeepSeek共同完成,合著作者...
梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板|财经|杨利...
新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。
梁文锋又放大招!DeepSeek新论文给AI装上“智能记忆脑”,训练更快...
2026年刚开年,中国AI圈就迎来一枚重磅炸弹。1月12日晚,DeepSeek联合北京大学发布了一篇由创始人梁文锋署名的新论文,题为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》。与此同时,团队还开源了配套的记忆模块 Engram。这篇论文到底讲了什么?它对普通人、开发者乃至整个AI行业意味着什么?我们用最通俗...
DeepSeek发布梁文锋署名新论文 开源记忆模块
2026年1月13日,DeepSeek与北京大学合作发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,创始人梁文锋为合著作者之一。论文提出条件记忆(conditional memory)概念,通过可扩展查找结构解决大语言模型知识检索效率低下的问题。
DeepSeek发布梁文锋署名新论文,开源相关记忆模块Engram-36氪
DeepSeek于12日晚发布新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(基于可扩展查找的条件记忆:大型语言模型稀疏性的新维度)。该论文为北京大学与DeepSeek共同完成,合著作者署名中出现梁文锋。论文提出条件记忆(conditional memory),通过引入可扩展的查找记忆结构,...
DeepSeek新年炸场!梁文锋署名论文发布
新论文名为《mHC :Manifold-Constrained Hyper-Connections》(《mHC:流形约束超连接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩(Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经...
梁文锋署名,DeepSeek再发论文
DeepSeek团队发表新论文 论文以DeepSeek-V3为核心案例 披露其在AI硬件架构 与模型设计方面的关键创新 为实现具有成本效益的 大规模训练和推理提供思路 论文显示 DeepSeek创始人兼CEO梁文锋 也是参与者之一 DeepSeek论文《深入解读 DeepSeek-V3:AI 架构的扩展挑战与硬件思考》图源:论文截图 有业内人士表示 该论文聚焦...
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
梁文锋亲自参与的DeepSeek最新论文,来了!这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。具体而言,DeepSeek-V3之所以可以只用2048块H800,就能达到超大规模集群(如数万块GPU)相当的训练效果,核心在于四项创新技术:内存优化 多头潜在注意力(MLA)计算优化 混合专家模型(MoE...
DeepSeek又放大招!梁文锋署名新论文引关注
1月1日消息,DeepSeek发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者...
DeepSeek新年“第一枪”:梁文锋署名论文发布,或为下一代模型铺垫
摘要:2026年开年,DeepSeek创始人梁文锋署名论文悄然发布,却在大模型技术圈激起千层浪。凤凰网科技 出品 作者|董雨晴 2026年新年第一天,DeepSeek上传了一篇名为《mHC:流形约束超连接》的新论文,创始人梁文锋的名字赫然出现在合著名单中。这篇论文的核心是提出一种名为mHC(流形约束超连接)的新架构,旨在解决...
梁文锋署名!DeepSeek开年炸场。mHC架构破解大模型训练死结,网友...
中国AI初创公司DeepSeek悄然发布重磅学术论文,提出名为mHC(流形约束超连接)的新型网络架构,直指当前大规模模型训练的核心痛点——数值不稳定与信号爆炸。这篇由19人团队联合攻关、创始人梁文锋亲自署名的论文,不仅在arXiv和Huggingface平台迅速引发关注,更让业界看到了基础模型架构演进的新可能。对于普通读者而言,mHC...
DeepSeek新年“第一枪”:梁文锋署名论文发布,或为下一代模型铺垫
2026年新年第一天,DeepSeek上传了一篇名为《mHC:流形约束超连接》的新论文,创始人梁文锋的名字赫然出现在合著名单中。 这篇论文的核心是提出一种名为mHC(流形约束超连接)的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题。 为了让读者更好地理解这篇论文的核心概念,这里先简要解释几个关键术语: 残差...
刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C...