梁文锋署名新论文：给大模型配本“字典”，计算、记忆分家后智商爆表，剧透DeepSeek V4？

...大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?

DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》，彻底打破了这一僵局。他们提出了一种全新的Engram（印迹）模块，在传统的“条件计算”（MoE）之外，开辟了第二条稀疏化战线——“条件记忆”。这不只是一次技术修补，而是一场关于模型

...团队新论文炸场:给AI装了个“外挂大脑”,计算记忆分家后智商飙升

深夜刷论文的AI圈又被DeepSeek炸醒了。梁文锋团队与北京大学合作的最新研究成果《ConditionalMemoryviaScalableLookup》，直接给大模型来了个“脑外科手术”——把记忆存储从计算模块里剥离出来，就像给学霸配了本随查随用的《百科全书》，实验结果让27B参数的模型在知识调用、数学推理等任务上集体开挂。传统Transformer...

梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板

梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单...

DeepSeek-V4核心公开?梁文锋署名新论文发布,实习生挑大梁

DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。Engram架构的核心优势在于以更低成本实现更优性能。训练计算量较MoE减少18%的情况下，在32768个token的长上下文任务中，Engram在RULER基准测试中反超同参数量MoE模型。并且，其浅层部署的记忆模块接管局部依赖与静态知识存储，为注意...

梁文锋署名,DeepSeek论文上新|推理|模型|记忆|下一代|知识_新浪新闻

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

DeepSeek开源大模型记忆模块!梁文锋署名新论文,下一代稀疏模型...

DeepSeek 节前开始蓄力! 最新论文直接给 Transformer 加上 " 条件记忆 "(Conditional Memory),补上了原生缺乏的知识查找机制。结论中明写道:我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。还是梁文锋署名,并与北京大学王选所赵东岩、张辉帅团队合作。

梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板|财经|杨利...

新京报贝壳财经讯(记者罗亦丹)1月12日晚间,DeepSeek发布了一篇新论文,主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度),梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。

梁文锋又放大招!DeepSeek新论文给AI装上“智能记忆脑”,训练更快...

2026年刚开年，中国AI圈就迎来一枚重磅炸弹。1月12日晚，DeepSeek联合北京大学发布了一篇由创始人梁文锋署名的新论文，题为《基于可扩展查找的条件记忆：大语言模型稀疏性的新维度》。与此同时，团队还开源了配套的记忆模块 Engram。这篇论文到底讲了什么？它对普通人、开发者乃至整个AI行业意味着什么？我们用最通俗...

梁文锋署名,DeepSeek论文上新|模型|记忆|下一代|知识|推理_手机...

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

DeepSeek突发梁文锋署名新论文:V4新架构提前曝光?|AI文本生成|...

今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块 Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文锋再次出现在合著者名单中。

DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件...

梁文锋署名重磅论文发布,聚焦大模型条件记忆模块继2024年底发布一篇新论文后,1月12日晚间,DeepSeek再度发布重磅研究成果,此次论文聚焦大模型的条件记忆模块。DeepSeek在结论中明确指出,这一模块将成为下一代稀疏大模型中不可或缺的核心建模原语。结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测,

梁文锋署名论文,DeepSeek最强开源Agent模型炸场

目前，DeepSeek官方网页端、App和API均已更新为正式版DeepSeek-V3.2。Speciale版本目前仅以临时API服务形式开放，以供社区评测与研究。DeepSeek-V3.2系列模型已经开源，技术报告同期发布。值得一提的是，在技术报告的作者名单里，我们能看到不少熟悉的名字，比如DeepSeek创始人兼CEO梁文锋、前段时间代表DeepSeek在乌镇...

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

梁文锋亲自参与的DeepSeek最新论文，来了！这一次，团队把DeepSeek-V3在训练和推理过程中，如何解决“硬件瓶颈”的方法公布了出来。具体而言，DeepSeek-V3之所以可以只用2048块H800，就能达到超大规模集群（如数万块GPU）相当的训练效果，核心在于四项创新技术：内存优化多头潜在注意力（MLA）计算优化混合专家模型（MoE...

AI硬件“天花板”被捅破?梁文锋署名DeepSeek-V3新论文! - 知乎

梁文锋署名DeepSeek-V3新论文! “吃”硬件,把内存、算力、带宽逼到极限,追赶者们,或者说整个行业,除了干等硬件升级,还能怎么办? ChatGPT横空出世,大模型竞赛白热化。英伟达的GPU成了硬通货,算力就是一切。各大公司和研究机构疯狂堆砌资源,试图追赶甚至超越。

AI周报|智能体平台Manus开放注册;梁文锋署名DeepSeek新论文

DeepSeek新论文公开V3大模型降本方法，梁文锋署名虽然此前DeepSeek已经发布了V3模型的技术报告，但近日，他们又发布了另一篇围绕DeepSeek-V3的技术论文，这篇14页的论文的主题指向“Scaling挑战以及对AI架构所用硬件的思考”，DeepSeek CEO梁文锋是署名作者之一。点评：这次的论文同样是DeepSeek的硬核技术型风格，团队把...

梁文锋新论文!DeepSeek降本秘籍公开,突破算力瓶颈有六招

DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中，在作者列表中处于倒数第五的位置。论文署名通讯地址为“中国北京”，可以推测论文研究大概率为DeepSeek北京团队主导。大语言模型的迅猛扩张正暴露出硬件架构的三大瓶颈：内存容量不足、计算效率低下、互连带宽受限。而DeepSeek-V3却实现了令人瞩目的效率突破——仅...

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了...

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了机器之心人工智能等 2 个话题下的优秀答主收录于 · 机器之心 95 人赞同了该文章机器之心报道。虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文! 这篇14 页的论文瞄向了...

梁文锋新论文!DeepSeek降本秘籍公开!

DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中,在作者列表中处于倒数第五的位置。论文署名通讯地址为“中国北京”,可以推测论文研究大概率为DeepSeek北京团队主导。大语言模型的迅猛扩张正暴露出硬件架构的三大瓶颈:内存容量不足、计算效率低下、互连带宽受限。...

梁文锋Nature论文:DeepSeek-R1的科学突破与技术启示 - 知乎

2025年9月17日,中国AI公司DeepSeek创始人梁文锋团队的研究成果以封面文章形式登上国际顶级科学期刊《自然》(Nature) ,这一突破性进展标志着中国AI技术研究在国际舞台上的重要里程碑。论文标题为《DeepSeek-R1: A…

梁文锋署名DeepSeek新论文:公开V3大模型降本方法 2025年05月15日 16...

梁文锋亲自参与的DeepSeek最新论文,来了! 这一次,团队把DeepSeek-V3在训练和推理过程中,如何解决“硬件瓶颈”的方法公布了出来。具体而言,DeepSeek-V3之所以可以只用2048块H800,就能达到超大规模集群(如数万块GPU)相当的训练效果,核心在于四项创新技术: