梁文锋署名DeepSeek最新论文，提出新方法突破GPU内存限制

梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制

【文/观察者网熊超然】1月12日晚间，中国人工智能（AI）初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文，提出了一种新的模型训练技术。他们表示，该技术可以通过绕过图形处理单元（GPU）内存限制，实现“参数的积极扩展”。香港《南华早报》1月13日报道指出，此举凸显了DeepSeek在算力

梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制

【文/观察者网熊超然】1月12日晚间,中国人工智能(AI)初创公司DeepSeek创始人梁文锋与北京大学研究人员共同署名发表了一篇技术论文,提出了一种新的模型训练技术。他们表示,该技术可以通过绕过图形处理单元(GPU)内存限制,实现"参数的积极扩展"。香港《南华早报》1月13日报道指出,此举凸显了DeepSeek在算力相对美国行业...

DeepSeek-V4核心公开?梁文锋署名新论文发布,实习生挑大梁

智东西1月13日报道，昨晚，DeepSeek又开源了，还发布一篇新论文。这次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。Engram架构的核心优势在于以更低成本实现更优性...

梁文锋署名DeepSeek新论文发布,直指大模型“记忆”短板

梁文锋署名DeepSeek新论文发布，直指大模型“记忆”短板新京报贝壳财经讯（记者罗亦丹）1月12日晚间，DeepSeek发布了一篇新论文，主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直译为基于可扩展查找的条件记忆：大语言模型稀疏性的新维度），梁文锋再度出现在了...

DeepSeek发布梁文锋署名新论文

该论文为北京大学与DeepSeek共同完成，合著作者署名中出现梁文锋。论文提出条件记忆（conditional memory），通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现。同时，DeepSeek开源相关记忆模块Engram。来源：证券时报责编：杨喻程校对：刘星莹百万用户都在看“...

DeepSeek公布全新论文,梁文锋署名_ZAKER新闻

该论文作者署名包括梁文锋等 DeepSeek 团队成员,还有北京大学王选所赵东岩、张辉帅团队。论文链接:https://github.com/deepseek-ai/Engram/blob/main/Engram_paper.pdf 提出"U 形扩展定律 " 论文称,当前大语言模型主要依靠混合专家(MoE)实现条件计算,通过稀疏激活参数扩展模型容量。然而,语言信号具有内在异质性:一方...

...计算、记忆分家后智商爆表,剧透DeepSeek V4?|显存|专家|推理|...

长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型“死记硬背”那些查字典就能知道的静态知识。 DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计...

DeepSeek突发梁文锋署名新论文:V4新架构提前曝光?_凤凰网

今天凌晨,喜欢闷声做大事的 DeepSeek 再次发布重大技术成果,在其 GitHub 官方仓库开源了新论文与模块Engram,论文题为 “Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”, 梁文锋再次出现在合著者名单中。与传统的大模型架构相比,该方法提出了一种新的“查—算分离”...

梁文锋署名,DeepSeek论文上新_新浪财经_新浪网

继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

智东西1月1日报道，昨日晚间，DeepSeek团队送出一份新年“贺礼”，正式发布新论文《Manifold-Constrained Hyper-Connections》，提出一种能稳定训练并提升大模型可扩展性的残差连接新方案。DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中。论文核心指出，尽管当前如Hyper-Connections（HC）这类连接结构能带来性能...

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

梁文锋亲自参与的DeepSeek最新论文，来了！这一次，团队把DeepSeek-V3在训练和推理过程中，如何解决“硬件瓶颈”的方法公布了出来。具体而言，DeepSeek-V3之所以可以只用2048块H800，就能达到超大规模集群（如数万块GPU）相当的训练效果，核心在于四项创新技术：内存优化多头潜在注意力（MLA）计算优化混合

...被捅破?梁文锋署名DeepSeek-V3新论文:软硬协同,砸碎“算力神话...

梁文锋署名DeepSeek-V3新论文:软硬协同,砸碎“算力神话”! “吃”硬件,把内存、算力、带宽逼到极限,追赶者们,或者说整个行业,除了干等硬件升级,还能怎么办? ChatGPT横空出世,大模型竞赛白热化。英伟达的GPU成了硬通货,算力就是一切。各大公司和研究机构疯狂堆砌资源,试图追赶甚至超越。

DeepSeek又放大招!梁文锋署名新论文引关注

DeepSeek近日发布论文，阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写，提出了名为“流形约束超连接”(mHC)的框架。作者称，该框架旨在提升可扩展性，同时降低训练先进人工智能系统的算力和能源需求。DeepSeek下一代旗舰系统R2预计将在2月份春节前后问世。1月1日消息，DeepSeek发布了一篇新论文...

梁文锋新论文!DeepSeek降本秘籍公开,突破算力瓶颈有六招 - 知乎

DeepSeek创始人兼CEO梁文锋这次同样出现在了合著名单之中,在作者列表中处于倒数第五的位置。论文署名通讯地址为“中国北京”,可以推测论文研究大概率为DeepSeek北京团队主导。大语言模型的迅猛扩张正暴露出硬件架构的三大瓶颈:内存容量不足、计算效率低下、互连带宽受限。而DeepSeek-V3却实现了令人瞩目的效率突破—— ...

深度丨梁文锋署名论文发布,DeepSeek用mHC新架构“秀肌肉”

DeepSeek的实验数据显示，HC架构中，信号最大放大倍数能逼近3000倍，直接导致两种训练灾难：要么信号爆炸、梯度爆炸，要么梯度消失，最终模型训练崩盘。更棘手的是，HC的多车道设计还带来了巨大的工程开销，并行通道的增加让GPU内存占用和通信带宽需求急剧上升，进一步限制了其在更大规模模型中的应用。这就像把单车道扩建...

梁文锋署名,DeepSeek新年开启宏观架构新篇章,破解梯度爆炸与显存墙...

2025年的最后一天,DeepSeek发了篇梁文锋署名的重磅论文。论文提出的mHC(Manifold-Constrained Hyper-Connections, 流形约束超连接)架构,通过将超连接的残差空间投影到双随机矩阵流形上,成功解决了扩展残差宽度带来的训练不稳定性。同时配合内核融合与通信重叠等工程优化,以仅6.7%的额外开销实现了模型性能与规模的同步提...

DeepSeek又放大招!梁文锋署名新论文引关注

梁文锋署名新论文引关注本文来源:综合自证券时报、财联社、21世纪经济报道及公开信息 DeepSeek近日发布论文,阐述了一种更为高效的人工智能开发方法。该论文由创始人梁文锋参与撰写,提出了名为“流形约束超连接”(mHC)的框架。作者称,该框架旨在提升可扩展性,同时降...

完整版|梁文峰最新DeepSeek V3论文!揭秘如何用低性能GPU,训练出...

这篇论文探讨了DeepSeek-V3模型在扩展过程中面临的硬件挑战,并提出了一系列硬件与模型协同设计的解决方案。大家知道,大语言模型(LLM)的快速扩展暴露了当前硬件架构的一些关键局限性,包括内存容量、计算效率和互连带宽。以DeepSeek-V3 为例,它是在2048 块NVIDIA H800 GPU 集群上进行训练,展示了硬件感知模型协同设计...

梁文锋新论文!公开DeepSeek-V3降本关键

DeepSeek-V3 仅在2048块NVIDIA H800 GPU上进行训练，就实现了经济高效的大规模训练和推理。本次，DeepSeek团队把在V3/R1训练和推理过程中，如何解决的“硬件瓶颈”方法正式公布。DeepSeek模型的设计原理对内存效率提升：LLMs 对内存资源需求巨大，而内存增长速度远不及模型增长速度。DeepSeek-V3 采用低精度模型（如...

梁文锋署名,DeepSeek-V3新论文揭秘:低成本大模型训练如何突破算力瓶颈...

近日,DeepSeek团队发布了DeepSeek-V3的最新论文,重点讨论了在大规模人工智能模型训练中遇到的扩展挑战以及与硬件架构相关的思考。这篇长达14页的论文不仅总结了DeepSeek在开发V3过程中的经验与教训,还为未来的硬件设计提供了深刻的见解。值得注意的是,DeepSeek的CEO梁文锋也参与了论文的撰写。