DeepSeek登顶Nature封面背后:中国AI如何实现45倍训练效率突破?
2025年9月,当《自然》杂志封面首次出现中文署名的人工智能论文时,全球科技界意识到一个新时代的来临。DeepSeek团队研发的R1大模型不仅以同行评议方式获得学术认可,更以45倍训练效率的突破性表现,改写了AI研发的成本方程式。这背后究竟藏着怎样的技术密码?传统大模型训练就像建造金字塔,需要堆砌海量算力砖块。OpenAI的o3系列使用1
如何看待DeepSeek发布的新模型DeepSeek-Math-V2? - 知乎
DeepSeekMath-V2的论文也于GitHub同步放出了。DeepSeek最新发布的DeepSeekMath-V2带来的核心突破就是:自...
DeepSeek R2憋大招:4个线索指向在线强化学习 - 知乎
但如果你仔细看过去几个月DeepSeek发布的一系列技术工作,会发现他们根本没闲着,这些工作像是在为某个更大的东西做准备。 剧透一|算法架构,触及GPU层的彻底革新:NSA 今年2月,DeepSeek发布了一篇关于注意力机制的论文:Native Sparse Attention。这看起来是个很"学术"的工作,但它解决的是大模型最核心的效率瓶颈。
梁文锋亲自上阵、亲自提交!DeepSeek发布新技术论文
三言科技消息 DeepSeek刚刚宣布提交了新的技术论文,是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。值得注意的是,DeepSeek创始人梁文锋是作者之一。可见他确实是热衷于技术研究的人。梁文锋还亲自提交了这篇论文。论文...
科学网—DeepSeek-R1论文《自然》 - 孙学军的博文
DeepSeek-R1论文《自然》 自然评论:《深度求索(DeepSeek)人工智能模型的核心技术》 中国公司深度求索(DeepSeek)的研究人员表示,其强大的人工智能(AI)模型R1的成功,并非依赖于使用竞争对手的输出数据进行训练。R1模型于今年1月发布时曾导致美国股市暴跌。该声明出自与R1模型同行评审版本一同发布的文件,相关研究今日(注:...
DeepSeek最重要的三篇论文解读
DeepSeek-LLM:以长期主义扩展开源语言模型。2024年1月发布,从长期主义视角提出开源语言模型发展策略,推动技术民主化。提出了社区驱动的开源治理框架和多任务优化方法。文末阅读原文或者联系凯瑞(pkcapital2023),获取三篇论文原文。一、DeepSeek-R1:通过强化学习提升大型语言模型的推理能力 《DeepSeek-R1: ...
刚刚!DeepSeek团队丢出注意力新机制重磅论文
DeepSeek 新论文来了!相关消息刚刚发布到 𝕏 就吸引了大量用户点赞、转发、评论三连。 据介绍,DeepSeek 的这篇新论文提出了一种新的注意力机制 ——NSA。这是一个用于超快长上下文训练和推断的本地可训练的稀疏注意力机制,并且还具有与硬件对齐的特点。
DeepSeek-R1论文登上Nature封面,通讯作者梁文锋
也就是今年 1 月份 DeepSeek 在 arxiv 公布的论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这篇Nature论文通讯作者正是梁文锋。 论文链接:https://www.nature.com/articles/s41586-025-09422-z 在封面的推荐介绍中,Nature 写到: ...
登顶Nature 封面!DeepSeek-R1 通过全球顶尖科学家最严苛的“同行...
关注 Deepseek 的朋友可能知道,早在今年 1 月份, DeepSeek 在 arxiv 上就已经公布了 R1 模型的论文预印版《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》, 引发了热议。但这次登上《自然》的正式版,是经过了全球顶尖科学家最严苛的“同行评审”打磨后的最终成果,...
DeepSeek论文登上《自然》封面,创始人梁文锋为通讯作者,R1成首个...
9月18日,梁文锋作为通讯作者,带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。 今年1月份,国产大模型公司深度求索(DeepSeek)在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。
刚刚!DeepSeek发布
【导读】DeepSeek发布NSA技术论文 中国基金报记者 泰勒 今天,马斯克发布Grok-3,随后,DeepSeek就推出NSA。DeepSeek推出NSA 2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理!NSA的核心组件包括:...
【LLM】DeepSeek最新论文:R2发布前的关键技术突破(MLA/MTP/FP8T/...
深度求索(DeepSeek)于2025年5月14日发布的新研究论文,深入分析了下一代模型架构与AI基础设施,重点介绍了以下创新技术:多头潜在注意力(MLA):提升内存效率专家混合架构(MoE):优化计算-通信权衡 FP8混合精度训练:充分释放硬件潜力多平面网络拓扑(EP):最小化集群级网络开销 展开更多...
大模型迎来2025开年大作:deepseek-R1与deepseek-R1-Zero_deepseekr1论 ...
2025-01-20正式发布 DeepSeek-R1,并同步开源模型权重。 DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。 DeepSeek-R1 上线API,对用户开放思维链输出,通过设置 model='deepseek-reasoner' 即可调用。 DeepSeek 官网与 App 即日起同步更新上线。 论文地址:https://github.com/deepseek-...
DeepSeek开源新模型!单张A100日处理可超20万页数据
DeepSeek又发新模型了,这次是一个OCR 模型。10月20日,DeepSeek在Github开源了这一新模型,并发布《DeepSeek-OCR:Contexts Optical Compression》(《DeepSeek OCR:上下文光学压缩》)论文,解释了这一成果。论文提到,当前的大语言模型在处理过程中面临着重大的计算挑战,文本内容过长,因此团队探索了一种具有潜力...
Nature:里程碑式论文揭示 DeepSeek AI 模型的秘密,论文全文展示
权威科学期刊《自然》杂志最新一期以封面文章的形式刊登了DeepSeek-R1论文,并在新闻报道中用“里程碑式论文揭示 DeepSeek AI 模型的秘密”,对这篇论文进行了赞扬,并表示这是世界第一篇接受严格学术审查的大模型。 这标志着人工智能推理领域的一项重大突破。该研究由DeepSeek创始人兼首席执行官梁文峰担任通讯作者,展示...
DeepSeek论文登顶《自然》封面,揭开AI“黑箱”时代新篇章!附美国...
2025年9月,DeepSeek团队的研究论文登上了国际权威期刊《自然》的封面,成为全球首个经过同行评审的主流大语言模型。由梁文锋担任通讯作者的这项研究,详细介绍了DeepSeek-R1推理模型,不仅披露了更多训练细节,还正面回应了模型发布之初面临的蒸馏质疑。01 AI发展的透明化转折点 近年来,人工智能,特别是大语言模型,正...
深入了解Deepseek模型的最佳三篇论文 - 知乎
DeepSeek的成功源于其持续的技术创新。过去一年,该公司发布了多篇具有划时代意义的学术论文,确立了技术领先地位。 其中以下几篇尤为重要,因其在技术创新和实际应用中取得了重大突破: DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型...
DeepSeek论文登上《自然》封面,R1成为首个严格学术审查大模型 |...
9月18日,由DeepSeek(深度求索)团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek R1成为首个通过同行评议的主要大语言模型,发表在《自然》杂志的新版DeepSeek-R1论文,与今年1月未经同行评审的初版有较大差异。
DeepSeek-R1 发布一百天:复现研究已达何种水平?未来又将走向何方...
DeepSeek-R1的发布,不仅在学界引起了广泛关注,也激发了社区复现其强大性能的热情。由于DeepSeek并没有完全开源所有训练细节,许多研究团队开始尝试使用类似的训练流程和完全开源的数据资源,来重现DeepSeek-R1的能力,甚至在更小的模型上实现蒸馏模型的推理能力。这篇论文就是对这些复现努力的一次精彩总结。