梁文锋署名论文，DeepSeek最强开源Agent模型炸场

梁文锋署名论文,DeepSeek最强开源Agent模型炸场

智东西12月2日报道，昨晚，DeepSeek发布了两款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型，在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。DeepSeek称，标准版的DeepSeek-V3.2在公开的推理类基准测试中，达到了GPT-5的水平，仅略低于Gemin

梁文锋署名论文,DeepSeek最强开源Agent模型炸场|基准测试|模型|...

梁文锋署名论文,DeepSeek最强开源Agent模型炸场智东西作者陈骏达编辑云鹏智东西12月2日报道,昨晚,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型,在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。 DeepSeek称,标准版的DeepSeek-V3.2在公...

梁文锋署名论文,DeepSeek最强开源Agent模型炸场_财富号_东方财富网

梁文锋署名论文,DeepSeek最强开源Agent模型炸场四大权益礼包,开户即送来源:市场资讯 (来源:智东西) 智东西作者陈骏达编辑云鹏智东西12月2日报道,昨晚,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型,在推理、智能体等多领域基准测试中斩获全球开源模型...

梁文锋出手!29万美元干翻1亿美金,Nature封面炸场DeepSeek-R1横空...

伴随DeepSeek-R1的高光而来的，是一场关于“模型血统”的质疑。有人抛出“蒸馏论”：R1的优秀表现，是不是偷偷“复制”了OpenAI等巨头模型的推理路径？面对这场舆论风暴，梁文锋团队在《自然》审稿回复中首次正面回应：“R1从未模仿任何AI模型，它只是像海绵一样吸收了互联网上已有的公开内容。”这句话看似轻描淡写...

DeepSeek论文登上《自然》封面,创始人梁文锋为通讯作者,R1成首个...

9月18日，梁文锋作为通讯作者，带着DeepSeek-R1的研究，登上最新一期国际顶级期刊《自然》（Nature）封面。今年1月份，国产大模型公司深度求索（DeepSeek）在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。图据澎湃新闻《自然》杂志指出，如此总结...

DeepSeek-R2将用到这项技术?梁文锋署名论文获ACL2025最佳论文奖

DeepSeek-R2将用到这项技术?梁文锋署名论文获ACL2025最佳论文奖梦晨发自凹非寺量子位 | 公众号 QbitAI 在ACL 2025的颁奖典礼上,由梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。这次ACL 2025规模空前,总投稿量达到8360篇,相较于去年的4407篇几乎翻倍,竞争异常激烈。

梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义...

由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文，登上了国际权威期刊《自然（...

梁文锋署名论文:DeepSeek-V3如何以低成本突破大模型算力瓶颈...

近日,由梁文锋领衔的DeepSeek团队发布了一篇题为《DeepSeek-V3: Breaking the Compute Barrier in Large Model Training with Cost-Efficient Architectures》的论文,引发了AI领域对低成本大模型训练的广泛关注。该论文系统性地揭示了DeepSeek-V3如何在算力资源有限的情况下,通过架构创新与算法优化,实现与万亿参数模型相当...

梁文锋在《自然》发表封面论文,DeepSeek成首个严格学术审查大模型

中国杭州AI初创公司DeepSeek开发的R1模型近日在《自然》杂志发表了同行评议版本，成为首个经过严格学术审查的主要大语言模型。DeepSeek 创始人兼CEO梁文峰为该论文的通讯作者。《自然》杂志不但将该篇论文作为封面论文，还在评论报道文章中用“里程碑式论文揭示DeepSeek AI模型的秘密”。说实话，刚看到这新闻时我有点...

梁文锋署名DeepSeek新论文:公开V3大模型降本方法

DeepSeek团队首先是对内存进行了优化，所采用的方法则是多头潜在注意力（MLA），为的就是减少 “键值缓存”（KV Cache）的内存占用。传统模型每个注意力头都需要独立缓存键值对，而MLA通过投影矩阵将所有头的键值对压缩成一个更小的 “潜在向量”，只需缓存这一向量。相比其他模型（如LLaMA-3、Qwen-2.5），Deep...

刚刚,梁文锋发Nature了!

智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢...

AI硬件“天花板”被捅破?梁文锋署名DeepSeek-V3新论文! - 哔哩哔哩

梁文锋署名DeepSeek-V3新论文! “吃”硬件,把内存、算力、带宽逼到极限,追赶者们,或者说整个行业,除了干等硬件升级,还能怎么办? ChatGPT横空出世,大模型竞赛白热化。英伟达的GPU成了硬通货,算力就是一切。各大公司和研究机构疯狂堆砌资源,试图追赶甚至超越。

梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义...

而第二个实现CoT的就是DeepSeek R1，并且DeepSeek完全开源，有详细的论文描述如何实现，不仅从自有模型...

梁文锋捅破“黑箱”登上《自然》封面,首次回应质疑

此次，DeepSeek团队在《自然》杂志上发表论文，无疑打破了行业惯例。对此，多位专家表示，此举意味着“野蛮生长”的大模型正在向更为透明、可复现的方向发展，同时也意味着人工智能正努力融入更广泛的科学社区，为AI与其他领域的融合打通更多壁垒。影响力倒挂？发表生态在改变这篇由梁文锋担任通讯作者的论文披露了Deep...

DeepSeek又更新了,期待梁文锋“炸场”

DeepSeek方面在回应《BUG》栏目时，直言“都以官方公布为准”。巧合的是，今天是R1官方发布后的整7个月。在这期间，OpenAI、Google、阿里巴巴、月之暗面、智谱等纷纷发布了新模型，他们都以R1作为参照物。而R2作为R1的后续产品，一直都是行业关注的焦点。大厂需要新的参照物，万众也在期待梁文锋。实测：上下文更长...

ACL2025最佳论文炸场!DeepSeek梁文锋新作NSA:让大模型“减肥...

大模型|LLM Ai大模型研究所 584 85 DeepSeek Prover V2 让人人都是数学领域验证学者 BuddyAI 2470 0 顶会收割机!PINN变种,效率提升3倍! AI因斯坦学AI 412 2 【最新】都说中国没有AI,但是请你看看现在的Deepseek!金一南教授盛赞梁文锋与Deepseek! 思想者說 9611 6 MCP正式退役!Agent可以自己阅读文档...

DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了...

虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文! 这篇14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议...

梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑_手机...

9月 17 日,开源 AI“顶流”DeepSeek 再次引发行业轰动。其推理模型研究论文 DeepSeek-R1,DeepSeek 创始人梁文锋以通讯作者的名义正式发表在国际顶尖期刊《自然》(Nature)上,并登上当期封面。这不仅标志着国产 AI 研究迈入世界舞台,也意味着大语言模型首次通过了完整的同行评审,填补了行业空白。

首个大模型被扒光,DeepSeek登上Nature,打了谁的脸

自然就成了最值得信赖的。所以，梁文锋和DeepSeek干的这件事，远不止是为中国AI争了口气。它更像是在这个浮躁的行业里，扔下了一枚深水炸弹，炸出了一个根本性的问题：未来的AI竞赛，我们究竟是需要更多把戏法变得更复杂的魔术师，还是需要几个愿意把魔术原理解释清楚的科学家？这事儿，你怎么看？