梁文锋署名论文,DeepSeek最强开源Agent模型炸场
智东西12月2日报道,昨晚,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型,在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。DeepSeek称,标准版的DeepSeek-V3.2在公开的推理类基准测试中,达到了GPT-5的水平,仅略低于Gemin
梁文锋署名论文,DeepSeek最强开源Agent模型炸场|基准测试|模型|...
梁文锋署名论文,DeepSeek最强开源Agent模型炸场 智东西 作者 陈骏达 编辑 云鹏 智东西12月2日报道,昨晚,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型,在推理、智能体等多领域基准测试中斩获全球开源模型第一的表现。 DeepSeek称,标准版的DeepSeek-V3.2在公...
梁文锋署名论文,DeepSeek最强开源Agent模型炸场_财富号_东方财富网
梁文锋署名论文,DeepSeek最强开源Agent模型炸场 四大权益礼包,开户即送 来源:市场资讯 (来源:智东西) 智东西 作者 陈骏达 编辑 云鹏 智东西12月2日报道,昨晚,DeepSeek发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。这是DeepSeek当前性能最强大的模型,在推理、智能体等多领域基准测试中斩获全球开源模型...
梁文锋出手!29万美元干翻1亿美金,Nature封面炸场DeepSeek-R1横空...
伴随DeepSeek-R1的高光而来的,是一场关于“模型血统”的质疑。有人抛出“蒸馏论”:R1的优秀表现,是不是偷偷“复制”了OpenAI等巨头模型的推理路径?面对这场舆论风暴,梁文锋团队在《自然》审稿回复中首次正面回应:“R1从未模仿任何AI模型,它只是像海绵一样吸收了互联网上已有的公开内容。”这句话看似轻描淡写...
DeepSeek论文登上《自然》封面,创始人梁文锋为通讯作者,R1成首个...
9月18日,梁文锋作为通讯作者,带着DeepSeek-R1的研究,登上最新一期国际顶级期刊《自然》(Nature)封面。今年1月份,国产大模型公司深度求索(DeepSeek)在预印本平台arxiv公布论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。图据澎湃新闻 《自然》杂志指出,如此总结...
DeepSeek-R2将用到这项技术?梁文锋署名论文获ACL2025最佳论文奖
DeepSeek-R2将用到这项技术?梁文锋署名论文获ACL2025最佳论文奖 梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 在ACL 2025的颁奖典礼上,由梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。 这次ACL 2025规模空前,总投稿量达到8360篇,相较于去年的4407篇几乎翻倍,竞争异常激烈 。
梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义...
由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(...
梁文锋署名论文:DeepSeek-V3如何以低成本突破大模型算力瓶颈...
近日,由梁文锋领衔的DeepSeek团队发布了一篇题为《DeepSeek-V3: Breaking the Compute Barrier in Large Model Training with Cost-Efficient Architectures》的论文,引发了AI领域对低成本大模型训练的广泛关注。该论文系统性地揭示了DeepSeek-V3如何在算力资源有限的情况下,通过架构创新与算法优化,实现与万亿参数模型相当...
梁文锋在《自然》发表封面论文,DeepSeek成首个严格学术审查大模型
中国杭州AI初创公司DeepSeek开发的R1模型近日在《自然》杂志发表了同行评议版本,成为首个经过严格学术审查的主要大语言模型。DeepSeek 创始人兼CEO梁文峰为该论文的通讯作者。《自然》杂志不但将该篇论文作为封面论文,还在评论报道文章中用“里程碑式论文揭示DeepSeek AI模型的秘密”。说实话,刚看到这新闻时我有点...
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
DeepSeek团队首先是对内存进行了优化,所采用的方法则是多头潜在注意力(MLA),为的就是减少 “键值缓存”(KV Cache)的内存占用。传统模型每个注意力头都需要独立缓存键值对,而MLA通过投影矩阵将所有头的键值对压缩成一个更小的 “潜在向量”,只需缓存这一向量。相比其他模型(如LLaMA-3、Qwen-2.5),Deep...
刚刚,梁文锋发Nature了!
智东西9月18日报道,9月17日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》的封面。 DeepSeek-R1论文首次公开了仅靠强化学习,就能激发大模型推理能力的重要研究成果,启发全球AI研究者;这一模型还成为全球最受欢...
AI硬件“天花板”被捅破?梁文锋署名DeepSeek-V3新论文! - 哔哩哔哩
梁文锋署名DeepSeek-V3新论文! “吃”硬件,把内存、算力、带宽逼到极限,追赶者们,或者说整个行业,除了干等硬件升级,还能怎么办? ChatGPT横空出世,大模型竞赛白热化。英伟达的GPU成了硬通货,算力就是一切。各大公司和研究机构疯狂堆砌资源,试图追赶甚至超越。
梁文锋参与的DeepSeek-R1论文登上 Nature封面,这具有什么意义...
而第二个实现CoT的就是DeepSeek R1,并且DeepSeek完全开源,有详细的论文描述如何实现,不仅从自有模型...
梁文锋捅破“黑箱”登上《自然》封面,首次回应质疑
此次,DeepSeek团队在《自然》杂志上发表论文,无疑打破了行业惯例。对此,多位专家表示,此举意味着“野蛮生长”的大模型正在向更为透明、可复现的方向发展,同时也意味着人工智能正努力融入更广泛的科学社区,为AI与其他领域的融合打通更多壁垒。影响力倒挂?发表生态在改变 这篇由梁文锋担任通讯作者的论文披露了Deep...
DeepSeek又更新了,期待梁文锋“炸场”
DeepSeek方面在回应《BUG》栏目时,直言“都以官方公布为准”。巧合的是,今天是R1官方发布后的整7个月。在这期间,OpenAI、Google、阿里巴巴、月之暗面、智谱等纷纷发布了新模型,他们都以R1作为参照物。而R2作为R1的后续产品,一直都是行业关注的焦点。大厂需要新的参照物,万众也在期待梁文锋。实测:上下文更长...
ACL2025最佳论文炸场!DeepSeek梁文锋新作NSA:让大模型“减肥...
大模型|LLM Ai大模型研究所 584 85 DeepSeek Prover V2 让人人都是数学领域验证学者 BuddyAI 2470 0 顶会收割机!PINN变种,效率提升3倍! AI因斯坦学AI 412 2 【最新】都说中国没有AI,但是请你看看现在的Deepseek!金一南教授盛赞梁文锋与Deepseek! 思想者說 9611 6 MCP正式退役!Agent可以自己阅读文档...
DeepSeek-V3再发论文,梁文锋署名,低成本训练大模型的秘密揭开了...
虽然此前 DeepSeek 已经发布了 V3 模型的技术报告,但刚刚,他们又悄然发布了另一篇围绕 DeepSeek-V3 的技术论文! 这篇14 页的论文瞄向了「Scaling 挑战以及对 AI 架构所用硬件的思考」。从中你不仅能读到 DeepSeek 在开发和训练 V3 过程中发现的问题和积累的心得,还能收获他们为未来的硬件设计给出的思考和建议...
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑_手机...
9月 17 日,开源 AI“顶流”DeepSeek 再次引发行业轰动。其推理模型研究论文 DeepSeek-R1,DeepSeek 创始人梁文锋以通讯作者的名义正式发表在国际顶尖期刊《自然》(Nature)上,并登上当期封面。 这不仅标志着国产 AI 研究迈入世界舞台,也意味着大语言模型首次通过了完整的同行评审,填补了行业空白。
首个大模型被扒光,DeepSeek登上Nature,打了谁的脸
自然就成了最值得信赖的。所以,梁文锋和DeepSeek干的这件事,远不止是为中国AI争了口气。它更像是在这个浮躁的行业里,扔下了一枚深水炸弹,炸出了一个根本性的问题:未来的AI竞赛,我们究竟是需要更多把戏法变得更复杂的魔术师,还是需要几个愿意把魔术原理解释清楚的科学家?这事儿,你怎么看?