梁文锋、杨植麟论文“撞车”,直指算法优化,挑战ChatGPT核心机制...
值得注意的是,这篇论文是由DeepSeek创始人梁文锋亲自提交的,而且他也是作者之一。而就在DeepSeek发表这篇技术论文的同一天,月之暗面创始人杨植麟也“挂帅”发布了最新论文,主题同样围绕长文的算法优化。月之暗面提出的新方法叫块注意力混合(Mixture of Block Attention,下称MoBA)。这项方法没有完全脱离现在最...
杨植麟跟梁文锋,论文撞车!
MoBA上下文长度最大可扩展到10M,而NSA最长是64k(刚刚,DeepSeek发新成果!梁文锋亲自参与,实习生挑大梁,显著加速AI训练推理)。值得关注的是,DeepSeek创始人梁文锋是NSA论文共同作者之一,MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。月之暗面MoBA架构的主要特点包括对长上下文任务的适配,...
杨植麟和梁文锋,论文撞车了_凤凰网
杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但K1.5论文之前,他最后一篇论文类的研究停留在2024年1月。而梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里,但这些报告的作者名录几乎相当于DeepSeek的员工名录,几乎所有人都列在里面。而NSA的论文作者则只有几人。由此可以看出这两...
梁文锋、杨植麟论文 “撞车”,DeepSeek走红,月之暗面尴尬
在AI领域,技术创新与突破一直是各大厂商与研究机构竞相追逐的焦点。近日,两位技术大佬——DeepSeek的梁文锋与月之暗面的杨植麟,因各自发表的论文“撞车”而引发业界广泛关注。与此同时,DeepSeek的迅速崛起更是让月之暗面陷入了尴尬境地,甚至有消息称月之暗面已大幅降低广告投放。论文“撞车”:技术路线的殊途同归...
杨植麟和梁文锋,论文撞车了 #财经 #经济 #DeepSeek_凤凰网视频...
杨植麟和梁文锋,论文撞车了 #财经 #经济 #DeepSeek 洞察财经 坚持认为保持极度谦虚的态度是通向投资成功的必由之路。 热播推荐 缅甸克伦边防军首领称与电诈和人口贩卖无关 英媒:美国条款意味着对乌克兰永久“经济殖民” 巴经济学家:巴拿马未来或再加入“一带一路” 妙瓦底电诈园“猪仔”获救后痛哭:坐牢也要回国...
#杨植麟梁文锋论文撞车#据硅星人Pro,2... 来自中国科技观察 - 微博
【#杨植麟梁文锋论文撞车#】据硅星人Pro,2月18日,马斯克发布了他用20万张卡训出的Grok3,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制...
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么 在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于...
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么_10%公司...
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。 这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|注意力|...
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。 这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么_手机...
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。 这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|注意力_新浪...
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。 这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...
决战AI之巅:马斯克硬刚奥特曼 梁文锋PK杨植麟|产业科技周报
3、杨植麟和梁文锋同天发论文,主题还撞了 2月18日,DeepSeek和月之暗面均在技术社区发布最新论文,DeepSeek的论文题为:《Native Sparse Attention:Hardware-Aligned and Natively Trainable Sparse Attention》,月之暗面的论文是《MoBA:MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》,主题都是优化Transformer...
决战AI之巅:马斯克硬刚奥特曼 梁文锋PK杨植麟|产业科技周报 - B2B...
【亿邦原创】2月18日,马斯克硬刚奥特曼,梁文锋PK杨植麟,大模型领域最顶尖的精英们同天在模型层放大招,决战AI之巅——“城头变幻大王旗”,谁也无法稳坐高台。 马斯克前脚宣布Grok3是“全球最聪明”,奥特曼后脚就发推“AGI初体验要来。” 2月18日,马斯克在直播间发布xAI公司新一代旗舰大模型Grok 3。2年内,xAI...
梁文锋和杨植麟,论文撞车了!!|推理|上下文|moba|月之暗面_网易订阅
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道 但其实就在同一天,月之暗面也发布了一篇主题类似的论文,并且同样巧合的是,月之暗面创始人兼 CEO 杨植麟也是该论文的署名作者之一。并且不同于 DeepSeek 只发布了一篇...
杨植麟跟梁文锋,论文撞车!_注意力_模型_序列
杨植麟跟梁文锋,论文撞车! 智东西 编译| 陈骏达 编辑| Panken 智东西2月19日报道,在DeepSeek公布最新稀疏注意力框架NSA论文的5小时后,“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文,并声称在长文本上下文中实现了高效、动态的注意力选择,提升了大模型在处理超长序列任务时的效率和性能,同时...
梁文锋、杨植麟论文 “撞车”,DeepSeek走红,月之暗面尴尬_技术...
在AI领域,技术创新与突破一直是各大厂商与研究机构竞相追逐的焦点。近日,两位技术大佬——DeepSeek的梁文锋与月之暗面的杨植麟,因各自发表的论文“撞车”而引发业界广泛关注。与此同时,DeepSeek的迅速崛起更是让月之暗面陷入了尴尬境地,甚至有消息称月之暗面已大幅降低广告投放。
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|算法|上下文...
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。 这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...
梁文锋一说话,中科院就炸了!关注我有好处。他说有些院士三年没写...
梁文锋一说话,中科院就炸了!关注我有好处。他说有些院士三年没写论文,钱照样拿,简直就是科研“养老院”!举了孙凝晖院士的例子,说他三年没啥成果,资金却一直在进账2551 2 2025-02-13 11:59:20 未经作者授权,禁止转载 93 8 10 4 - 热点观察局 知识 社科·法律·心理 深度求索 梁文锋 成果 养老院 院士 ...
都是80后,广东学霸搞高科技,河南四川人卖奶茶,成了百亿富豪__财经...
DEEPSEEK的横空出世,让人认识了梁文锋。 他是个典型的学霸,本科和硕士都毕业于浙江大学信息与电子工程学系,1985年出生,广东湛江人。 之前,梁文锋鲜为人知,也没有登上过富豪榜。 这不代表他的财富少,10多年前,他就创办了幻方量化,通过使用机器学习等技术进行全自动量化交易,如今管理着上千亿的资金,是国内量化私募...
梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|上下文_网易...
2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。 这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...