杨植麟和梁文锋论文“撞车”

梁文锋、杨植麟论文“撞车”,直指算法优化,挑战ChatGPT核心机制...

值得注意的是，这篇论文是由DeepSeek创始人梁文锋亲自提交的，而且他也是作者之一。而就在DeepSeek发表这篇技术论文的同一天，月之暗面创始人杨植麟也“挂帅”发布了最新论文，主题同样围绕长文的算法优化。月之暗面提出的新方法叫块注意力混合（Mixture of Block Attention，下称MoBA）。这项方法没有完全脱离现在最...

杨植麟跟梁文锋,论文撞车!

MoBA上下文长度最大可扩展到10M，而NSA最长是64k（刚刚，DeepSeek发新成果！梁文锋亲自参与，实习生挑大梁，显著加速AI训练推理）。值得关注的是，DeepSeek创始人梁文锋是NSA论文共同作者之一，MoBA论文的共同作者中也出现了月之暗面联合创始人杨植麟、周昕宇的名字。月之暗面MoBA架构的主要特点包括对长上下文任务的适配，...

杨植麟和梁文锋,论文撞车了_凤凰网

杨植麟最初创办月之暗面受到关注的一个重要原因,是他的论文影响力和引用量,但K1.5论文之前,他最后一篇论文类的研究停留在2024年1月。而梁文锋虽然作为作者出现在DeepSeek最重要的模型技术报告里,但这些报告的作者名录几乎相当于DeepSeek的员工名录,几乎所有人都列在里面。而NSA的论文作者则只有几人。由此可以看出这两...

梁文锋、杨植麟论文 “撞车”,DeepSeek走红,月之暗面尴尬

在AI领域，技术创新与突破一直是各大厂商与研究机构竞相追逐的焦点。近日，两位技术大佬——DeepSeek的梁文锋与月之暗面的杨植麟，因各自发表的论文“撞车”而引发业界广泛关注。与此同时，DeepSeek的迅速崛起更是让月之暗面陷入了尴尬境地，甚至有消息称月之暗面已大幅降低广告投放。论文“撞车”：技术路线的殊途同归...

杨植麟和梁文锋,论文撞车了 #财经 #经济 #DeepSeek_凤凰网视频...

杨植麟和梁文锋,论文撞车了 #财经 #经济 #DeepSeek 洞察财经坚持认为保持极度谦虚的态度是通向投资成功的必由之路。热播推荐缅甸克伦边防军首领称与电诈和人口贩卖无关英媒:美国条款意味着对乌克兰永久“经济殖民” 巴经济学家:巴拿马未来或再加入“一带一路” 妙瓦底电诈园“猪仔”获救后痛哭:坐牢也要回国...

#杨植麟梁文锋论文撞车#据硅星人Pro,2... 来自中国科技观察 - 微博

【#杨植麟梁文锋论文撞车#】据硅星人Pro,2月18日,马斯克发布了他用20万张卡训出的Grok3,DeepSeek和月之暗面几乎同时发布了他们各自最新的论文,而主题直接“撞车”——都是挑战Transformer架构最核心的注意力机制...

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么在大洋彼岸的马斯克秀出最新大模型Grok 3当天，国产AI公司深度求索（DeepSeek）最新一篇论文引发关注，创始人梁文锋在署名之列，并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention，原生稀疏注意力)。据DeepSeek，上下文建模对于...

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么_10%公司...

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|注意力|...

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么_手机...

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|注意力_新浪...

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...

决战AI之巅:马斯克硬刚奥特曼梁文锋PK杨植麟|产业科技周报

3、杨植麟和梁文锋同天发论文，主题还撞了 2月18日，DeepSeek和月之暗面均在技术社区发布最新论文，DeepSeek的论文题为：《Native Sparse Attention:Hardware-Aligned and Natively Trainable Sparse Attention》，月之暗面的论文是《MoBA:MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》，主题都是优化Transformer...

决战AI之巅:马斯克硬刚奥特曼梁文锋PK杨植麟|产业科技周报 - B2B...

【亿邦原创】2月18日,马斯克硬刚奥特曼,梁文锋PK杨植麟,大模型领域最顶尖的精英们同天在模型层放大招,决战AI之巅——“城头变幻大王旗”,谁也无法稳坐高台。马斯克前脚宣布Grok3是“全球最聪明”,奥特曼后脚就发推“AGI初体验要来。” 2月18日,马斯克在直播间发布xAI公司新一代旗舰大模型Grok 3。2年内,xAI...

梁文锋和杨植麟,论文撞车了!!|推理|上下文|moba|月之暗面_网易订阅

昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道但其实就在同一天,月之暗面也发布了一篇主题类似的论文,并且同样巧合的是,月之暗面创始人兼 CEO 杨植麟也是该论文的署名作者之一。并且不同于 DeepSeek 只发布了一篇...

杨植麟跟梁文锋,论文撞车!_注意力_模型_序列

杨植麟跟梁文锋,论文撞车! 智东西编译| 陈骏达编辑| Panken 智东西2月19日报道,在DeepSeek公布最新稀疏注意力框架NSA论文的5小时后,“大模型六小虎”之一、月之暗面Kimi团队公布了一篇类似主题的MoBA论文,并声称在长文本上下文中实现了高效、动态的注意力选择,提升了大模型在处理超长序列任务时的效率和性能,同时...

梁文锋、杨植麟论文 “撞车”,DeepSeek走红,月之暗面尴尬_技术...

在AI领域,技术创新与突破一直是各大厂商与研究机构竞相追逐的焦点。近日,两位技术大佬——DeepSeek的梁文锋与月之暗面的杨植麟,因各自发表的论文“撞车”而引发业界广泛关注。与此同时,DeepSeek的迅速崛起更是让月之暗面陷入了尴尬境地,甚至有消息称月之暗面已大幅降低广告投放。

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|算法|上下文...

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...

梁文锋一说话,中科院就炸了!关注我有好处。他说有些院士三年没写...

梁文锋一说话,中科院就炸了!关注我有好处。他说有些院士三年没写论文,钱照样拿,简直就是科研“养老院”!举了孙凝晖院士的例子,说他三年没啥成果,资金却一直在进账2551 2 2025-02-13 11:59:20 未经作者授权,禁止转载 93 8 10 4 - 热点观察局知识社科·法律·心理深度求索梁文锋成果养老院院士 ...

都是80后,广东学霸搞高科技,河南四川人卖奶茶,成了百亿富豪__财经...

DEEPSEEK的横空出世,让人认识了梁文锋。他是个典型的学霸,本科和硕士都毕业于浙江大学信息与电子工程学系,1985年出生,广东湛江人。之前,梁文锋鲜为人知,也没有登上过富豪榜。这不代表他的财富少,10多年前,他就创办了幻方量化,通过使用机器学习等技术进行全自动量化交易,如今管理着上千亿的资金,是国内量化私募...

梁文锋杨植麟论文撞题,“注意力机制”对大模型意味着什么|上下文_网易...

2月18日,在大洋彼岸的马斯克秀出最新大模型Grok 3当天,国产AI公司深度求索(DeepSeek)最新一篇论文引发关注,创始人梁文锋在署名之列,并2月16日提交到预印本平台arxiv。这篇论文的核心关于NSA(Natively Sparse Attention,原生稀疏注意力)。据DeepSeek,上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算...