DeepSeek又又开源了，这次拉爆GPU通信！

DeepSeek又又开源了,这次拉爆GPU通信!

智东西2月25日报道，刚刚，DeepSeek开源周第二弹发布，第一个用于MoE模型训练和推理的开源EP通信库，发布不到一小时，GitHub Star数已上千。DeepEP是为混合专家（MoE）和专家并行（EP）量身定制的通信库，其提供高吞吐量且低延迟的全对全GPU内核，这些内核也被称为MoE调度与合并。高性能：支持用于节点内和节点间...

DeepSeek又又开源了,这次拉爆GPU通信!__财经头条

智东西2月25日报道,刚刚,DeepSeek开源周第二弹发布,第一个用于MoE模型训练和推理的开源EP通信库,发布不到一小时,GitHub Star数已上千。 DeepEP是为混合专家(MoE)和专家并行(EP)量身定制的通信库,其提供高吞吐量且低延迟的全对全GPU内核,这些内核也被称为MoE调度与合并。高性能:支持用于节点内和节点间通信的...

DeepSeek又又开源了,这次拉爆GPU通信_凤凰网科技_凤凰网

DeepSeek又又开源了,这次拉爆GPU通信作者|程茜编辑|心缘智东西2月25日报道,刚刚,DeepSeek开源周第二弹发布,第一个用于MoE模型训练和推理的开源EP通信库,发布不到一小时,GitHub Star数已上千。 DeepEP是为混合专家(MoE)和专家并行(EP)量身定制的通信库,其提供高吞吐量且低延迟的全对全GPU内核,这些内核也...

DeepSeek又开源!阿里巴巴财报超预期!国内算力产业链还能投吗?

图表：国内算力产业链（来源：长城证券）阿里巴巴联合创始人、董事局主席蔡崇信在世界政府峰会上表示：“当人们看到DeepSeek带来的影响时，就会开始转变思路，不再往计算基础设施投入数千亿美元，只为了训练出能拿诺贝尔奖、最聪明的‘博士’模型。我们要找出世界上实际存在的问题，然后用人工智能去解决它们。”最新财报显...

DeepSeek又双叒叕要开源了,这一次要连续开源5个AI项目_哔哩哔哩...

DeepSeek又双叒叕要开源了,这一次要连续开源5个AI项目,DeepSeek是真正的OpenAI,DeepSeek的开源策略也在重述全球AI发展格局。#DeepSeek #AI #人工智能 #开源 #OpenAI #GPT-4.5, 视频播放量 8、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者毛星会

刚刚,DeepSeek开源DeepEP通信库,千亿MoE训推颠覆级创新!

【新智元导读】DeepSeek开源第二弹如期而至。这一次，他们把MoE训推EP通信库DeepEP开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。刚刚，DeepSeek放出了开源第二弹——DeepEP！它拥有高效优化的all-to-all通信，并具有以下特点：内部节点和节点间均支持NVLink和RDMA高吞吐量内核用于训练和推理预填充低...

DeepSeek 发布开源第一弹!让大模型在GPU上跑得更快

2月24日，DeepSeek启动“开源周”，开源了首个代码库FlashMLA。据介绍，这是DeepSeek针对Hopper GPU优化的高效MLA解码内核，专为处理可变长度序列而设计，现在已经投入生产使用。“在H800上能实现3000 GB/s 的内存带宽 & 580 TFLOPS 的计算性能。”DeepSeek说。简单来说，FlashMLA 是一个能让大语言模型在 H800...

DeepSeek开源背后的秘密!_哔哩哔哩_bilibili

DeepSeek开源背后的秘密!Python_讲师Alex 立即播放打开App,流畅又高清100+个相关视频更多 7335 17 04:43 App 蛙媒:deepseek很厉害,但我们早就有了,只不过没开源被deepseek抢了风头 6.2万 87 03:45 App 把DeepSeek接入僵毁!AI女友 4.1万 0 01:16 App 如果你想失业,就选大数据! 7578 17 01:50 App...

DeepSeek开源横扫全球欧美各国避之不及 !中国GPU加速适配!-西瓜...

DeepSeek开源横扫全球欧美各国避之不及 !中国GPU加速适配!,于2025年2月8日上线。西瓜视频为您提供高清视频,画面清晰、播放流畅,看丰富、高质量视频就上西瓜视频。

DeepSeek放出重磅开源 - 知乎

上周DeepSeek 官宣下周开源五连发: 网友表示:这回,真 OpenAI 来了。清华DeepSeek手册(1|2|3|4)就在刚刚,第一个开源项目来了,与推理加速有关,FlashMLA: 开源项目地址: https://github.com/deepseek-ai/Fl…

Deepseek开源,AI界掀起变革风暴_哔哩哔哩_bilibili

03:49 美国对Deepseek的无端指责,背后藏着什么? 02:21 DeepSeek重压之下,OpenAI承认闭源策略失误 05:10 马斯克入局政治,是机遇还是陷阱? 02:46 马斯克爆猛料,美国资助新冠病毒研究,国人却为何反应平淡? 02:33 人造太阳破纪录,核聚变之路还有多远? 06:59 Deepseek开源,AI界掀起变革风暴 04:06 Deep...

Deepseek的隐喻:GPU失其鹿,ASIC、SOC们共逐之

春节期间爆火的国产开源模型DeepSeek V3横空出世。在其工程技术创新中，用到的多头潜在注意力（MLA，Multi-Head Latent Attention），成为其降低推理成本的关键，MLA大幅优化了Transformer架构中的KV Cache机制，显著减少了推理过程中所需的硬件资源，从而降低了推理成本。对产业链的意义在于，优质开源模型降本速度如此之...

DeepSeek开源大餐来了!解锁H800,带飞GPU推理速度,1小时10万观看

有一位英伟达股民跑到DeepSeek的评论区祈祷，希望DeepSeek能在不影响英伟达股价的前提下，让GPU更为高效。更多海外网友已经迫不及待，开启了催更模式，有人让DeepSeek抓紧研发语音模式，也有人猜想第五天发布的开源产品会不会是AGI。拉踩OpenAI已经成为DeepSeek评论区中的常见现象，这位网友就称，OpenAI应该干脆就把...

突发!DeepSeek重磅宣布:下周开源5个代码库

官方公布的数据显示，Grok 3在20万个GPU上进行训练，并仅耗时214天便完成构建。与上一代Grok 2相比，其训练量提升了10倍，推理能力更是达到了全新的高度。回顾过去这一个多月，1月11日，DeepSeek正式发布官方App并上线iOS与安卓应用市场。1月20日，DeepSeek悄然开源了推理模型DeepSeek-R1。《每日经济新闻》记者...

技术大佬齐赞 DeepSeek V3:开源大模型的又一次飞跃,引爆技术社区

FP8 混合精度训练:DeepSeek V3 采用了FP8 混合精度训练框架,这是一种低精度训练方法,可以在保持模型性能的同时,显著减少 GPU 内存使用和加速训练过程。 DualPipe 算法:DeepSeek V3 设计了 DualPipe 算法,用于高效的流水线并行。DualPipe 不仅可以减少流水线的气泡,还可以重叠计算和通信过程,从而解决跨节点专家并行带...

DeepSeek-V2又双叒升级了,最强开源模型!(DeepSeek-Chat-V2.1开源...

不久后,他们还发布了DeepSeek Coder V2模型,专注于编程,同样表现不俗。现在,他们又发布了DeepSeek V2聊天模型的更新版本,比之前更出色。模型更新就像之前的版本一样,这个更新版本也是一个由多个专家组成的模型,拥有 236B 参数,具有 128K 上下文限制,其中 21B 是活跃参数。虽然还有一个轻量版,只有 16B 参数,但...

国产GPU力挺开源DeepSeek,AI应用开发门槛降低

另一个值得关注的问题是：DeepSeek的开源，是否真的能打破国外巨头在AI领域的垄断地位？DeepSeek的出现，确实为国内AI产业带来了新的机遇。它提供了一个强大的基础模型，让国内企业可以在此基础上进行创新和发展，减少对国外技术的依赖。但这并不意味着就能立刻打破垄断。真正的挑战在于如何构建一个完整的AI生态，包括...

DeepSeek开源放大招:FlashMLA让H800算力狂飙!曝光低成本秘笈

【新智元导读】DeepSeek开源周第一天就放大招！FlashMLA强势登场，这是专为英伟达Hopper GPU打造MLA解码内核。注意，DeepSeek训练成本极低的两大关键，一个是MoE，另一个就是MLA。就在刚刚，DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长...

DeepSeek开源周第二日:开源DeepEP通信库

钛媒体App 2月25日消息,DeepSeek官宣,今日开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。特点有:高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。

最强开源大模型:DeepSeek V3,它来了!_deepseek应用场景-CSDN博客

2024年12月26日,DeepSeek正式发布了其最新一代大型语言模型:DeepSeek-V3。这一模型的发布不仅标志着DeepSeek在AGI(人工通用智能)探索道路上的又一里程碑,也再次证明了其在开源AI领域的领先地位。从V2.5到V3,DeepSeek仅用了短短几个月的时间,便完成了从通用与代码能力融合到全面性能突破的跨越。