DeepSeek开源新模型

DeepSeek-R1 更新,思考更深,推理更强 | DeepSeek API Docs

模型参数为 685B(其中 14B 为 MTP 层),开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。 DeepSeek-R1-0528 模型权重下载请参考: Model Scope:https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528 Huggingface:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 与旧版本的 DeepSeek-R1 保持一致,此次我们的开源仓库...

太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切

DeepSeek 表示，DeepSeek-OCR 模型是通过光学二维映射技术压缩长文本上下文可行性的初步探索。该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎，既能保持高分辨率输入下的低激活状态，又能实现高压缩比，从而生成数量适中的视觉 token。实验数据显示，当文本 ...

DeepSeek Janus - 百度百科

DeepSeek Janus是中国人工智能公司DeepSeek于2025年1月28日推出的开源多模态模型系列。其中，70亿参数版本Janus-Pro-7B在文本到图像生成测试中表现突出，超越了OpenAI的DALL-E 3和Stability AI的Stable Diffusion。该模型不仅在多模态理解和文本到图像的指令遵循能力上实现显著提升，还增强了文本到图像生成的稳定性，是...

DeepSeek团队开源新模型DeepSeek-OCR:少量视觉token完成海量文本...

DeepSeek团队开源新模型DeepSeek-OCR：少量视觉token完成海量文本压缩 DeepSeek-AI 团队发布《DeepSeek-OCR：Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法。Hugging Face 页面显示，该模型的参数量为3B。

刚刚,DeepSeek新模型开源!五大能力变化明显,附一手体验 - 知乎

刚刚,DeepSeek新模型开源!五大能力变化明显,附一手体验智东西作者| 陈骏达编辑| 心缘智东西8月20日报道,昨日晚间,DeepSeek在官方群宣布:DeepSeek线上版本模型已升级至DeepSeek V3.1,上下文窗口从原有的64k扩展至128k,网页、App、小程序都可体验这一模型。

重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个

DeepSeek再发新模型！Github上，DeepSeek新建了DeepSeek-OCR仓库，目的是探索视觉-文本压缩的边界。常言道：一图胜万言。对LLM也是如此！在理论上，DeepSeek-OCR模型初步验证了「上下文光学压缩」的可行性——从少量视觉token中，模型能够有效解码出超过其数量10倍的文本token。也就是说，包含文档文本的单张图像，能以...

DeepSeek团队开源新模型DeepSeek-OCR

DeepSeek团队开源新模型DeepSeek-OCR DeepSeek-AI 团队发布《DeepSeek-OCR：Contexts Optical Compression》论文，提出利用视觉模态压缩长文本上下文的新方法。(本文来自第一财经)

DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪

另外，论文提到，使用DSA的模型在处理128K长上下文时，推理成本显著低于DeepSeek-V3.1-Terminus，尤其在解码阶段。TileLang & CUDA双版本算子开源 DeepSeek还表示，在新模型研发过程中，需要设计和实现很多新的GPU算子。他们使用高级语言TileLang进行快速原型开发，并在最后阶段，以TileLang作为精度基线，逐步使用底层语言...

DeepSeek开源新模型,华为AI芯片量产,干翻英伟达节奏_华为deepseek.最新...

DeepSeek开源新模型Prover-V2-671B 2025年4月30日,DeepSeek 与AI开源社区Hugging Face发布了DeepSeek-Prover-V2-671B新模型,不是V3的升级版V4、也不是R2,DeepSeek-Prover是一个定理证明模型,专注于数学推理和定理证明。该模型专为Lean 4形式化定理证明系统设计,通过递归分解与强化学习技术,首次实现非形式化数学推...

DeepSeek开源新模型! - 知乎

今天,DeepSeek发布并开源DeepSeek-V3.2-Exp,是一个实验性的版本,用于探索下一代架构。据官方称,V3.2-Exp是在V3.1-Terminus的基础上引入了DeepSeek稀疏注意力(DeepSeek Sparse Attention,DSA)机制,专门针对长文本场景的训练和推理效率进行了探索性的优化和验证。 DSA首次实现了细粒度稀疏注

价格直接腰斩!DeepSeek开源秘密新模型,AI 1.0时代已结束!

值得注意的是，DeepSeek此次开源并不仅仅意味着模型权重的公开。其官方透露，在新模型研发过程中，团队使用了自研的高级语言TileLang进行算子层面的快速原型开发，并在最终阶段输出了TileLang与CUDA两个版本的算子实现。这一做法极大方便了社区研究者进行实验、调试和迭代，也体现出DeepSeek推动技术民主化的决心。几乎同一...

DeepSeek放大招!开源新模型直降API价格50%

你还在为高昂的AI接口费用发愁吗？国产大模型DeepSeek刚刚扔出一颗"重磅炸弹"——最新V3.2-Exp模型不仅全开源，API价格更是腰斩！这波操作背后，藏着怎样的技术密码？DeepSeek-V3.2-Exp最引人注目的创新，莫过于其自主研发的DeepSeekSparseAttention（DSA）稀疏注意力机制。这项技术并非简单模仿国外方案，而是开创...

DeepSeek-R1-0528:开源模型的性能跃迁与技术革新-CSDN博客

DeepSeek-R1-0528是DeepSeek-R1系列的最新迭代版本,基于2024年12月发布的DeepSeek V3 Base模型进行深度优化。其核心架构延续了稀疏混合专家(Sparse Mixture-of-Experts, MoE)设计,总参数规模从6710亿扩展至6850亿(含14BMTP层),其中推理时仅激活370亿参数,显著降低显存占用并提升计算效率。模型支持128K上下文窗口,可处...

DeepSeek放大招!发布新模型并开源,API价格大幅下调!_-Exp_推理_版本

发布新模型并开源,API价格大幅下调! 9月29日,DeepSeek-V3.2-Exp模型正式在Hugging Face平台发布并开源。该版本作为迈向下一代架构的重要中间步骤,在 V3.1-Terminus 的基础上引入了团队自研的 DeepSeek Sparse Attention (DSA) 稀疏注意力机制,旨在对长文本的训练和推理效率进行探索性优化与验证。这种架构能够降低...

DeepSeek团队开源新模型DeepSeek-OCR:少量视觉tok

DeepSeek团队开源新模型DeepSeek-OCR：少量视觉tok 新榜讯 DeepSeek - AI团队重磅发布《DeepSeek - OCR：Contexts Optical Compression》论文，创新性地提出利用视觉模态压缩长文本上下文的全新方法。据Hugging Face页面信息显示，此模型参数量达3B。（财联社）

DeepSeek大语言模型算法 - 百度百科

与现有的开源密集模型和基于MoE的模型相比，DeepSeek-VL2在相似或更少的激活参数下实现了具有竞争力或最先进的性能。2024年12月26日晚，AI公司深度求索（DeepSeek）正式上线全新系列模型DeepSeek-V3首个版本并同步开源。DeepSeek-V3在知识类任务（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2...

DeepSeek-V2 - 百度百科

DeepSeek-V2是由幻方量化旗下的杭州深度求索人工智能基础技术研究有限公司于2024年5月7日推出的第二代开源MoE大模型。该模型采用MLA（Multi-head Latent Attention）架构，大幅减少计算量和推理显存需求，实现2360亿总参数中每个token仅激活210亿参数。其中文综合能力与GPT-4-Turbo、文心4.0同处第一梯队，英文能力与...

最强开源大模型:DeepSeek V3,它来了!_deepseek应用场景-CSDN博客

结语:开源AI的新标杆 DeepSeek-V3的发布不仅是技术的一次飞跃,更是开源精神的体现。它不仅在性能上与世界顶尖的闭源模型媲美,更以开源的方式推动了人工智能技术的普惠发展,是当之无愧的国产之光! 未来,相信DeepSeek将会继续在AGI探索的道路上砥砺前行,为AI领域带来更多创新与突破。

DeepSeek新模型开源降价,王健林限高令火速解除! - 知乎

DeepSeek新模型开源降价, 王健林限高令火速解除,DeepSeek-V3.2-Exp发布并开源API同步降价。本次发布的核心突破在于引入了稀疏注意力机制,这是一种更高效的模型架构,能显著降低处理长文本时的计算资源消耗,并…