热议!DeepSeek V3.1惊现神秘「极」字 Bug,模型故障了?|Reddit|...
经过这差不多一周时间的真实用户测试,DeepSeek-V3.1 却被发现存在一个相当让人无语的问题:其某些输出 token 会被随机替换为「极」。 具体来说,据知乎用户 Fun10165 描述,她在调用火山引擎版 DeepSeek V3.1 帮助整理一份物理试卷时发现,该模型的输出中会莫名出现一些「极」字。 图源:知乎 @Fun10165 而后面在 Trae
...请立即停止在编码或数据精度较高的场景使用!DeepSeek V3.1...
DeepSeek V3.1 这次可能栽在两个技术点上:一是分词器更新时没校准好 "极" 字的编码,二是 FP8 格式压缩数据时把某个特征误判成了 "极" 字信号。三是没有洗干净数据。 静默发布的代价:小 bug 暴露大问题 不同于其他厂商的开发布会,DeepSeek 选择用 Hugging Face 上线的方式低调发布 V3.1。这种 "让产品自...
DeepSeek V3.1 突现离谱 Bug:「极」字满屏乱蹦,开发者一脸懵逼...
DeepSeek 的「极」字 Bug 和 Gemini 的循环事故,都在提醒我们:工程的稳定性不应该被忽略,是那种即使犯错也能被预测和控制的「确定性」。
深夜拆机!中国工程师在DeepSeek代码里挖出“人脑外挂”,硅谷哗然了!
8月20日深夜,DeepSeek社区论坛的版主“Rookie”发出一条爆炸性帖子:“V3.1藏了4个神秘令牌,其中两个彻底改变游戏规则!”他拆解模型代码时发现,DeepSeek-V3.1架构中嵌入了四个特殊令牌:Search Token(实时联网抓取信息)和Thinking Token(内部多步推理生成逻辑链)。 这组设计让模型能像人类一样“边查边想...
DeepSeek回应“崩了”
据用户反映,此次故障从5月12日晚间开始蔓延,部分用户无法访问DeepSeek的对话界面,已生成的对话记录也出现丢失。社交媒体上,“DeepSeek崩了”话题阅读量迅速突破千万,有用户调侃称“刚充值的会员还没用就卡成‘电子盆栽’”,更有企业用户抱怨因API服务中断导致业务进度受阻。对此,DeepSeek官方在13日的声明中承认...
DeepSeek 出现严重漏洞!一个问题直接导致无限循环
北大团队也在本地部署了 DeepSeek 1.5B 蒸馏小模型进行测试该问题,发现在思考这个问题的时候,GPU 几乎被占满,4090 显卡严重发热过载。虽然想解决这个问题也很简单,但这也反映了 DeepSeek 这种新模型确实还需要多次迭代打磨,我们理解任何软件都会有 BUG ,但这种低级问题确实不太应该。
DeepSeek发布V3.1版本,为国产新一代芯片做好准备 中国AI明星企业Deep...
中国AI明星企业DeepSeek发布了其旗舰大语言模型的更新版本,该公司声称这一新版本已针对即将推出的新一代国产芯片进行了优化。 据DeepSeek介绍,该公司使用UE8M0数据类型训练了新的V3.1模型,这是对英伟达等公司已支持的FP8格式的扩展。在微信评论中,该组织澄清这一改变是为了迎接新一代芯片。"UE8M0 FP8是为即将发布的...
DeepSeek V3.1真相:所谓升级只是愿意多烧算力,网友被误导
最近DeepSeek出了个V3.1版本,说是升级了模型。但用过的人发现,这更新好像没想象中好。官方微信群里说这次把上下文扩展到128K,可实际上老版本早就支持这个功能了,只是之前API限制在64K。很多人被自媒体带节奏,以为这是大突破,其实不过是官方愿意多烧点算力而已。我试了下新模型,感觉对话能力确实有点进步,但...
DeepSeek-V3.1突然...@小瑞说时事的动态
DeepSeek-V3.1突然发布!推理速度快到离谱,程序员集体沸腾了! AI圈又有新动静了!8月21日,国内知名人工智能企业深度求索(DeepSeek)正式发布了升级版模型——DeepSeek-V3.1。这次更新可不是小打小闹,而是实打实地提升了模型的“思考能力”和响应速度。一句话概括:它变得更聪明、更快、也更省钱了! 先来看看这次升级...
DeepSeek崩了?官方回应来了!网友:这次真不怪它
其实这已经不是DeepSeek 第一次 罢工 早在今年1月底 它就因为新模型上线被挤爆 当时官方解释是流量暴增导致服务器过载 没想到时隔三个月 同样的问题又来了 有内部员工悄悄透露 用户增长太快 算力根本跟不上 更让人意外的是 这次崩溃背后可能另有隐情
DeepSeek又更新了!我帮你们试了一下,一言难尽……
优势:编程能力强且成本极低 在编程能力上,据网友曝光,DeepSeek V3.1 在 Aider Polyglot 多语言编程测试中,以 71.6% 分举击败了 Claude 4 Opus,而且价格仅是后者的 1/64。 我们再来看看 DeepSeek 官方给出的数据,V3.1在代码修复和命令行终端评测中,相比旧版模型有明显提高。
DeepSeek-V3.1来了!这次到底升级什么?-CSDN博客
最近,国产顶级大模型 DeepSeek-V3 悄悄迎来了它的 3.1 版本升级。对于咱们普通用户来说,这次升级到底有什么变化?是变强了还是变弱了?今天就用大白话给大家盘一盘。 核心升级点:它到底“更新”了哪里? 你可以把大模型的升级想象成手机的系統更新,通常是“修复bug”和“增加新功能”。DeepSeek-V3.1 的升级主要体...
DeepSeek-V3.1模型发布!A股最新DeepSeek概念股一览
8月21日,业界千呼万唤的R2模型没来,但DeepSeek官方正式发布了新模型V3.1。从命名来看这或许不是一次大的版本更新,更像是前一代DeepSeek-V3模型的小版本迭代。DeepSeek的进步对于A股相关的概念股票来说是一个利好的消息,如果具体到使用的场景,各家恐怕都不同,不过我们不关注这些,重点关注是否有资金借助...
DeepSeek终于还是没憋住! DeepSeek终于发布新版本了!虽然不是大家期待...
V3.1的Base模型在V3的基础上重新做了外扩训练,一共增加训练了840B tokens。 Base 模型与后训练模型均已在 Huggingface 与魔搭开源。 特别重要的一点是这一版的DeepSeek调整了分词器与chat template,这意味着如果需要做模型微调,需要对齐新的分词器,API调用也需要更新chat template。
DeepSeek又崩了!深夜瘫痪3小时,这是扛不住了?
但根据目前DeepSeek官网最新发布的公告,DeepSeek的网页服务以及API接口均已恢复正常使用。其实在今年上半年,DeepSeek也曾出现过不少类似故障。小雷认为这可能是系统流量攀升至峰值后,触发了相关保护机制所导致的。不过话说回来,最近针对Deepseek的负面反馈好像是越来越多了。曾经红极一时、备受大家追捧的AI应用,真的...
DeepSeek回应“崩了”,科技,信息技术,好看视频
大模型微调依赖人工标注,突发流量下模型泛化不足,服务崩了不奇怪。监督学习过度拟合标注数据,遇到边缘场景就露馅。 2025-05-13回复 没有更多评论了哦~ 全网热点 王楚钦4-0横扫张本智和491.2w 河北小伙考上加拿大公务员489.9w 村民不满古镇收门票487.8w 朱广权对高温天“下嘴”了486.3w 朱雨玲回应女单夺冠485.2w ...
DeepSeek V3.1 开源发布,我们从配置文件里扒出了这些猛料,不只是混合...
昨夜,DeepSeek V3.1 模型悄然登陆 Hugging Face。DeepSeek 团队再次上演‘经典操作’:微信群通知、夜间上传、没有模型卡!一切靠开发者自己‘动手丰衣足食’。不过别急,这正是乐趣所在……我们通过对比不同版本的模型库,发现了三项至关重要的架构升级,这可能是近期最值得关注的国产大模型迭代。 HF 地址:https://hu...
如何评价 DeepSeek 于 2025 年 8 月 19 日更新的 V3.1 版本? - 知乎
答案直指一个让无数开发者和研究者既兴奋又纠结的方向:模型融合。种种迹象表明,DeepSeek V3.1极有可能将原先独立对话模型(V3)和推理模型(R1)给“融”到了一起。最直观的证据就是文章开头提到的“身份认知错误”。无论是网页端打开深度思考模式,还是直接调用deepseek-reasoner的 API,新模型都坚定地
DeepSeek更新!速览DeepSeek V3.1新特性 - 知乎
速览DeepSeek V3.1新特性 前言 又是在毫无征兆的情况下,距离DeepSeek-V3-0324模型发布近半年之后,全新一代的DeepSeek-V3.1正式上线。 自从今年1月底DeepSeek-R1模型发布以来,DeepSeek就一直以小幅更新的方式低调更新着模型,先是在今年三月份更新了DeepSeek_V3_0324模型,然后又在五月底更新了DeepSeek-R1-0528模型...