Kimi K2思考模型来了！实测3分钟做精美网页，IMO数学题翻车

月之暗面Kimi数学竞赛能力全面评估:从代数到组合,从解题思路到IMO...

2024年11月16日,月之暗面发布了k0-math数学模型,这是Kimi推出的首款推理能力强化模型,采用了强化学习和思维链推理技术。该模型在中考、高考、考研以及包含竞赛题的MATH等数学基准测试中成绩超过了OpenAI的o1-mini和o1-preview模型。2024年12月16日,Kimi发布了"视觉思考模型"k1,支持端到端的图像理解

IMO数学竞赛第5题是何方神圣?大模型全军覆没了…_腾讯新闻

首先让我们欢迎本次接受试炼的大模型选手们,它们是来自国内外的高知名度的,非常有代表性的选手。它们分别是: Claude3.5、GPT-4o、Gemini Pro、文心一言4.0、通义千问qwen-Max、豆包、Kimi、智谱GLM-4-0520。此外,我还选择了一部分专攻数学的改进过的模型。包括: 国内首个数学大模型九章大模型MathGPT,以及上次A...

保姆级教程:正确使用Kimi K2满血Claude Code版,强到OpenAI不敢开源

同样是Claude4跑不出来的案例,Kimi K2生成的这个也是有bug,顶面和底面重叠了,动画本身还是非常流畅的。从这四个案例上看,Kimi K2的代码水平真没吹牛。 02|联网搜索通过MCP Servers,Kimi K2 版 Claude Code 还可以进行联网搜索,这次我就通过tavily作为搜索工具,考验Kimi K2的工具使用和信息整理能力。 Q5: 网页...

...EP35|编程|虚拟机|top|工作流|大模型|kimi|agent_网易订阅

比如前面提到的 Kimi 已经拥有 4000 万用户。我认为,在某些领域 AI 已经具备了「打工」能力,但整体收入仍远低于成本。我们需要保持耐心,毕竟 ChatGPT 问世也才两年。我们仍处在一个模型能力不断提升、解锁新应用场景的阶段。只有在应用场景产生足够多的价值之后,才能逐步开展商业化。 Koji:其实我觉得这一波技术扩散...

迈出“登月”第二步:Kimi比肩OpenAI o1最新技术,杨植麟聚焦做减法

同时,他指出,该数学推理模型的推出,一方面在教育产品、Kimi整体的流量里有非常大的价值;另一方面,该模型上的技术可以放在更多场景里,比如让Kimi探索版去做更多的搜索。 “最核心的是提升留存”,Kimi选择做减法在今年6月的一次媒体采访中,杨植麟多次以“聚焦”作为对创业思路、成功经验的回应,“在技术和产品上可能我...

Qwen又立功,全球最快开源模型诞生,超2000 tokens/秒_手机新浪网

而且“全球最快开源AI模型”之外,MBZUAI官方还称自家的K2 Think是“有史以来最先进的开源 AI 推理系统”。那么它的实力到底几何?我们继续往下看。实测速度均超过2000 tokens/秒目前,K2 Think已经给出了可以体验的地址(见文末)。我们先小试牛刀测试一把IMO的试题: ...

晚点播客丨IMO 金牌、Kimi 翻盘、抢人大战,与真格戴雨森复盘 2025...

戴雨森:确实过去这个周末发生了很多事情。我觉得最重要的一件是 OpenAI 的一个新模型,在 IMO(国际数学奥林匹克)2025 年的题目上获得了金牌级别的成绩。具体来说是六道题做对了五道。这个为什么重要呢?因为按照 OpenAI 的描述,这是一个没有联网的通用大语言模型,并且没有针对数学做特别优化,也没有用任何 Code ...

...开放AI模型,加速开源生态发展;Google Gemini 2.5 Pro在IMO...

Kimi K2千亿参数MoE模型发布,128k上下文,SOTA基准成绩:Kimi K2为1万亿参数Mixture-of-Experts Transformer(384专家,8活跃/Token,64注意力头),采用MuonClip优化器,上下文窗口扩展至128k,后训练阶段引入大规模agentic数据合成与基于rubric的RL,SWE-bench Verified 65.8%,LiveCodeBench v6 53.7%,GPQA-Diamond 75.1%,LMSYS...

首个1T参数开源推理模型来了! - 知乎

刚刚,蚂蚁的 inclusionAI 团队开源了首个1T参数开源推理模型Ring-1T-preview,之所以说它是首个,是因为之前开源的kimi-k2虽然参数量也是1T,但是不支持思考。 huggingface.co/inclusio 最近,蚂蚁的inclusionAI 团队全力推进了 Ling 2.0 的1T 级基础语言模型的后训练,目标是最大化这款万亿参数模型的自然语言推理能力。

挑战高考数学卷,十大模型测评来了:AI刷题强到可怕?-虎嗅网

排在最末尾的是Kimi k1.5,该模型在最后两道压轴大题上栽了大跟头,损失了大量的分数。综合所有测试情况来看,在处理有固定步骤和严密逻辑的数学问题上,AI推理大模型已经具备很强的能力。但在涉及抽象和创新思维的题目上,目前的大模型还存在一定的局限性。

51c大模型~合集163_whao143_aiot的技术博客_51CTO博客

文章特别指出,该系统「将被整合到未来主流模型的 RLHF(基于人类反馈的强化学习)流程中」。有人评论说,「证明者 - 验证者」训练方法不仅仅是一个小优化,它可能代表了 AI 发展的下一个时代。我们正在从一个依赖海量数据、靠「堆料」来提升性能的「scaling 时代」,转向一个通过设计更智能的内部学习机制、让 AI 自我完善和

Kimi AI 是真正的生产力工具,还是过度炒作的噱头? - 知乎

在财报分析方面，kimi是目前我遇到的最好用的AI之一，甚至优于诸多使用ChatGPT（3.5）接口的AI文档阅读...

...3登场,推理效率可达DeepSeek-R1 300%_模型_图片_应用

2025年,AI模型到底有多卷? 谷歌和OpenAI从年初开始「打生打死」,发布会一场接一场,最近OpenAI更是为了和谷歌DeepMind争夺「IMO金牌第一推理模型」互相撕脸。闭源模型们神仙打架,开源模型却是「格局已变」。开源模型这块,国内已经快一枝独秀了,DeepSeek、Qwen、StepFun、Kimi K2等成为海外讨论的焦点。曾经的开源...

...IR 导读01 大模型:Kimi发布万亿参数K2模型,并在定理证明领域超越...

01 大模型:Kimi发布万亿参数K2模型,并在定理证明领域超越DeepSeek获得SOTA成绩,同时智谱、OpenAI、Reka和Mistral也均有新模型动态。 02 基准:全球首个科研LLM竞技场SciArena上线,通过真实科研任务评测了23款模型,其中OpenAI的o3模型表现最佳。 03 评测:Grok 4在长文本召回测试中表现强劲,但其编程能力测试结果不佳,存在...

每日AI资讯、热点、动态、融资、产品发布 | AI工具集

AI工具集每日更新AI行业的最新资讯、新闻、热点、融资、产品动态,让你随时了解人工智能领域的最新趋势、更新突破和热门大事件。

Kimi K2 日调用量超100亿 token,API 价格低于 Claude 系列模型

‌未来方向‌:月之暗面表示将加入更高级的思考和视觉理解能力,进一步强化其作为通用Agent基础的地位随着多家科技公司(金山云、OpenRouter等)的快速接入,Kimi K2有望在编程辅助、自动化工作流等领域形成规模化应用,其"性能+价格"的双重优势可能重塑大语言模型的市场格局。

2025上半年AI性能巅峰对决:Kimi-K2、DeepSeek与Qwen3实测深度解析

简介:本文针对2025年上半年三大1T参数级大模型Kimi-K2、DeepSeek和Qwen3展开全面实测对比,从架构设计、推理效率、多模态能力等六大维度进行专业评测,结合企业级应用场景提出选型建议,并预测大模型技术未来发展趋势。千帆应用开发平台“多智能体协同Agent”全新上线限时免费体验面向慢思考场景,支持低代码配置的方式创建“...

基模下半场:开源、人才、模型评估,今天的关键问题到底是什么...

Kimi、Qwen、智谱的开源模型接力发布,Hugging Face 上中国模型基本垄断了热门榜。就在今天,阶跃星辰的 Step-3 也开源了。另外一方面,小扎疯狂挖人重新做 Llama,最近的公开信又暗示说 Llama 5 可能不会开源。开源模型的标准眼瞅着要变成中国模型,大模型的竞争实质上已经变成了中美 AI 的比拼。

招商证券-招商研究一周回顾-250725-yanbaohui

123、OpenAI新实验研究模型获IMO奥赛金牌招商研究一周回顾,数学学者陶哲轩发表长评。 124、OpenAI员工Ale招商研究一周回顾xanderWei和他的团队在7月20日的社交平台上宣称,他们所采用的一款最新的「通用推理模型」,成功获得了35/42的好成绩,并夺得了IMO2025的金牌。 125、KimiK2开源发布,大模型突破招商研究一周回顾带动...