英特尔AutoRound算法落地：支持英伟达CUDA及自家GPU

英特尔 AutoRound 算法落地:支持英伟达 CUDA 及自家 GPU

IT之家消息，当地时间 12 月 8 日，英特尔宣布将 AutoRound 算法集成到 LLM Compressor，以提升低比特量化大模型的性能与效率。该算法可在保持模型准确度的前提下，实现更快、更轻量的推理，同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。此外，英特尔未来推出的“Crescent Island”

英特尔AutoRound算法落地:支持英伟达CUDA及自家GPU_ZAKER新闻

IT 之家 12 月 9 日消息,当地时间 12 月 8 日,英特尔宣布将 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能与效率。该算法可在保持模型准确度的前提下,实现更快、更轻量的推理,同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。此外,英特尔未来推出的 "Crescent Island" 系...

英特尔AutoRound算法落地:支持英伟达CUDA及自家GPU_量化_模型_推理

IT之家 12 月 9 日消息,当地时间 12 月 8 日,英特尔宣布将 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能与效率。该算法可在保持模型准确度的前提下,实现更快、更轻量的推理,同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。此外,英特尔未来推出的“Crescent Island”系列...

英特尔® Automotive 解决方案

这种方法简化了开发过程,因为软件在集成 GPU 和独立 GPU 之间完全兼容。 dGPU 情况说明:面向汽车行业的全新独立 GPU 将在 2025 年提升车载 AI 能力。电动汽车 (EV) 领先地位利用英特尔与 SAE 和著名汽车制造商的合作提高电源效率。英特尔凭借数十年的能源管理创新经验,率先制定了电动汽车标准,并提供了更完善的...

英特尔AutoRound算法落地:支持英伟达CUDA及自家GPU__财经头条...

IT之家 12 月 9 日消息,当地时间 12 月 8 日,英特尔宣布将 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能与效率。该算法可在保持模型准确度的前提下,实现更快、更轻量的推理,同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。

vLLM - 量化 - AutoRound_vllm量化-CSDN博客

AutoRound是英特尔推出的先进量化算法,旨在生成高效的INT2、INT3、INT4 和 INT8量化大型语言模型,在准确性和部署性能之间实现最佳平衡。 AutoRound 对基于Transformer的模型应用仅权重量化技术,在保持接近原始模型准确性的同时,显著节省内存并加速推理。它支持多种硬件平台,包括CPU、英特尔GPU、HPU(神经拟态处理器)以及支...

SOTA LLM INT4 算法AutoRound已发布 - 知乎

广泛的模型支持:AutoRound 适用于多种模型系列,已验证约 20 个模型族。部署灵活性:轻松将量化模型导出为 ITREX[5] 和 AutoGPTQ[6] 格式,以分别实现在 Intel CPU 和 Nvidia GPU 平台上的无缝部署 Tuning设备兼容性:可以在 Intel Guadi2、Intel CPU 和 Nvidia GPU 上进行微调已量化模型/定制超参:公开了...

英特尔AutoRound算法落地:支持英伟达CUDA及自家GPU|gpu|处理器|知名...

IT之家 12 月 9 日消息,当地时间 12 月 8 日,英特尔宣布将 AutoRound 算法集成到 LLM Compressor,以提升低比特量化大模型的性能与效率。该算法可在保持模型准确度的前提下,实现更快、更轻量的推理,同时兼容包括英特尔自家 GPU 与英伟达 CUDA 在内的多硬件平台。

英特尔全栈方案支持“大小脑”融合,卓越 AI 性能支持广泛算法,赋能具身智能落地。并有多种性能成本选项,覆盖主流场景。 This is a modal window. The Playback API request failed for an unknown reason Error Code: VIDEO_CLOUD_ERR_UNKNOWN Technical details : Unknown catalog request error. Session ID: 2025...

LLM 量化算法AutoRound 0.3 发布及原理浅析 - 知乎

AutoRound V0.3 特性支持了更多的设备:AutoRound格式支持CPU、HPU和CUDA推理,并且解决了2-bit kernel精度问题模型量化recipe:在低比特开源LLM排行上发布了不少模型recipe,另外发布了少量QWEN2的量化模型。由于公司政策问题,发布模型都要很长时间的审核,因此大部分的量化模型不能发布。

英特尔 AutoRound:用于大语言模型的高精度低比特量化方法-CSDN博客

英特尔在优化量化算法研究领域同样表现活跃。他们提出了采用符号梯度下降(SignSD)的新型量化方法 AutoRound。该方案在低比特量化中尤其精准,且量化速度远超多数同类方法。本文将对 AutoRound 进行技术解析。我们将了解其工作原理,以及如何以最小精度损失对 LLMs(如Llama3)实施量化。经实测发现,Auto

多款英特尔锐炫多卡方案上线,让全场景AI部署更高效 – 新闻发布室

2025年10月16日,深圳——在今日举行的湾区半导体大会上,英特尔发表了题为《英特尔锐炫多卡方案助阵AI应用落地部署》的演讲。演讲着重阐释了英特尔为加速企业AI部署所推出的创新路径——通过打造基于英特尔锐炫多卡的Battlematrix(战斗阵列)推理工作站平台,突破单GPU的算力和应用瓶颈,为从边缘、工作站到服务器的广...

transformers v4.52.1全面升级:多模态Qwen2.5-Omni引领AI新风口...

此外,本版本还融合了包括AutoRound在内的先进量化算法,支持更多硬件和分布式策略,同时焕新了图像处理速度,增强了对GPU、XPU等多类芯片的支持度。下面,我们将分模块详细解读。二、重磅新模型深度剖析 1. Qwen2.5-Omni:开启真正的统一多模态新时代 Qwen2.5-Omni是由阿里巴巴Qwen团队推出的端到端多模态模型,能够同时...

如何让AI PC落到实处?英特尔的做法很难被模仿

那么这意味着什么？站在开发者的角度来说，这就代表他们不需要针对不同的英特尔硬件去反复切换开发工具，而是可以用一套解决方案就完成从模型训练、蒸馏，到低算力设备端侧部署的整个流程。要知道，当前虽然所有的PC厂商都在喊“AI加速”，但有些品牌甚至自家NPU和自家GPU都还做不到共用一套AI开发工具。那么在这样的...

英特尔推AutoRound算法提升大模型量化效率- DoNews快讯

当地时间12月8日,英特尔宣布将AutoRound算法集成至LLM Compressor,以优化大语言模型的低比特量化性能。该技术通过引入可训练参数与符号梯度下降法,在保持模型精度的同时实现更高效推理,并支持W4A16、FP8等多种数据格式。AutoRound兼容英特尔Xeon处理器、Gaudi加速器、数据中心GPU及CUDA生态GPU,未来“Crescent Island”GPU将原...

英特尔锐炫“战斗阵列”登场:多卡方案重塑企业级AI部署新格局 - 知乎

其次,英特尔引入了GPU over fabric通信协议,支持跨服务器的显卡集群扩展。这意味着用户可以轻松构建分布式AI基础设施,而无需复杂的网络配置。相比NVIDIA的NVLink等专有技术,英特尔的方案更注重开放性和兼容性,能与第三方硬件无缝集成。性能之外,英特尔还强调了软件生态的支撑。OneAPI框架统一支持PyTorch、vLLM、OneDNN、...

英特尔生态合作如何驱动企业 AI 落地。

英特尔使用 cookie 和类似工具让您充分利用我们的网站、提升您的体验,并提供我们的服务。我们也使用 cookie 来了解访客如何使用我们的服务,以便进行改进,并联系您开展营销推广和销售等沟通。要了解更多有关英特尔如何使用个人信息或如何管理设置的详情,您可以访问英特尔的隐私和Cookie声明。

采用英特尔® 技术的计算机系统和设备

英特尔锐炫™ 显卡:英特尔锐炫™ 显卡仅适用于部分英特尔® 酷睿™ Ultra 处理器 (第二代), 系统;具有最低处理器功率要求。需要原始设备制造商 (OEM) 支持。向原始设备制造商或零售商咨询系统配置。 3 基于英特尔 Evo 设计在日常使用场景中,执行典型工作流程时经验证的真实场景电池续航时间。个别系统的结果...

AutoRound:4比特量化的精度突破-CSDN博客

核心观点:AutoRound是一种基于SignSGD(符号梯度下降)的低比特量化方法,能够在保持高精度的同时显著加快量化速度,尤其在4比特量化中表现优异,特别是在Llama3模型上,其精度显著优于其他量化方法如GPTQ和HQQ。详细分析: AutoRound是一种由Intel提出的低比特量化方法,它基于SignSGD(符号梯度下降)优化算法,旨在在保持模型高...

英特尔锐炫显卡助力AI落地:多GPU扩展支持大参数模型推理 - 新闻...

2025年6月19日,上海——在MWC 25上海期间,英特尔展示了一幅由英特尔锐炫™Pro B系列GPU所驱动的“实时响应、安全高效、成本可控”的边缘AI图景。英特尔客户端计算事业部边缘计算CTO、高级首席AI工程师张宇博士在MWC AI终端峰会上指出,边缘将崛起为AI落地的核心场景,而英特尔精准捕捉和把握这一趋势,依托包括英特尔...