官方下载

基于国产算力发布新模型，面壁智能要给端侧AI“做减法”

作者：admin 发布时间：2026-05-25 20:18:36

5月25日，面壁智能联合清华大学、OpenBMB开源社区发布并开源极低位宽模型BitCPM-CANN，系国内首个完全基于国产算力平台（华为昇腾）实现端到端训练并开源的三值（1.58-bit）大模型。

据记者了解，该模型包含0.5B、1B、3B、8B四个尺寸，与面壁同尺寸MiniCPM-4全精度家族相比，新模型在推理阶段可释放约6倍显存红利，模型能力保留率维持在90%至97.2%之间。

采访中，面壁智能AI Infra负责人李宇轩对记者表示，这意味着未来有望在手机上运行60B大模型，手机智能可以大幅提升。

该款模型诞生背景是全球内存价格的持续飙升。表现在市场端，据李宇轩透露，2026年以来内存价格已上涨约5倍，内存涨价倒逼厂商控制成本，进而限制设备内存大小，反向传导到所有要在内存里跑的模型应用程序。行业对于模型内存尺寸的要求压得更加严格，牵引整个Infra方向向更节约内存的路线优化，这也是此次面壁新模型结合市场情况调整的重要原因。

元股证券

伴随技术发展与市场需求，人工智能算法近年来持续侧重提效，只是每年市场关注点不同。李宇轩向记者表示，端侧大模型的行业共识约在2024年下半年形成——手机上以后一定会跑模型。此后，行业重心从“能不能跑”逐步转向“如何高效”。

将大模型从高精度压缩成更低精度、更少比特来展示，是AI Infra发展的核心方向。去年行业聚焦 FP8、FP4应用落地，如今FP8已成为主流模型标配，DeepSeek、MiniMax等均普遍采用。受内存价格上涨推动，行业重心转向FP4，并加速推进2-bit、1.58-bit技术落地。

如果说AI运行是货车物流，那么精度便代表货物打包方式，FP8如同标准纸箱，FP4类似真空压缩袋，2-bit为极致捆扎压缩，靠算法适配压缩形态，适配小型终端设备，最大限度节省空间功耗。只是相对前者，极低比特量化的精度损失风险更高，需要通过数据、架构、训练算法协同优化来弥补。

李宇轩称，极低比特模型对数据噪声更敏感，需做更严格的清洗与筛选，避免无效信息干扰模型学习；选用对称、带零点的高性能量化器可以减少压缩损耗；以及在训练层面采用先QAT （量化感知）训练、后大模型蒸馏的组合方案，找到训练与蒸馏的最优平衡点，既保证低比特训练稳定，又最大程度恢复模型能力。

行业内，高通从去年下半年已率先实现2-bit硬件支持，国内DeepSeek、智谱、阿里千问等模型厂商也在推进低位宽量化模式落地。硬件端，过去几乎所有低位宽训练都在英伟达卡上做，此次面壁智能与华为合作，李宇轩称，团队耗时约三周完成昇腾平台的适配与优化，最终实现较小开销。他认为，在8B以内尺寸模型训练上，昇腾体验已经比较好，训练稳定性、芯片利用率接近可比状态。