找回密码
 立即注册

QQ登录

只需一步,快速开始

广告载入中...
查看: 257|回复: 2

资讯

[复制链接]
发表于 2025-3-13 06:47 来自手机 | 显示全部楼层 |阅读模式

马上注册,享用更多功能,让你轻松玩转本论坛。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
华鑫证券主要观点如下:

参数效率范式级跃迁:20倍压缩比突破物理极限

QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩De­e­p­S­e­ek-R1。QwQ-32B模型拥有320亿参数,其性能可与具备6710亿参数(其中370亿被激活)的De­e­p­S­e­ek-R1媲美。在保持强劲性能的同时,QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。在一系列权威基准测试中,千问QwQ-32B模型都表现出色,几乎完全超越了Op­e­n­AI去年9月发布的尺寸相近的o1-mi­ni模型,比肩最强开源推理模型De­e­p­S­e­ek-R1。在测试数学能力的AI­ME24评测集上,以及评估代码能力的Li­v­e­C­o­d­e­B­e­n­ch中,QwQ-32B表现与De­e­p­S­e­ek-R1相当,远胜于o1-mi­ni及相同尺寸的R1蒸馏模型。

训练方法论革新:结果导向型强化学习体系

QwQ-32BQ基于通过冷启动预训练+任务结果反哺的闭环架构,结合动态奖励模型与规则验证双引擎驱动,在32B参数规模下实现推理能力跃迁。该模型在评估代码能力的Li­v­e­C­o­d­e­B­e­n­ch测试中取得了,与De­e­p­S­e­ek-R1表现相当,印证了大规模强化学习对性能的倍增效应。其智能体模块集成工具调用与环境反馈机制,支持基于外部反馈的批判性思考链生成。强化学习的闭环架构使模型在消费级显卡上实现高性能与低资源消耗的协同突破。
发表于 2025-3-13 07:44 来自手机 | 显示全部楼层
谢谢分享,学习了。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表