|
马上注册,享用更多功能,让你轻松玩转本论坛。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
华鑫证券主要观点如下:
参数效率范式级跃迁:20倍压缩比突破物理极限
QwQ-32B在数学、代码及通用能力上实现质的飞跃,整体性能比肩DeepSeek-R1。QwQ-32B模型拥有320亿参数,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。在保持强劲性能的同时,QwQ-32B还大幅降低了部署使用成本,在消费级显卡上也能实现本地部署。在一系列权威基准测试中,千问QwQ-32B模型都表现出色,几乎完全超越了OpenAI去年9月发布的尺寸相近的o1-mini模型,比肩最强开源推理模型DeepSeek-R1。在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型。
训练方法论革新:结果导向型强化学习体系
QwQ-32BQ基于通过冷启动预训练+任务结果反哺的闭环架构,结合动态奖励模型与规则验证双引擎驱动,在32B参数规模下实现推理能力跃迁。该模型在评估代码能力的LiveCodeBench测试中取得了,与DeepSeek-R1表现相当,印证了大规模强化学习对性能的倍增效应。其智能体模块集成工具调用与环境反馈机制,支持基于外部反馈的批判性思考链生成。强化学习的闭环架构使模型在消费级显卡上实现高性能与低资源消耗的协同突破。 |
|