找回密码
 立即注册

QQ登录

只需一步,快速开始

广告载入中...
查看: 328|回复: 5

DeepSeek推出NSA 用于超快速的长上下文训练和推理

[复制链接]
发表于 2025-2-18 16:38 | 显示全部楼层 |阅读模式

马上注册,享用更多功能,让你轻松玩转本论坛。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
财联社2月18日电,DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好。
 楼主| 发表于 2025-2-18 16:39 | 显示全部楼层
DeepSeek推出NSA 用于超快速的长上下文训练和推理
回复

使用道具 举报

发表于 2025-2-18 20:33 | 显示全部楼层
好好学习天天向上
回复

使用道具 举报

发表于 2025-2-19 00:07 | 显示全部楼层
好好学习天天向上
回复

使用道具 举报

发表于 2025-2-19 10:04 | 显示全部楼层
一般基准测试、长上下文任务和基于指令的推理上,它的表现与完全注意力模型相当甚至更好
回复

使用道具 举报

发表于 2025-2-19 10:24 | 显示全部楼层
感谢提供信息分享。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表