编程学习网 > IT圈内 > 字节跳动推出开源AI模型Seed-OSS-36B 支持高达512K上下文可以处理极长的内容
2025
09-01

字节跳动推出开源AI模型Seed-OSS-36B 支持高达512K上下文可以处理极长的内容


字节跳动人工智能团队 Seed Team 向 HuggingFace 提交拉取请求准备推出 Seed-OSS 模型,现在字节跳动已经发布 Seed-OSS-36B 系列模型。

Seed 系列模型已经被字节跳动用于豆包聊天机器人等产品,此次开源的 Seed-OSS 可能是字节跳动基于 Seed 专门准备的开源版本,目前尚不清楚 Seed 与 Seed-OSS 之间有多大差距。

此次发布的 Seed-OSS-36B 版有以下权重:

  • Seed-OSS-36B-Base 含合成数据
  • Seed-OSS-36B-Base 不含合成数据
  • Seed-OSS-36B-Instruct

其中合成数据版通过额外的指令数据进行训练可以提供更高的基准测试分数,也可以被视为是更高效的通用模型;不含合成数据版则为 AI 模型研究者提供一个无偏见且适合基础研究工作的干净模型。

Seed-OSS-36B-Instruct 版则是进行额外训练并优先考虑任务执行和指令遵循,这与其他版本的基础模型相比有着明显区别,开发者可以根据自己的需要选择不同的模型。

采用 Apache-2.0 许可证发布:

此次字节跳动发布的 Seed-OSS-36B 系列采用行业主流的 Apache-2.0 许可证,这意味着无论是开发者还是企业都可以免费使用模型、修改模型或基于该模型进行改进并重新分发,可以用于商业应用而不需要向字节跳动支付任何许可费用。

模型技术架构设计:

Seed-OSS-36B 结合因果语言建模、分组查询注意力机制、SwiGLU 激活函数、RMSNorm 及 RoPE 位置编码等成熟设计,36B 参数分布于 64 个层级,支持 155,000 个词的词汇量。

还有个显著特点是该模型支持更大的上下文窗口,最大可以支持 512K 上下文,这相当于处理 1600 页文本,适合处理长文档和复杂推理链。

Seed-OSS-36B 的创新特点是引入了思维预算,允许开发者设置模型在回答前进行的推理量,不同的推理量可能影响模型智能程度或结果准确性,但更低的推理量可以获得更好的性能(响应速度更快)。

以上就是“字节跳动推出开源AI模型Seed-OSS-36B 支持高达512K上下文可以处理极长的内容的详细内容,想要了解更多IT圈内资讯欢迎持续关注编程学习网。

扫码二维码 获取免费视频学习资料

Python编程学习

查 看2022高级编程视频教程免费获取