Qwythos-9B:Claude Mythos 风格推理模型,4GB 显存即可本地部署

开源大模型生态再次迎来高性能推理利器。近期发布的 Qwythos-9B-Claude-Mythos-5-1M 引起了本地 AI 社区的广泛关注。该模型通过后训练技术,将 Claude Mythos 和 Claude Fable 的高质量推理能力成功迁移至 9B 参数规模,在保证轻量化部署的同时,提供了极强的逻辑推理与长文本处理能力。


核心特性

  • Claude 风格推理: 基于 Qwen3.5-9B 架构,利用超过 5 亿条高质量推理轨迹进行后训练,具备完整的思维链(Chain of Thought)表现。
  • 百万级上下文: 原生支持 1,048,576 Token 超长上下文窗口,适用于长文档分析、代码库阅读及复杂 Agent 工作流。
  • 极致轻量: 提供 GGUF 格式,支持多种本地部署工具,最低仅需 4GB 显存即可运行。
  • 多模态能力: 同步发布视觉投影文件,支持图片分析、OCR 及图表理解。
  • 标准兼容: 支持原生 Function Calling,可直接对接各类工具与 Agent 系统。

性能表现简述

根据开发团队 Empero AI 公布的数据,Qwythos 在推理基准测试中表现出色:

基准测试性能提升
MMLU (知识理解)+34 分
GSM8K Strict (数学推理)+30 分
GSM8K Flex (复杂逻辑)+19 分

部署指南

Qwythos 提供 GGUF 版本,推荐使用 llama.cppOpenWebUICherry StudioOpenClaw 进行部署。

显存需求参考

推荐量化版本建议显存
Q4_K_M4GB
Q5_K_M6GB
Q6_K8GB
Q8_K_M12GB
BF16 (全精度)24GB

快速部署步骤

  1. 准备模型:

    (1)下载Qwythos模型

    Huggingface】或 【打包下载】或 【备用下载】对应的 GGUF 模型文件及视觉投影文件(mmproj)。

    (2)安装llama.cpp

    下载方式:GitHub 下载【点击前往】、或【备用下载】、【网盘下载】 内含启动脚本

    (3)一键启动脚本【点击下载】或 【备用下载

  2. 设置目录: 在本地创建 models 文件夹,并将下载的模型文件存入其中。

  3. 运行环境: 使用 llama-server 启动服务,监听本地端口(如 127.0.0.1:8080),即可通过 OpenAI 兼容接口连接至你的前端工具。

提示: 针对不同显存配置,建议合理分配上下文长度(Context Length),以确保最佳推理速度与显存占用平衡。


总结

Qwythos-9B 证明了轻量化模型在深度推理与长文本任务上的潜力。对于追求高性价比本地部署方案,或需要处理海量文档、复杂代码项目的开发者而言,这款模型是目前 9B 参数级别中极具竞争力的选择。