Qwythos-9B：Claude Mythos 风格推理模型，4GB 显存即可本地部署

开源大模型生态再次迎来高性能推理利器。近期发布的 Qwythos-9B-Claude-Mythos-5-1M 引起了本地 AI 社区的广泛关注。该模型通过后训练技术，将 Claude Mythos 和 Claude Fable 的高质量推理能力成功迁移至 9B 参数规模，在保证轻量化部署的同时，提供了极强的逻辑推理与长文本处理能力。

核心特性

Claude 风格推理： 基于 Qwen3.5-9B 架构，利用超过 5 亿条高质量推理轨迹进行后训练，具备完整的思维链（Chain of Thought）表现。
百万级上下文： 原生支持 1,048,576 Token 超长上下文窗口，适用于长文档分析、代码库阅读及复杂 Agent 工作流。
极致轻量： 提供 GGUF 格式，支持多种本地部署工具，最低仅需 4GB 显存即可运行。
多模态能力： 同步发布视觉投影文件，支持图片分析、OCR 及图表理解。
标准兼容： 支持原生 Function Calling，可直接对接各类工具与 Agent 系统。

性能表现简述

根据开发团队 Empero AI 公布的数据，Qwythos 在推理基准测试中表现出色：

基准测试	性能提升
MMLU (知识理解)	+34 分
GSM8K Strict (数学推理)	+30 分
GSM8K Flex (复杂逻辑)	+19 分

部署指南

Qwythos 提供 GGUF 版本，推荐使用 llama.cpp、OpenWebUI、Cherry Studio 或 OpenClaw 进行部署。

显存需求参考

推荐量化版本	建议显存
Q4_K_M	4GB
Q5_K_M	6GB
Q6_K	8GB
Q8_K_M	12GB
BF16 (全精度)	24GB

快速部署步骤

准备模型：
（1）下载Qwythos模型
【Huggingface】或【打包下载】或【备用下载】对应的 GGUF 模型文件及视觉投影文件（mmproj）。
（2）安装llama.cpp
下载方式：GitHub 下载【点击前往】、或【备用下载】、【网盘下载】内含启动脚本
（3）一键启动脚本【点击下载】或【备用下载】
设置目录： 在本地创建 models 文件夹，并将下载的模型文件存入其中。
运行环境： 使用 llama-server 启动服务，监听本地端口（如 127.0.0.1:8080），即可通过 OpenAI 兼容接口连接至你的前端工具。