Voice Agent 的 STT + LLM 校正架构:为什么语音转文字不能只靠 Whisper
从 Voice Agent 的实现思路看,中文技术语音输入需要 STT 初稿、LLM 语义校正、术语库和上下文增强共同工作,而不是只把 faster-whisper 当成最终答案。
Find related content
Search the site for tools, terms, comparison pages, or related troubleshooting notes without going back to the blog index.
Main answer
Voice Agent 的关键设计,是把 STT 当成初稿生成层,把 MiniMax 这类 LLM 当成语义校正层,再用术语库和上下文减少中文技术词错误。
Who should read this
适合正在评估 Whisper、本地 STT、LLM 校正和开发者语音输入方案的人。
Key check
项目围绕 faster-whisper、Vosk、MiniMax 校正、glossary.json 和 corrections.json 形成一条可验证的语音输入链路。
Next step
理解架构后,再看自我学习纠错系统如何让用户修正变成长期资产。
你将学到
- + 为什么 STT 初稿不等于最终技术文本
- + faster-whisper 和 Vosk 在这类系统里更适合承担什么角色
- + MiniMax LLM 校正层解决什么问题
- + 术语库和上下文为什么是技术语音输入的关键
Voice Agent 的 STT + LLM 校正架构
很多人做语音转文字项目时,第一反应是:
选一个最强 STT 模型,然后直接用它的结果。
这个思路在普通口述场景里可以工作,但在中文技术语境里很快会遇到边界。
Voice Agent 的价值,是它没有把 faster-whisper 或 Vosk 当成全部答案,而是把它们放进一条更完整的链路里:
https://github.com/kunpeng-ai-lab/voice-agent
第一层:STT 生成初稿
STT 的任务是先把声音转成文字。
在 Voice Agent 这类项目里,faster-whisper 和 Vosk 更像是“初稿生成层”:
- faster-whisper 适合追求更强识别质量的路径。
- Vosk 适合本地、轻量、离线或低依赖路径。
- 两者都可以把语音转成基础文本。
但这一步生成的文本,通常还不是最终可用文本。
原因很简单:STT 模型主要解决“听到了什么”,但技术语境还需要解决“这里应该写成什么”。
第二层:LLM 做语义校正
Voice Agent 引入 MiniMax 这类 LLM 校正层,解决的是 STT 很难单独处理的问题:
- 同音词错误。
- 英文工具名误写。
- 项目名被拆成普通词。
- 中文口语句子需要整理成技术表达。
- 前后文里已经出现过的术语需要保持一致。
例如用户说的是一个项目名,STT 可能按发音写成普通中文词。
LLM 校正层如果知道上下文里正在讨论 AI coding、Agent workflow、OpenClaw 或 Voice Agent,就更容易把文本修回来。
这也是为什么“语音转文字不能只靠 Whisper”。
Whisper 很强,但它不是你的项目术语库,也不是你的个人纠错记忆。
第三层:glossary.json 术语库
在开发者语音输入里,术语库非常关键。
glossary.json 的价值,是把项目里长期会出现的专有词固定下来。
它可以帮助校正层判断:
- 这个词是不是工具名?
- 这个词是不是项目名?
- 这个词是不是英文缩写?
- 这个词是不是团队内部的固定叫法?
对普通用户来说,术语库可能只是锦上添花。
但对技术用户来说,术语库常常决定转写结果能不能直接用。
第四层:corrections.json 纠错记录
一次错误如果只修一次,那它只是人工修稿。
一次错误如果被记录下来,并在后续自动影响校正结果,它才开始变成系统能力。
Voice Agent 里的 corrections.json 就是这个思路:把用户纠正过的错误保存下来,让系统以后更容易识别类似问题。
这让语音输入从“一次性识别”变成“可学习输入”。
一个更合理的职责划分
可以把 Voice Agent 的架构理解成四层职责:
- STT 层:生成语音初稿。
- LLM 校正层:结合语义和上下文修正文本。
- 术语层:固定项目、工具、模型和团队词表。
- 学习层:把用户纠正沉淀成后续规则。
这个拆法的好处是,每一层都可以单独迭代。
你可以换 STT 引擎,可以换 LLM 服务,可以扩充术语库,也可以改进 auto_learn() 的学习策略,而不用把所有能力揉进一个黑盒。
对 AI coding 的启发
如果你想把语音输入接入 Agent workflow,不要只问“哪个模型转写最准”。
更应该问:
- 能不能稳定识别我的项目名?
- 能不能修正常见同音错误?
- 能不能记住我纠正过的词?
- 能不能把口语整理成 Agent 能处理的任务描述?
这就是 Voice Agent 对开发者更有参考价值的地方。
下一篇可以继续看:
Continue exploring
Use a tool first
If you need to format JSON, XML, YAML, or prompts, start with the online tools.
See implementation projects
If you want to see how these methods enter real builds and experiments, continue with projects.
Get checklists and templates
If you need checklists, resource entries, or SOP starter packs, continue with resources.
Download reusable skills
If you want repeatable judgment, search, and cleanup actions, continue with the skill market.
要点总结
- - STT 负责听见,LLM 校正负责理解语境。
- - 中文技术语音输入要特别处理英文工具名、项目名和同音错误。
- - Voice Agent 的架构价值在于把识别、校正、术语和学习拆成可迭代层。
常见问题
有了 faster-whisper,为什么还需要 LLM 校正?
因为 STT 能生成可读初稿,但不一定知道某个发音在当前上下文里应该是项目名、工具名还是普通词。LLM 校正层可以结合上下文和术语库修正这类语义错误。
Vosk 在这类项目里还有价值吗?
有。Vosk 更适合作为本地、轻量或离线路径的一部分。不同 STT 引擎可以服务不同硬件、隐私和延迟需求。