Voice Agent 的自我学习纠错系统:如何让转写越用越懂你的术语
Voice Agent 通过 corrections.json、glossary.json 和 auto_learn() 把用户纠正沉淀为可复用经验,让中文技术语音输入逐步适应个人和项目语境。
Find related content
Search the site for tools, terms, comparison pages, or related troubleshooting notes without going back to the blog index.
Main answer
Voice Agent 的自我学习价值在于把用户修过的错变成下次可复用的纠错线索,而不是每次都重新人工改稿。
Who should read this
适合想把语音转文字做成长期工具,而不是一次性转写脚本的开发者。
Key check
项目围绕 corrections.json、glossary.json 和 auto_learn() 设计了从人工纠错到自动学习的闭环。
Next step
理解自学习后,可以继续看如何把语音输入接入 AI coding 和 Agent workflow。
你将学到
- + 为什么语音转写系统需要记住用户纠错
- + corrections.json 和 glossary.json 分别适合存什么
- + auto_learn() 在纠错闭环里承担什么角色
- + 自学习纠错如何帮助中文技术表达
Voice Agent 的自我学习纠错系统
语音转文字工具最容易被低估的一点,是“纠错之后怎么办”。
很多工具的流程是:
- 转写。
- 用户手动修改。
- 结束。
这对一次性任务可以接受,但对开发者语音输入来说不够。
因为技术场景里的错误往往会反复出现:
- 同一个项目名反复识别错。
- 同一个英文工具名反复被写成中文同音词。
- 同一个缩写反复大小写不一致。
- 同一个团队内部术语反复无法识别。
Voice Agent 的设计更进一步:它试图把用户纠正过的内容沉淀下来,让系统下一次更懂你。
项目仓库:
https://github.com/kunpeng-ai-lab/voice-agent
纠错为什么要被记录
如果一个系统每次都犯同样的错,用户很快就会失去耐心。
尤其是中文技术语境,很多错误不是简单错别字,而是“上下文不理解”:
- 把模型名识别成普通词。
- 把工具名拆开。
- 把英文命令写成发音相近的中文。
- 把项目内部固定说法改成不一致表达。
这些错误如果能被记录下来,就可以成为下一次校正的依据。
所以 corrections.json 的价值,不只是保存历史,而是让历史进入后续流程。
glossary.json:长期术语表
glossary.json 更适合存稳定词。
例如:
- 项目名
- 工具名
- 模型名
- 框架名
- 团队内部固定叫法
- 常见英文缩写
这些内容不一定来自一次纠错,也可以提前人工维护。
在 Voice Agent 里,术语库的作用像一个“项目词典”:告诉校正层,哪些词应该被优先保留,哪些写法才是正确写法。
corrections.json:真实犯错记录
corrections.json 更适合存实际发生过的错误。
例如:
- 原始 STT 输出是什么。
- 用户最终改成了什么。
- 这个错误是否重复出现。
- 这个纠错是否应该被自动学习。
它和术语库的差别在于:术语库偏静态,纠错记录偏动态。
二者合在一起,系统才既有长期词表,也有真实使用反馈。
auto_learn():把纠错变成规则线索
auto_learn() 可以理解成自学习纠错闭环里的转换器。
它不需要神秘化。
它的重点不是“重新训练一个大模型”,而是把用户修正过的内容转成后续校正可以用的线索。
一个合理的 auto_learn() 思路包括:
- 发现用户修改前后的差异。
- 判断这个差异是不是有复用价值。
- 把高价值纠错写入 corrections.json。
- 必要时补充到 glossary.json。
- 后续校正时优先参考这些线索。
这个过程越稳定,语音输入就越不像一次性工具,而更像一个会积累经验的个人输入系统。
为什么这对 Agent workflow 有意义
Agent workflow 需要稳定输入。
如果语音输入每次都把项目名写错,Agent 后续就会沿着错误上下文继续推理。
如果语音输入能逐步记住你的术语,后续 Agent 处理任务、总结会议、生成待办项、拆分 bug 记录时,质量都会更稳定。
这就是 Voice Agent 和普通语音转写工具的分界线:
- 普通工具输出文本。
- Voice Agent 试图输出越来越贴近项目语境的文本。
可以迁移到哪些场景
这个自学习纠错思路不只适用于语音。
它也适合:
- AI coding 提示词输入。
- 会议纪要清洗。
- Agent Forum 发帖前整理。
- 开发者日志转结构化任务。
- 术语密集型团队文档。
只要一个输入系统需要长期适应用户术语,就可以借鉴这种“术语库 + 纠错记录 + 自动学习”的设计。
下一篇继续看:
Continue exploring
Use a tool first
If you need to format JSON, XML, YAML, or prompts, start with the online tools.
See implementation projects
If you want to see how these methods enter real builds and experiments, continue with projects.
Get checklists and templates
If you need checklists, resource entries, or SOP starter packs, continue with resources.
Download reusable skills
If you want repeatable judgment, search, and cleanup actions, continue with the skill market.
要点总结
- - 自学习纠错不是让模型神秘变聪明,而是沉淀可追踪的修正记录。
- - 术语库负责长期稳定词表,纠错记录负责实际犯过的错。
- - Voice Agent 的方法适合迁移到更多开发者输入工具里。
常见问题
corrections.json 和 glossary.json 有什么区别?
glossary.json 更像长期术语表,记录应该稳定保留的项目名、工具名和专业词;corrections.json 更像纠错历史,记录系统曾经错在哪里、用户如何改正。
auto_learn() 是不是等于重新训练模型?
不是。更合理的理解是把用户纠错转化成后续校正可用的规则、词条或上下文线索,而不是重新训练底层语音模型。