故事是这样的。
前两篇文章,我分别聊了RAG和embedding。写那两篇的过程中,有一个词反复跳出来,但我每次都一笔带过没有展开。
微调。Fine-tuning。
在RAG那篇里,我提到过「微调是改造模型本身,相当于让这个学生重新上了一门课」。在embedding那篇里,我说embedding模型本身就是针对特定任务专门训练的。但到底什么是微调?为什么要微调?跟我之前聊的那些东西有什么关系?
坦率的讲,之前我对微调的理解一直停留在一个很表面的层次,「就是拿自己的数据再训练一下模型呗」。好像理解了,但又说不出什么所以然来。
直到最近,我在工作中遇到了一个很具体的场景。我们有一个AI助手,需要用一种特定的语气跟用户对话,不是那种通用的客气话,而是要带一点调侃、一点毒舌、一点温暖但不油腻。我用prompt写了一大段人设描述,效果还行,但总有那么百分之二三十的时候模型会「出戏」,突然变回那种标准的AI客服腔。
我问了几个做这个方向的朋友,他们说,这种情况,prompt能帮你到80分,最后那20分,得靠微调。
然后我就花了几天时间认真研究了一下。
今天这篇,就是我目前对Fine-tuning这件事的完整理解。如果你跟我之前一样,只知道「有这么个东西」但从来没深入了解过,那应该能帮到你。
先从一个最基础的类比开始。
你可以把一个大语言模型想象成一个什么都学过一点的通才毕业生。他读过海量的书,见过无数种对话风格,什么领域都能聊两句。但你让他去当你公司的法务助理,他的回答虽然不算错,但总是缺那么一点专业度和针对性。
这个通才毕业生有两条路可以变得更好用。
第一条路,给他一份详细的参考资料和工作指南。 每次遇到问题先查资料,再按照指南的格式来回答。这就是RAG和prompt engineering在做的事情。模型本身没变,但你通过外部信息和指令来引导它的输出。
第二条路,送他回学校再进修一个专业。 让他沉浸式地学习你这个领域的案例、术语、风格、规范,学完之后他本身就变了,不需要每次都拿着参考资料才能答。
第二条路,就是Fine-tuning。

用更技术一点的话说,Fine-tuning就是拿一个已经预训练好的大模型,用你自己准备的一批高质量数据,继续训练它。训练的过程会修改模型内部的参数(也就是模型的「权重」),让它的行为朝着你希望的方向偏移。
这里有一个很关键的区别需要搞清楚。
预训练(Pre-training)是从零开始教一个模型「什么是语言」。 那是烧掉几千万甚至几个亿美金、用几万张GPU跑几个月才能完成的事情。普通人根本不用想这件事。
微调(Fine-tuning)是在一个已经很强的模型基础上,教它「你想让它怎么说话」。 成本低得多,数据量要求也小得多。在2026年的今天,用一张好一点的显卡,花几个小时,你就能微调一个70亿参数的模型。
你想想看,这差距大概就像「从零培养一个人到能说话」和「教一个成年人学一门新手艺」的区别。前者是造人,后者是培训。
好,理解了微调的基本概念之后,一个很自然的问题就来了。
什么时候该用微调,什么时候用prompt或者RAG就够了?
这个问题我问了很多人,也看了很多资料,我觉得可以用一个简单的框架来判断。
如果你需要的是「新知识」,用RAG。 比如你希望模型能回答关于你们公司最新产品的问题,或者能引用最新的法律法规,这些信息不在模型的训练数据里。你需要的是给模型一个外部记忆,让它能临时查阅。
如果你需要的是「新行为」,用微调。 比如你希望模型用特定的语气说话,希望它输出的格式永远是固定的JSON结构,希望它在面对某类问题时的推理方式跟通用模型不同。这些不是靠给参考资料能解决的,你需要从根上改变模型的行为模式。
当然现实中很多场景是两个都需要。先微调让模型学会你的行业语言和表达风格,再用RAG让它能访问最新最全的具体信息。这俩不矛盾,反而互补。
我自己觉得还有一种情况特别适合微调,就是你希望用一个小模型达到大模型的效果。
这是2025到2026年这个领域最大的变化之一。以前大家微调是为了让模型变得更专业,现在很多团队微调是为了省钱。
逻辑是这样的,一个通用的大模型(比如GPT-5或者Claude Opus 4)什么都能做,但它太贵了,每次调用都要花钱。如果你的业务场景其实比较窄,比如就是做客服工单分类,或者就是做合同条款提取,那你完全可以拿一个小得多的模型(比如Llama 4的8B版本),用大模型生成的高质量数据来微调它。
微调完之后,这个小模型在你的特定任务上可能跟大模型效果差不多,但推理成本只有十分之一甚至更低。
业内把这个玩法叫模型蒸馏(Model Distillation)。大模型当老师,小模型当学生,老师出题、示范答案,学生照着学。学完之后学生在这个窄领域上也能考90分,虽然通识考试不如老师。

这个思路在2026年已经变成了很多团队的标准操作。
说到这里顺便聊聊微调的成本,这块我觉得很多人有误解。
很多人一听「微调」两个字,脑子里浮现的画面是一堆GPU嗡嗡响、账单几十万美金那种。五年前确实是这样。但现在完全不是了。
这里面最关键的技术突破叫LoRA。
LoRA的全称是Low-Rank Adaptation,低秩适应。2021年微软的一篇论文提出来的。它的核心思路说起来其实挺简单的,模型在微调的时候,参数的变化量其实是「低秩」的。你不需要更新所有几十亿个参数,你只需要训练一组很小的矩阵,把它「贴」在原模型上面,就能达到接近全量微调的效果。
你可以把它想象成什么呢。如果全量微调相当于把一本教材整本重新印刷、每一页都改了几个字,那LoRA就相当于在原书上贴了一批便利贴。便利贴体积很小,但贴在关键位置上就能改变整本书的含义。
LoRA把需要训练的参数量压缩了100到1000倍。这是什么概念?原来需要8张A100才能跑的微调任务,现在一张消费级显卡就能搞定。
然后2023年又出来了一个叫QLoRA的东西,在LoRA的基础上加了一步量化。把原模型压缩到4-bit精度来存储,然后只训练那些LoRA的小矩阵。显存需求直接再降4倍。
所以2026年的现状是,一张H100甚至一张RTX 4090,就能微调一个700亿参数的模型。
这在五年前是不可想象的事情。

说完技术,聊点实际的。微调到底用在哪些场景?
我觉得最典型的有这么几类。
第一,风格和格式固定。 就像我开头说的那个例子,你希望模型永远用某种语气说话,或者永远输出某种固定格式。prompt可以做到七八成,但总有漏网之鱼。微调能把一致性拉到95%以上。很多内容平台的AI写作助手、品牌的对话机器人,底下都是微调过的模型。
第二,垂直领域适配。 法律、医疗、金融这些行业,有大量的专业术语和特殊的表达习惯。通用模型虽然也见过一些,但对这些领域的「肌肉记忆」不够深。微调能让模型真正内化这些专业知识,而不是每次都需要你在prompt里反复强调。
第三,小模型提效。 前面说过的模型蒸馏。大模型太贵或者延迟太高,用微调把能力迁移到小模型上。在边缘设备上跑AI(比如手机端、嵌入式设备)几乎都是这个路数。
第四,推理能力增强。 这是最近一两年最火的方向。2025年初DeepSeek发了一篇论文,提出了一个叫GRPO的训练方法,可以通过强化学习让模型在数学、代码、逻辑推理这些任务上大幅提升。不需要人类标注偏好数据,只需要一个可验证的奖励信号(比如数学题的答案对不对)。这个方向在2025到2026年爆发式增长,几乎所有的开源推理模型都是用类似的方法练出来的。
聊到这里,我想说一个我研究过程中最大的感受。
微调这件事,数据比技术重要100倍。
我看了很多团队的分享,成功的微调项目和失败的微调项目,差别几乎从来不在用了什么训练框架、什么超参数、什么学习率。差别在数据上。
一个我觉得挺反直觉的结论是,1000条精心标注的高质量数据,效果几乎总是好过10000条随便爬来的噪音数据。数据的质量比数量重要得多。
这跟我之前做RAG的经验是一样的。RAG做不好,大部分时候不是模型不行,是数据没整理好。微调也是一个道理。你喂进去什么,它就学到什么。垃圾进去,垃圾出来,这个朴素的道理在AI这里依然成立。
那高质量的微调数据哪来呢?
2026年的主流做法是,用大模型生成训练数据。
听起来有点套娃,但逻辑是通的。你用GPT-5这种能力最强的模型,按照你的标准生成几千条高质量的示例回答,然后用这些数据来训练一个小模型。大模型当老师出卷子写答案,小模型当学生照着练。
当然了,合成数据也不是万能的。你得有一套评估机制来确保生成出来的数据真的符合你的标准。不然就变成了「拿一个可能犯错的老师的答案去教学生」,学生学到的错误更难被发现。
再说一个我觉得很多人容易忽略的事情。
微调是有代价的。
首先是灾难性遗忘。模型在你的数据上学到了新行为之后,它之前掌握的一些通用能力可能会退化。就像一个人如果只练一种技能太久,其他技能可能会生疏。这就是为什么微调数据不能太偏、训练轮数不能太多的原因。
其次是维护成本。基座模型在不断更新。GPT-4o到GPT-4.1到GPT-5,Claude 3.5到Claude 4到Claude 4.7,每隔几个月就有新版本。如果你的业务依赖微调过的模型,每次基座更新你可能都得重新微调一遍。有些团队为了避免这个麻烦,干脆锁死在某个旧版本上不升级,但这也有问题,毕竟新版本在通用能力上是有提升的。
最后一个代价是评估的复杂性。你怎么知道微调完的模型比原来好了?在你关心的那个任务上变好了,在其他任务上有没有变差?这套评估流程如果没搭好,你可能觉得微调效果很好,上线之后才发现模型在某些边缘case上表现得一塌糊涂。
我自己的判断是,微调不应该是你的第一选择,而应该是你的最后手段。
先试prompt engineering。写好system prompt,给few-shot examples,调整温度参数。很多时候这些就够了。
不够的话试RAG。给模型配一个知识库,让它有据可查。
两个都试过了还是不行,模型的「行为」本身有问题,需要从根上改,那才轮到微调上场。
这不是因为微调不好,而是因为每多一层复杂度,你的维护成本就多一层。能用简单方案解决的问题就别上重型武器。
不过话说回来,当你真的需要微调的时候,它带来的提升也是实打实的、其他方案做不到的。
我记得看到一个案例,一家做法律AI的公司,他们的合同审查模型用prompt写了几十版都达不到律师要求的准确度。后来用3000条律师标注的合同条款做了一轮QLoRA微调,准确率从72%直接跳到94%。那个跳跃式的提升不是任何prompt工程能做到的。
说到这里差不多了。
最后把微调放到更大的图景里说两句。
如果说RAG让AI学会了「翻书」,embedding让AI学会了「理解语言的含义」,那微调就是让AI学会了「成为某个特定角色」。
这三个东西不是互相替代的关系,而是一个完整AI系统的三根支柱。embedding是感知层,让计算机能理解信息的含义。RAG是记忆层,让模型能访问外部知识。微调是人格层,决定了模型「是谁」「怎么说话」「怎么思考」。
一个真正好用的AI系统,大概率是三者兼备的。

好了,这就是我对Fine-tuning的完整理解。下一篇,我打算聊Function Calling和Tool Use,也就是「让AI不只是说话,还能动手干活」的那个技术。我们的AI系列三件套,也就到了最后一公里了。
永远对世界保持好奇。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
延伸阅读
- RAG,一个让AI学会翻书的技术:之前一直听说过RAG但没有深入了解过,今天花了一整天时间研究,用大白话聊透它的概念、原理、使用场景和最新进展。如果你跟我一样对RAG只停留在听说过的阶段,这篇应该能帮到你。
- Embedding,AI世界的隐形地基:之前一直知道embedding这个概念但没深入了解过,这次认真研究了一下。从one-hot编码的致命缺陷到Word2Vec的惊人发现,从当前主流模型选型到五大应用场景,用大白话聊透向量嵌入这个AI世界的底层基建。
- 如何判断一个AI产品是不是在忽悠你:AI行业色素水浓度有点高。四层鉴伪框架教你识别:看技术在哪里、看有没有护城河、看它怎么说话、看它敢不敢让你试。知识不是用来炫耀的,是用来防身的。
- Prompt Engineering,用自然语言给AI编程的技术:Prompt Engineering不是那些满天飞的万能模板,而是一种用自然语言给AI编程的能力。五个核心原则、Context Engineering的进化、以及为什么你说话的方式决定了AI能帮你到什么程度。

评论区
欢迎留下你的看法,支持匿名评论。
你的评论会公开展示,建议填写便于交流的昵称,并尽量提供有信息量的反馈。