Fine-tuning，让AI学会「成为某个人」的技术

故事是这样的。

前两篇文章，我分别聊了RAG和embedding。写那两篇的过程中，有一个词反复跳出来，但我每次都一笔带过没有展开。

微调。Fine-tuning。

在RAG那篇里，我提到过「微调是改造模型本身，相当于让这个学生重新上了一门课」。在embedding那篇里，我说embedding模型本身就是针对特定任务专门训练的。但到底什么是微调？为什么要微调？跟我之前聊的那些东西有什么关系？

坦率的讲，之前我对微调的理解一直停留在一个很表面的层次，「就是拿自己的数据再训练一下模型呗」。好像理解了，但又说不出什么所以然来。

直到最近，我在工作中遇到了一个很具体的场景。我们有一个AI助手，需要用一种特定的语气跟用户对话，不是那种通用的客气话，而是要带一点调侃、一点毒舌、一点温暖但不油腻。我用prompt写了一大段人设描述，效果还行，但总有那么百分之二三十的时候模型会「出戏」，突然变回那种标准的AI客服腔。

我问了几个做这个方向的朋友，他们说，这种情况，prompt能帮你到80分，最后那20分，得靠微调。

然后我就花了几天时间认真研究了一下。

今天这篇，就是我目前对Fine-tuning这件事的完整理解。如果你跟我之前一样，只知道「有这么个东西」但从来没深入了解过，那应该能帮到你。

先从一个最基础的类比开始。

你可以把一个大语言模型想象成一个什么都学过一点的通才毕业生。他读过海量的书，见过无数种对话风格，什么领域都能聊两句。但你让他去当你公司的法务助理，他的回答虽然不算错，但总是缺那么一点专业度和针对性。

这个通才毕业生有两条路可以变得更好用。

第一条路，给他一份详细的参考资料和工作指南。 每次遇到问题先查资料，再按照指南的格式来回答。这就是RAG和prompt engineering在做的事情。模型本身没变，但你通过外部信息和指令来引导它的输出。

第二条路，送他回学校再进修一个专业。 让他沉浸式地学习你这个领域的案例、术语、风格、规范，学完之后他本身就变了，不需要每次都拿着参考资料才能答。

第二条路，就是Fine-tuning。

通才毕业生到专业进修的转变

用更技术一点的话说，Fine-tuning就是拿一个已经预训练好的大模型，用你自己准备的一批高质量数据，继续训练它。训练的过程会修改模型内部的参数（也就是模型的「权重」），让它的行为朝着你希望的方向偏移。

这里有一个很关键的区别需要搞清楚。

预训练（Pre-training）是从零开始教一个模型「什么是语言」。 那是烧掉几千万甚至几个亿美金、用几万张GPU跑几个月才能完成的事情。普通人根本不用想这件事。

微调（Fine-tuning）是在一个已经很强的模型基础上，教它「你想让它怎么说话」。 成本低得多，数据量要求也小得多。在2026年的今天，用一张好一点的显卡，花几个小时，你就能微调一个70亿参数的模型。

你想想看，这差距大概就像「从零培养一个人到能说话」和「教一个成年人学一门新手艺」的区别。前者是造人，后者是培训。

好，理解了微调的基本概念之后，一个很自然的问题就来了。

什么时候该用微调，什么时候用prompt或者RAG就够了？

这个问题我问了很多人，也看了很多资料，我觉得可以用一个简单的框架来判断。

如果你需要的是「新知识」，用RAG。 比如你希望模型能回答关于你们公司最新产品的问题，或者能引用最新的法律法规，这些信息不在模型的训练数据里。你需要的是给模型一个外部记忆，让它能临时查阅。

如果你需要的是「新行为」，用微调。 比如你希望模型用特定的语气说话，希望它输出的格式永远是固定的JSON结构，希望它在面对某类问题时的推理方式跟通用模型不同。这些不是靠给参考资料能解决的，你需要从根上改变模型的行为模式。

当然现实中很多场景是两个都需要。先微调让模型学会你的行业语言和表达风格，再用RAG让它能访问最新最全的具体信息。这俩不矛盾，反而互补。

我自己觉得还有一种情况特别适合微调，就是你希望用一个小模型达到大模型的效果。

这是2025到2026年这个领域最大的变化之一。以前大家微调是为了让模型变得更专业，现在很多团队微调是为了省钱。

逻辑是这样的，一个通用的大模型（比如GPT-5或者Claude Opus 4）什么都能做，但它太贵了，每次调用都要花钱。如果你的业务场景其实比较窄，比如就是做客服工单分类，或者就是做合同条款提取，那你完全可以拿一个小得多的模型（比如Llama 4的8B版本），用大模型生成的高质量数据来微调它。

微调完之后，这个小模型在你的特定任务上可能跟大模型效果差不多，但推理成本只有十分之一甚至更低。

业内把这个玩法叫模型蒸馏（Model Distillation）。大模型当老师，小模型当学生，老师出题、示范答案，学生照着学。学完之后学生在这个窄领域上也能考90分，虽然通识考试不如老师。

模型蒸馏：大模型当老师，小模型当学生

这个思路在2026年已经变成了很多团队的标准操作。

说到这里顺便聊聊微调的成本，这块我觉得很多人有误解。

很多人一听「微调」两个字，脑子里浮现的画面是一堆GPU嗡嗡响、账单几十万美金那种。五年前确实是这样。但现在完全不是了。

这里面最关键的技术突破叫LoRA。

LoRA的全称是Low-Rank Adaptation，低秩适应。2021年微软的一篇论文提出来的。它的核心思路说起来其实挺简单的，模型在微调的时候，参数的变化量其实是「低秩」的。你不需要更新所有几十亿个参数，你只需要训练一组很小的矩阵，把它「贴」在原模型上面，就能达到接近全量微调的效果。

你可以把它想象成什么呢。如果全量微调相当于把一本教材整本重新印刷、每一页都改了几个字，那LoRA就相当于在原书上贴了一批便利贴。便利贴体积很小，但贴在关键位置上就能改变整本书的含义。

LoRA把需要训练的参数量压缩了100到1000倍。这是什么概念？原来需要8张A100才能跑的微调任务，现在一张消费级显卡就能搞定。

然后2023年又出来了一个叫QLoRA的东西，在LoRA的基础上加了一步量化。把原模型压缩到4-bit精度来存储，然后只训练那些LoRA的小矩阵。显存需求直接再降4倍。

所以2026年的现状是，一张H100甚至一张RTX 4090，就能微调一个700亿参数的模型。

这在五年前是不可想象的事情。

LoRA便利贴比喻：不用重印整本书

说完技术，聊点实际的。微调到底用在哪些场景？

我觉得最典型的有这么几类。

第一，风格和格式固定。 就像我开头说的那个例子，你希望模型永远用某种语气说话，或者永远输出某种固定格式。prompt可以做到七八成，但总有漏网之鱼。微调能把一致性拉到95%以上。很多内容平台的AI写作助手、品牌的对话机器人，底下都是微调过的模型。

第二，垂直领域适配。 法律、医疗、金融这些行业，有大量的专业术语和特殊的表达习惯。通用模型虽然也见过一些，但对这些领域的「肌肉记忆」不够深。微调能让模型真正内化这些专业知识，而不是每次都需要你在prompt里反复强调。

第三，小模型提效。 前面说过的模型蒸馏。大模型太贵或者延迟太高，用微调把能力迁移到小模型上。在边缘设备上跑AI（比如手机端、嵌入式设备）几乎都是这个路数。

第四，推理能力增强。 这是最近一两年最火的方向。2025年初DeepSeek发了一篇论文，提出了一个叫GRPO的训练方法，可以通过强化学习让模型在数学、代码、逻辑推理这些任务上大幅提升。不需要人类标注偏好数据，只需要一个可验证的奖励信号（比如数学题的答案对不对）。这个方向在2025到2026年爆发式增长，几乎所有的开源推理模型都是用类似的方法练出来的。

聊到这里，我想说一个我研究过程中最大的感受。

微调这件事，数据比技术重要100倍。

我看了很多团队的分享，成功的微调项目和失败的微调项目，差别几乎从来不在用了什么训练框架、什么超参数、什么学习率。差别在数据上。

一个我觉得挺反直觉的结论是，1000条精心标注的高质量数据，效果几乎总是好过10000条随便爬来的噪音数据。数据的质量比数量重要得多。

这跟我之前做RAG的经验是一样的。RAG做不好，大部分时候不是模型不行，是数据没整理好。微调也是一个道理。你喂进去什么，它就学到什么。垃圾进去，垃圾出来，这个朴素的道理在AI这里依然成立。

那高质量的微调数据哪来呢？

2026年的主流做法是，用大模型生成训练数据。

听起来有点套娃，但逻辑是通的。你用GPT-5这种能力最强的模型，按照你的标准生成几千条高质量的示例回答，然后用这些数据来训练一个小模型。大模型当老师出卷子写答案，小模型当学生照着练。

当然了，合成数据也不是万能的。你得有一套评估机制来确保生成出来的数据真的符合你的标准。不然就变成了「拿一个可能犯错的老师的答案去教学生」，学生学到的错误更难被发现。

再说一个我觉得很多人容易忽略的事情。

微调是有代价的。

首先是灾难性遗忘。模型在你的数据上学到了新行为之后，它之前掌握的一些通用能力可能会退化。就像一个人如果只练一种技能太久，其他技能可能会生疏。这就是为什么微调数据不能太偏、训练轮数不能太多的原因。

其次是维护成本。基座模型在不断更新。GPT-4o到GPT-4.1到GPT-5，Claude 3.5到Claude 4到Claude 4.7，每隔几个月就有新版本。如果你的业务依赖微调过的模型，每次基座更新你可能都得重新微调一遍。有些团队为了避免这个麻烦，干脆锁死在某个旧版本上不升级，但这也有问题，毕竟新版本在通用能力上是有提升的。

最后一个代价是评估的复杂性。你怎么知道微调完的模型比原来好了？在你关心的那个任务上变好了，在其他任务上有没有变差？这套评估流程如果没搭好，你可能觉得微调效果很好，上线之后才发现模型在某些边缘case上表现得一塌糊涂。

我自己的判断是，微调不应该是你的第一选择，而应该是你的最后手段。

先试prompt engineering。写好system prompt，给few-shot examples，调整温度参数。很多时候这些就够了。

不够的话试RAG。给模型配一个知识库，让它有据可查。

两个都试过了还是不行，模型的「行为」本身有问题，需要从根上改，那才轮到微调上场。

这不是因为微调不好，而是因为每多一层复杂度，你的维护成本就多一层。能用简单方案解决的问题就别上重型武器。

不过话说回来，当你真的需要微调的时候，它带来的提升也是实打实的、其他方案做不到的。

我记得看到一个案例，一家做法律AI的公司，他们的合同审查模型用prompt写了几十版都达不到律师要求的准确度。后来用3000条律师标注的合同条款做了一轮QLoRA微调，准确率从72%直接跳到94%。那个跳跃式的提升不是任何prompt工程能做到的。

说到这里差不多了。

最后把微调放到更大的图景里说两句。

如果说RAG让AI学会了「翻书」，embedding让AI学会了「理解语言的含义」，那微调就是让AI学会了「成为某个特定角色」。

这三个东西不是互相替代的关系，而是一个完整AI系统的三根支柱。embedding是感知层，让计算机能理解信息的含义。RAG是记忆层，让模型能访问外部知识。微调是人格层，决定了模型「是谁」「怎么说话」「怎么思考」。

一个真正好用的AI系统，大概率是三者兼备的。

AI系统三根支柱：感知层、记忆层、人格层

好了，这就是我对Fine-tuning的完整理解。下一篇，我打算聊Function Calling和Tool Use，也就是「让AI不只是说话，还能动手干活」的那个技术。我们的AI系列三件套，也就到了最后一公里了。

永远对世界保持好奇。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～
谢谢你看我的文章，我们，下次再见。

Fine-tuning，让AI学会「成为某个人」的技术

延伸阅读

评论区