20 个 AI 核心概念

人人都在用 AI,但你的身边又有多少人真正理解它的运作原理。

大家随口抛出“Transformer”、“嵌入”、“RAG”、“智能体”、“RLHF”这些词…………仿佛所有人都心知肚明。

实际,一旦建立起正确的思维模型,AI 其实并没有那么复杂。

ChatGPT、Claude、Midjourney、Cursor、编程智能体——这些一个个耳熟能详的词语,读完下面这 20 个概念,你就全明白了。

不需要博士学位,也没有行话术语,只有简洁的解释与直观的示意。


第一部分:AI 的底层原理(一切构建于此的基础)

1. 神经网络(Neural Networks)

Image

神经网络是每个 AI 模型的”大脑”。

神经网络是一条由层级构成的处理管道:

数据进入输入层 → 经过隐藏层处理 → 以预测结果输出

每条连接都有一个”权重”——一个微小的数值,控制一个神经元对下一个神经元的影响程度。

训练 = 不断调整数十亿个权重,直到输出结果足够准确。

思路简单,规模惊人。

GPT-4 拥有约 1.8 万亿个参数,Claude 3 Opus 拥有数千亿个参数——全部源于同一个基本概念:具有可调连接的多层神经元。


2. 分词(Tokenization)

Image

AI 读取文本之前,会先将其拆分成称为 Token(词元) 的基本单元。

Token 并不总是完整的单词:

  • "playing""play" + "ing"
  • "ChatGPT""Chat" + "G" + "PT"
  • "dog""dog"(保持完整)

为什么不直接用完整单词?

语言本身是混乱的——新词、拼写错误、多语言混杂。若使用固定词汇表,规模将大得无法管理。

Token 是可复用的基本构件。即便模型从未见过某个词,也能通过将其拆解为熟悉的片段来理解它。

粗略换算:1 个 Token ≈ 0.75 个英文单词;1000 个 Token ≈ 750 个英文单词。


3. 嵌入(Embeddings)

Image 文本完成分词后,每个 Token 会被转换为一个数字——即**嵌入向量**,用于表征语义。

可以把它想象成词语的”谷歌地图”:

  • "医生""护士" 在向量空间中彼此相邻
  • "医生""披萨" 则相距甚远
  • "国王" - "男性" + "女性""女王"

模型并不像人类那样”理解”词语,它理解的是距离方向

这一机制支撑着:

  • 语义搜索
  • 推荐系统
  • RAG 系统

凡是能够”理解意图”的应用,底层都在使用嵌入。


4. 注意力机制(Attention)

Image `"Apple"` 这个词在不同语境下含义迥异:
  • "I ate an Apple" → 水果
  • "I bought Apple stock" → 公司

仅凭嵌入无法区分这种差异,而注意力机制可以。

注意力机制让句中每个词都能”观察”其他所有词,并判断什么信息更重要。

在句子 "She bought shares in Apple" 中:

  • "Apple" 会对 "shares""bought" 给予高度关注
  • 模型由此推断:这里指的是公司,而非水果

引入注意力机制之前,模型从左到右逐字处理——缓慢且局限。

引入注意力机制之后,模型可以一次性审视整个句子。

这一单一创新,开启了现代 AI 的大门。


5. Transformer 架构(Transformers)

Image Transformer 是当今几乎所有 AI 模型的底层架构。

2017 年,一篇名为《Attention Is All You Need》(注意力就是一切)的论文首次提出了这一架构。

突破性创新:不再逐词处理文本,而是利用注意力机制对所有内容并行处理

工作流程

文本 → Token → 嵌入 → 多层注意力层叠加 → 输出

每一层逐步深化理解:

  • 浅层:语法与基础结构
  • 中间层:词语之间的关系
  • 深层:复杂推理

最终成果:训练速度大幅提升,输出质量显著改善。

GPT、Claude、Gemini、Llama、Mistral——全部基于 Transformer。

理解了这一架构,你就理解了现代 AI 的核心。


第二部分:大语言模型的工作原理(你与 AI 对话时,究竟发生了什么)

6. 大语言模型(LLMs,Large Language Models)

Image 大语言模型是在海量文本上训练的 Transformer 模型。

训练数据来源广泛:书籍、网页、代码、维基百科、Reddit——合计数万亿个 Token。

训练任务听起来简单得难以置信:

预测下一个 Token。

就这么简单。

但当这一操作在数万亿个样本上反复执行时,奇迹便发生了。

模型先学会语法,再掌握推理,进而学会编写代码、翻译语言、解答数学题。

没有人专门教它这些——这一切都涌现于大规模的下一词预测任务。

“大”代表什么:数千亿个参数,训练成本高达数百万美元。

ChatGPT、Claude、Gemini——都是大语言模型。


7. 上下文窗口(Context Window)

Image 每个 AI 模型都有记忆容量上限,称为**上下文窗口**。

它是模型在单次处理中能”看到”的最大 Token 数量,涵盖:你的消息 + 模型的回复 + 历史对话记录。

模型上下文窗口大小
早期 GPT约 4,000 Token
GPT-4128,000 Token
Claude 3.5200,000 Token
Gemini 1.5 Pro1,000,000 Token

窗口越大 = 上下文越多 = 回答越准确。

但有个陷阱:模型并不均匀地读取所有内容

它的注意力更集中于上下文的开头和结尾,中间部分?往往被忽略。

这就是所谓的 “中间遗忘”(Lost in the Middle)问题

上下文窗口大 ≠ 完美记忆。

理解这一点,就能解释为什么 AI 有时会”忘记”你明明提到过的内容。


8. 温度参数(Temperature)

Image AI 生成文本时,并不总是选择最可能出现的下一个词。它有一个名为**温度**的调节旋钮:
  • Temperature = 0:始终选择最安全、最可预期的词
  • Temperature = 1:选择更具创意、更多变化的词
  • Temperature ≥ 2:输出趋于混乱,有时语无伦次
低温度高温度
代码生成、事实查询、摘要总结头脑风暴、创意写作、方案发散

大多数工具会自动设置该参数。

但理解它,就能解释为什么 AI 有时显得”墨守成规”,有时又令你出乎意料。


9. 幻觉(Hallucination)

Image

AI 会满怀信心地撒谎。

并非有意为之——它从根本上就无法避免。

原因如下:

大语言模型不会”查找”事实,它预测的是最可能出现的下一个 Token

如果一个错误的陈述在模式上”看起来像是该出现的内容”,模型就会生成它——没有核实,没有查询,纯粹是模式匹配。

因此,模型可能会:

  • 引用一篇根本不存在的论文
  • 编造一个从未有过的 API 函数
  • 以十足的把握陈述一个虚假的”历史事实”

这就是幻觉

应对方法:对于事实性内容,绝不盲目信任 AI 的输出,务必核实。使用 RAG(见概念 16)将其锚定于真实数据之上。


10. 提示词工程(Prompt Engineering)

Image **你的提问方式决定一切。**

相同的模型,相同的问题,仅因提问方式不同,输出结果可能天差地别。

低质量提示词

“解释 API” → 输出:泛泛而谈,浮于表面

高质量提示词

“解释 REST API 如何处理身份验证,附带实际代码示例,假设我是一名初级开发者。” → 输出:具体、结构清晰、立即可用

提示词工程本质上是清晰的表达

真正有效的技巧:

  • 提供背景"我正在为 X 构建一个 SaaS 产品"
  • 赋予角色"请扮演一名资深后端工程师"
  • 给出示例"这是我偏好的格式:___"
  • 明确输出要求"给我 5 个选项,以编号列表呈现"
  • 分步拆解:将复杂问题拆解为若干步骤

提示词工程不是旁门左道——它是你与模型沟通的主要方式。


第三部分:AI 模型如何持续改进(原始模型如何进化为实用产品)

11. 迁移学习(Transfer Learning)

Image

从零开始训练代价极高:海量数据、巨大算力、数周时长。

迁移学习解决了这个问题。

做法是:取一个已在大规模通用任务上训练好的模型,再针对特定任务进行适配——不是从零开始,而是在已有基础上继续构建

类比理解:

  • 你已经会骑自行车
  • 学摩托车因此快得多——你在迁移已有的知识

当今几乎所有 AI 产品的运作方式:

  1. OpenAI 训练大型基础模型
  2. 各公司针对各自的垂直场景进行微调
  3. 节省数百万算力成本与数月训练时间

没有公司还在从头训练模型。


12. 微调(Fine-Tuning)

Image

迁移学习是理念,微调是实现手段。

做法是:取一个预训练模型,用更小、更聚焦的数据集继续训练它。

模型已经”会说话”了——现在你在教它你的专业领域。

典型场景:

  • 在临床笔记上微调的医疗模型
  • 在合同文本上微调的法律模型
  • 在 GitHub 代码上微调的编程模型

成果:针对你的使用场景响应精准的模型。

代价:需要更新数十亿个参数,这要求相当的算力——多块 GPU 和完善的基础设施。

(这正是下一个概念 LoRA 如此重要的原因。)


13. 基于人类反馈的强化学习(RLHF,Reinforcement Learning from Human Feedback)

Image 微调让模型专业化,**RLHF** 让模型变得有益且安全。

没有 RLHF:模型只是预测文本。流畅,但不对齐。

有了 RLHF:模型学会了人类真正偏好的是什么。

工作流程

  1. 向模型输入一个提示词
  2. 模型生成多个回复
  3. 人类对回复进行排序
  4. 模型学习偏向人类更喜欢的回复

如此反复数千次。

模型逐渐建立起对”好答案”的判断:清晰、有帮助、诚实、安全。

这正是 ChatGPT 和 Claude 的行为像助手而非随机文本生成器的原因。

没有 RLHF,它们依然令人印象深刻,但远没有那么实用、可信,也难以管控。


14. 低秩适配(LoRA,Low-Rank Adaptation)

Image

微调效果强大,但成本高昂——更新数十亿个参数需要多块 GPU 和完善的基础设施。

LoRA 解决了这个问题。

LoRA 不改变整个模型,而是:

  • 保持原始模型参数冻结不变
  • 在其之上附加极小的可训练层
  • 这些附加层的参数量仅为完整模型的极小一部分

核心洞见:大多数微调所引入的变化是微小的。你不需要重写整个模型,只需进行小而精准的调整。

实际效果

  • 在单块消费级 GPU 上完成微调:可行
  • 保存一个基础模型 + 按需切换不同的 LoRA 适配器:可实用
  • 无需海量存储即可维护多个专用模型:可实现

LoRA 是开源 AI 爆炸式增长的关键。

它让任何人都能在笔记本电脑上微调强大的模型。


15. 量化(Quantization)

Image 模型体积越来越大,运行所需的内存和算力也随之攀升。

量化让模型更小、运行成本更低。

方法:降低每个权重的数值精度。

  • 全精度存储的权重占用 32 位
  • 量化至 4 位 → 体积缩小 8 倍

出人意料的是:精度损失往往相当有限。

这就是为什么你现在可以:

  • 在 MacBook 上运行 LLaMA
  • 在消费级 GPU 上本地运行 Mistral
  • 在手机上使用强大的模型

没有量化,大型模型只能困守于数据中心。有了量化,它们可以在你的设备上直接运行。


第四部分:真实 AI 系统的构建方式(你日常使用的产品背后是什么)

16. 检索增强生成(RAG,Retrieval-Augmented Generation)

Image 大语言模型会产生幻觉,根源在于它只能凭记忆作答。

RAG 的解法是:让模型先查阅资料,再作答。

工作流程

  1. 用户提出问题
  2. 系统在知识库中检索相关文档
  3. 将检索到的文档作为上下文传递给模型
  4. 模型基于真实信息作答——而非凭空猜测

类比理解:

  • 闭卷考试(无 RAG):凭记忆作答,错误率高
  • 开卷考试(有 RAG):查阅原始资料,准确率高得多

为什么强大

  • 数据更新时无需重新训练——只需更新文档即可
  • 模型始终基于最新、准确的信息作答
  • 大幅减少幻觉

所有严肃的 AI 产品都在使用 RAG:客户支持机器人、法律工具、医疗助手、企业内部知识库……


17. 向量数据库(Vector Databases)

Image RAG 需要快速找到正确的文档。

但如何在数百万份文档中按语义检索,而不仅仅靠关键词匹配?

答案是向量数据库

工作原理

  1. 每份文档被转换为嵌入向量(一组数字),存入数据库
  2. 用户提问时,问题同样被转换为向量
  3. 数据库找出与问题向量最接近的文档向量
  4. 返回语义上最相似的文档

为何优于关键词搜索

检索 "心脏病治疗" 时,可以命中包含 "心脏护理方案" 的文档——即便措辞完全不同,语义却高度吻合。

常用工具:Pinecone、Qdrant、Weaviate、pgvector

向量数据库使 AI 系统真正”理解”语义,而不只是进行字符串匹配。


18. AI 智能体(AI Agents)

Image 大语言模型负责**回复消息**,AI 智能体则能够**真正采取行动**。

区别

  • 大语言模型:你问,它答,结束。
  • AI 智能体:你给出目标,它规划、执行、观察结果、调整策略、循环反复。

智能体的运作循环

思考 → 行动 → 观察 → 重复

示例:修复 Bug 的编程智能体:

  1. 读取问题描述
  2. 探索代码库
  3. 定位问题所在
  4. 编写修复代码
  5. 运行测试
  6. 分析失败原因
  7. 调整修复方案
  8. 循环直至完成

模型是大脑,工具是双手。

智能体可以使用哪些工具?

  • 网络搜索
  • 代码执行
  • 文件系统
  • 外部 API
  • 电子邮件 / 日历
  • 数据库

AI 智能体将 AI 从一个聊天机器人,变成一位真正的工作伙伴。


19. 思维链(CoT,Chain of Thought)

Image 有时 AI 给出错误答案,并非因为它不够聪明,而是因为**它跳得太快**。

思维链解决了这个问题。

与其直接要求最终答案:

"计算:一列火车以 60 英里/小时的速度行驶 2.5 小时,走了多远?"

不如引导模型逐步推理:

"分步计算:速度 = 60 英里/小时,时间 = 2.5 小时,距离 = 速度 × 时间 = ?"

模型将一步步推演:

  1. 确定公式
  2. 代入数值
  3. 完成计算

这一方法在数学、逻辑和多步骤问题上大幅提升准确性

核心洞见:给模型足够的空间去思考,而不是仅仅要求它直接反应。

这也是为什么提示词中加入 "请逐步思考""请仔细推理" 真的有效。


20. 扩散模型(Diffusion Models)

Image 前面讨论的一切都关乎文本。**扩散模型**解释的是 AI 如何生成图像。

这个过程有些反直觉。

模型并非学习”如何绘画”,而是学习”如何销毁图像”。

训练阶段

  1. 从一张真实图像出发
  2. 逐步叠加噪声,直至图像变为纯粹的随机噪点
  3. 训练模型学会逆转这一过程——逐步去除噪声

生成阶段

  1. 从纯随机噪声出发
  2. 模型逐步去除噪声
  3. 由你的文字提示词引导方向
  4. 图像从随机性中逐渐浮现

名称来源于物理学——粒子在介质中随机扩散,如墨水在水中散开。这里,模型学会的是逆扩散

应用已远不止于图像:

  • 视频(Sora、Runway)
  • 音频
  • 三维内容
  • 药物分子设计

扩散模型是 AI 生成一切视觉内容的核心机制。


总结:20 个概念速览

AI 底层原理

#概念一句话总结
1神经网络多层感知与学习的模式识别结构
2分词将文本拆解为基本构件
3嵌入以数字向量表征语义
4注意力机制上下文改变词语含义
5Transformer 架构支撑一切的底层架构

大语言模型工作原理

#概念一句话总结
6大语言模型超大规模的下一词预测
7上下文窗口记忆容量与中间遗忘问题
8温度参数创意程度的调节旋钮
9幻觉满怀信心却可能出错
10提示词工程与模型沟通的方式

模型改进方法

#概念一句话总结
11迁移学习在已有基础上继续构建
12微调让模型专业化
13RLHF训练模型学会有益行为
14LoRA低成本实现微调
15量化在小设备上运行大模型

真实系统构建方式

#概念一句话总结
16RAG先检索,再作答
17向量数据库按语义检索信息
18AI 智能体从回答问题到执行任务
19思维链给模型足够的思考空间
20扩散模型从噪声到图像

你现在理解了 AI 真正的运作方式。

每天使用 AI 的大多数人并不明白这些。

这份认知,就是你的优势。