AI 有意识吗?为什么 ChatGPT 这么好用却常一本正经地出错
最近跟身边的人聊天,发现大家对 AI 的想象差异大得惊人:有人受电影影响,担心 AI 哪天会毁灭人类(觉得它快要有意识了),有人觉得它只是高级一点的搜索引擎或聊天机器人。本文尝试回答一个更实际的问题:我们手上的 AI 到底是什么?它为什么有时非常有用,又为什么常在关键时刻很笨?
之前在 ChatGPT 越用越焦虑?AI 时代知识工作者的心理健康指南 谈过 AI 带给知识工作者的焦虑,这篇想退一步,回到更根本的问题。
结论先说:把当前主流的聊天式 AI 拆开来看,它不是单一的神秘黑盒,而是 Transformer 语言模型、大规模预训练、指令微调、检索与工具调用,再加上外层工作流与安全机制的组合。它能产生惊人的结果,不是因为它有“意识”,而是因为它能从庞大的语言与代码语料中学到高度压缩的统计规律,并在合适的 prompt、工具与验证配合下,把这些规律变成可用的输出。
TL;DR:四个核心判断
作为我个人的阅读与消化笔记,本文讨论以下内容:
- 主流 AI 本质上是概率式生成系统,不是数字意识:流畅的对话能力很容易触发拟人化想象与过度信任。
- 它常常“看起来很准”,靠的是三件事:规模化学到的统计规律、对用户意图的后训练,以及工具与检索带来的外部 grounding。
- Agent 不是魔法:通常只是把模型、工具、状态、路由、重试与人工审核组成可执行的编排,而且不是每个任务都值得上 multi-agent。
- 成熟 AI 使用不是迷信 prompt 咒语,认为 AI 所有事情都能做到:而是把任务定义清楚、给对上下文、要求来源、做交叉验证。
LLM 大语言模型的基础:Transformer
让我们简单回顾一下历史。2017 年之前,主流的语言模型(RNN、LSTM)读文字的方式,有点像被规定“一次只能看一个字,看完才能看下一个”:句子一长,前面的信息就容易淡掉,训练速度也快不起来,因为整个过程很难并行化。2017 年,Google 的研究团队发表了一篇标题很有自信的论文 Attention Is All You Need 1,提出 Transformer 架构,让模型不必只靠循环一步步传递记忆,而是能用 attention 直接找出句子里彼此相关的位置。后面的故事发展得非常快:2018 年出现 BERT 与初代 GPT,2020 年 GPT-3 用规模证明了这条路走得通,2022 年底 ChatGPT 把它推到每个人面前。今天几乎所有主流大语言模型 (Large Language Model, LLM)(GPT 系列、Claude、Gemini…)都建立在 Transformer 或其变体上。
timeline
title Transformer 简易发展史
2017 以前 : RNN / LSTM
: 一次读一个字,句子一长就容易失忆
2017 : Transformer 诞生
: Attention Is All You Need
2018 : BERT 与初代 GPT 分头发展
2020 : GPT-3 证明规模的威力
2022 : ChatGPT 让大众第一次直接用上它
那 Transformer 到底是什么?可以把它想成一台“很会抓重点的阅读机器”。它在读一段文字时,不是像以前的模型那样主要靠从左到右慢慢记,而是让句子里的每个字(更准确说是 token)同时发问:“我现在最该注意哪些其他 token?”比方说读到“小明把球丢给小华,然后他就跑走了”,机器在处理“他”这个位置时,会回头衡量“小明”与“小华”哪一个更可能被指代。这种“自己决定要看哪里、看多用力”的能力叫 attention(注意力),正是 Transformer 的核心。
你不需要背任何数学公式,只要抓住一个直觉:Transformer 会为句子里的每个位置算出一张“注意力地图”,标出该看哪里、各看多重,再把看到的信息混合起来,变成下一步要用的理解。也因为每个位置可以同时计算,它天生适合用大量 GPU 并行训练,这正是后来模型能一路长大的工程原因。
flowchart LR
A[输入文字
“小明把球丢给小华”] --> B[切成 tokens]
B --> C[Embedding
把每个 token 变成向量]
C --> D[Self-Attention
每个位置都问:
我现在要注意谁?]
D --> E[FFN
小脑袋再加工一次]
E --> F[重复很多层
Layer 1..N]
F --> G[输出
下一个 token 的概率]
D -.-> H[注意力地图(概念)
“丢”会特别看“球”与“给谁”]
如果用更生活化的比喻:你在写阅读理解题时,看到题目“谁把球丢出去?”,你的眼睛会自动回去扫描“谁”“丢”“球”“给谁”这几个关键词,而不是把整段每个字都同等用力地记住。Transformer 做的就是把这种“回头扫关键词”的行为,变成可以大规模训练的计算。
也因此,当我们说“LLM 很聪明”时,背后其实是:它用 Transformer 在大量文本里学会了“哪些词通常一起出现、哪些句型常接在一起、哪些上下文暗示下一句该往哪里走”这些统计规律,然后在生成时用这些规律一步步猜下一个 token。
这些词在大语言模型的处理中经过 Embedding(更准确说,是将每个 token 转换成一串向量空间的表示方式),所有的运算将变成数学问题进行概率预测:

如果想用一个简单的数学比喻来理解,这些模型面对的问题比较像这样:
x + y < 100,请找出 x 与 y 是多少
第一眼看起来没什么,但注意:这道题没有唯一解。x = 10、y = 20 可以,x = 66、y = 33 也可以,符合条件的组合有无限多组。通常我们熟悉“x + 3 = 10,求 x”这种只有一个正确答案的问题;大语言模型解的却比较像是“在一大堆可能答案里,依照上下文挑一个看起来最合理的下一步”。
对应回文本生成:你给的上下文就像限制条件(x + y < 100),而模型从大量文本学到的统计规律,则告诉它哪些组合比较“像人会写的”。所以同一个问题问它两次,在系统允许随机性的设置下,它可能一次回 x = 10、y = 20,另一次回 x = 66、y = 33:两个答案都符合限制,但不相同。这个画面值得先记住,因为它同时解释了两件事:为什么 LLM 的回答有时不完全一样,以及为什么它偶尔会一本正经地答错(“语言上合理”不等于“事实上正确”)。后面谈到 decoding 与老虎机的比喻时,我们会再回到这个直觉。
我们是否真正理解 AI?
基于现在 AI 大语言模型发展的结果,我自己的观察是:科学界知道怎么训练这些模型,却还没有完整理解为什么某些能力会在规模化后如此有效。我们对“怎么做”的部分很清楚:训练流程通常是用梯度下降,不断降低“猜错下一个 token”的损失,训练程序与优化目标都是人设计的,没有任何神秘成分。但对“为什么有效”的部分,理解就薄弱得多:为什么一个只被要求“猜下一个字”的系统,会顺便学会语法、翻译、写代码,甚至一定程度的推理?为什么参数多到理论上足以死背大量训练数据的模型,却能在没看过的问题上泛化,而不是单纯背答案?这些问题,目前的深度学习理论都还没有完整的答案。
所以比较诚实的描述是:我们像是拿到了一份“照着做就会成功”的食谱,但还没完全搞懂背后的化学反应。也因此出现了 mechanistic interpretability(机制可解释性)这样的研究领域:研究者像做神经科学一样,把模型打开,在里面寻找负责特定概念的回路与特征,试着回答“它到底学到了什么”,但这门学问还非常年轻。这件事对一般用户的意义很实际:模型的能力边界是被“测出来”的,不是被“设计出来”的,所以连开发它的实验室,也得靠大量评测才知道它哪里强、哪里弱。
一个我们尚未完全理解的系统,自然不该被当成保证正确的真理机器。
语言模型变成了一种通用文本界面
如果把近年 LLM 的发展压缩成一句话:2017 年之后,语言模型不只是变大,而是变成了一种通用的文本界面。Transformer 提供了可并行化、可大规模训练的注意力架构;BERT 2 把 encoder-only 路线推上理解任务的高峰;GPT-3 让 few-shot 能力进入主流视野 3;InstructGPT 与后续的聊天模型则证明,后训练与人类反馈往往比单纯把模型做大,更能改善“照用户的意思做事”的能力。
下面这条时间线尝试勾勒出今天 LLM 与 agentic system 的骨架:
timeline
title LLM 与 Agentic AI 的选择性里程碑
2017 : Transformer
2018 : BERT
: SentencePiece
2019 : T5
: BART
: Sentence-BERT
2020 : GPT-3
: Scaling Laws
: DPR
: RAG
2022 : InstructGPT
: ReAct
: Emergent Abilities
2023 : GPT-4
: Toolformer
: AutoGen
: CAMEL
: Emergence Mirage Debate
2024-2026 : 简单可组合 agent patterns 成熟
: 图状工作流与多代理编排文档化
把 Transformer 家族的主流骨架分开来看,会更容易理解“不同模型其实不是同一种工具”这件事:
| 类型 | 代表 | 主要运作方式 | 强项 | 常见限制 |
|---|---|---|---|---|
| Encoder-only | BERT | 双向读取上下文,偏理解 | 分类、抽取、判断、表示学习 | 不擅长自然生成长文本 |
| Decoder-only | GPT 类 | 自回归地逐 token 生成 | 对话、写作、代码生成、通用 completion | 容易幻觉;事实更新依赖工具或外部数据 |
| Encoder-decoder | T5 / BART | 先编码输入,再解码输出 | 摘要、翻译、问答、seq2seq 任务 | 较任务导向,不一定是最佳通用聊天骨干 |
LLM 到底怎么产生一句话
一个聊天式 LLM 生成回答时,最朴素的流程是:把文字切成 token、映射成向量、加上位置信息,经过多层 self-attention 与前馈网络后,输出“下一个 token 的概率分布”,再用 decoding 方法选出下一步,然后不断重复直到结束。
这里有三个需要注意的部分:
- token 不是字,也不是词,而是模型词表中的切分单位。子词化之所以重要,是因为自然语言是开放词汇:新词、缩写、专有名词与拼写变形会不断冒出。因此有很多进行切分的方式及研究,例如 BPE 的核心是用固定大小的词汇表表示可变长度的子字符串 4;SentencePiece 进一步做成语言无关、可直接从原始句子训练的 tokenizer,对中文这种没有空格分词的语言尤其重要 5。
- 训练数据不是知识库,而是让模型学习条件分布的语料。GPT-3 论文中提到,它是 1750 亿参数的自回归模型,训练数据以 Common Crawl 为主,也包含书籍与 Wikipedia 3;OpenAI 对 GPT-4 的公开说法则是:base model 使用公开数据与授权数据预训练,之后再以 RLHF 对齐用户意图 6。覆盖面惊人,但互联网世界的偏误、冗余与质量不均也一并被带进模型。数据越多,不等于对世界的理解越完整。
- 可用性主要来自后训练。BERT 是双向表征模型,GPT-3 展示了 few-shot transfer,但真正让“跟你说人话、照你的意思做事”变得可用的转折点,是 InstructGPT 这类以示范数据与人类偏好排序做后训练的方法。OpenAI 在论文里展示:一个 1.3B 的 InstructGPT,在人类偏好评分上可以胜过 175B 的原始 GPT-3 7。AI 好不好用,经常是训练目标与界面设计的问题,不只是参数量的问题。
到了输出阶段,差别最大的往往不是模型知道多少,而是你怎么从那个概率分布中抽样 8。下面这张表,是理解“AI 为什么有时很像老虎机”的关键:
| 解码方式 | 怎么选下一个 token | 优点 | 典型问题 |
|---|---|---|---|
| Greedy | 每一步都选最高概率 | 稳定、可复现、便宜 | 容易早早走入错误路径 |
| Beam Search | 同时保留多条高概率候选序列 | 对结构化生成有时有效 | 追求模型概率,不等于追求真实或自然 |
| Top-k / Top-p | 只在高概率子集合中抽样 | 平衡多样性与流畅度 | 参数不好调时会发散或保守 |
| Self-consistency | 采样多条思路再投票 | 对推理题常更准 | 成本更高,且仍可能集体错误 |
高准确率的老虎机
世界上存在大量可压缩的规律,而语言恰好把许多规律留下了痕迹。随着模型、数据与算力增长,语言模型的能力会呈现可预期的改善 9;GPT-3 则展示了在大规模数据集训练下,从 zero-shot 到 few-shot 的迁移能力 3。这不保证模型“理解”得像人,但只要任务与训练分布之间有足够重叠,它就可能非常好用。
准确度还有另一个来源:外部记忆与工具(例如 RAG 方法, Retrieval-Augmented Generation)。RAG 的论文中强调参数式记忆存了很多知识,但在知识密集任务上,存取与更新仍然有限;然而,把模型接上向量索引之后,生成结果通常会更具体,也更贴近事实 10。
因此,很多“看起来更聪明”的 agent,其实不是脑子突然长出来,而是多了外部工具与更好的控制流。
更准确地说,模型每一步会先算出下一个 token 的概率分布;系统再用 greedy、top-p、temperature 等 decoding 策略从中选出下一步。temperature 参数调高时(在大语言模型中通常会增加输出的随机性与创造力),回答更有创意、也更不稳定;同时,它也并非毫无规则地乱吐字,表现仍深深依赖已学到的统计结构、上下文与工具可用性。
flowchart LR
A[低温 / Greedy
单次命中率高、多样性低
稳定保守,适合事实性任务] -->|调高随机性| B[中温 / Top-p
命中率与多样性折中
日常任务的平衡点]
B -->|继续调高| C[高温 / 高采样
单次命中率低、多样性高
创意发散,惊喜与翻车并存]
B -. 多次采样再投票 .-> D[多路采样后投票
命中率高、多样性高
用成本与延迟换质量]
C -. 多次采样再投票 .-> D
Agentic 不是魔法,是编排
如果把 LLM 比喻成一颗很强但不够稳定的文本推理核心,agent 就是把它接上现实世界的外壳。Anthropic 在《Building effective agents》里的注解提到:工作流是让 LLM 与工具沿着预先定义的 code path 被编排;agent 则是让模型自己动态决定流程与工具的使用方式 11。
Consistently, the most successful implementations weren’t using complex frameworks or specialized libraries. Instead, they were building with simple, composable patterns. — Anthropic
从工程实现的角度看,agent 的基本堆栈其实就是将人类的可执行步骤拆解(模型、工具定义、状态、路由、人工审核、记录与追踪):
- 你把工具的框架告知大语言模型,最终由模型依照中间判断决定是否调用
- 应用端执行工具拿回结果,再把 tool output 回送给模型产生最终回答
真正增加能力的,不是“Agent”这个词,而是把外部数据与动作安全地接进系统。
flowchart TD
A[用户需求] --> B[Router 或 Planner]
B --> C[单一 LLM 判断是否足够]
C -->|足够| D[直接回答]
C -->|不足| E[检索或工具调用]
E --> F[搜索 / 数据库 / API / 计算器]
F --> G[专家代理或子任务]
G --> H[Reviewer / Verifier]
H --> I[带来源或可执行结果的最终输出]
H -->|高风险或不确定| J[Human-in-the-loop]
J --> I
上面这张图,是把 ReAct 12、Toolformer 13、function calling、图状 workflow 与 human-in-the-loop 几种思路,压缩成同一张工程视角的流程图。
当然,不是每个复杂任务都需要 multi-agent,有时候,许多任务靠一个 agent 配上合适的工具与 prompt,就能达到相似的结果。我个人认为这点在 2025 到 2026 年的 AI Agent 狂热里特别重要,最大的风险之一,就是把“增加模型调用次数”误当成“增加系统智慧”。
| 方式 | 代表脉络 | 适合什么 | 主要优点 | 主要代价 |
|---|---|---|---|---|
| 单一 agent + tools | Function calling / skills | 任务边界明确、需要少量工具 | 成本低、调试容易 | 上下文太多时容易混乱 |
| Planner-executor | ReAct 类 | 需要分步推理与外部查证 | 轨迹可检查、较能减少幻觉 | 延迟增加 |
| Multi-agent | AutoGen / CAMEL / multi-agent frameworks | 多领域、多人协作样式、并行子任务 | 模块化、可分工 | coordination 成本高、失败面更多 |
| Graph workflow | LangGraph / workflow engines | 长流程、状态持久、人工审核 | 显式控制、可观测、可靠性较高 | 设计成本较高 |
AI 是否有意识?
综观围绕人工智能相关电影的叙事,AI 几乎总是被拍成两种东西:要么像人,要么比人更像人,甚至带来毁灭或负面结果,某种程度上挑起人类对于 AI 的恐惧。这些角色之所以迷人,正是因为它们被赋予了欲望、意图、情感与自我。那是好的戏剧叙事,却不是今天多数 LLM 系统的工程描述。
问题在于,当聊天模型越来越像在“与你对话”,人就越容易把它当成有内在主体的存在。更有意思的是,《Neuroscience of Consciousness》一项调查发现:一般大众中多数受试者愿意将“某种程度的意识可能性”归给 LLM,而且使用频率越高,这种倾向越强 14。
所以比较严谨的说法,不是“AI 显然已经有意识”,而是今天的公共讨论,远比科学判准成熟得更快。至少对当前主流部署系统来说,我们能确定的是:它们是为 token 预测、遵循指令、工具使用与 workflow 编排而设计的系统。至于它们是否具备主观经验,目前没有公认的科学证据或测试能证成;工程上也不需要假设它们有自我、欲望或内在意图,才能解释其主要行为。
正在扩散的 AI Slop:AI 是否真的有用,还是只是让我们更累?
在这些 AI 工具普及下,我们也许需要想想另一个更迫切的问题:AI Slop。AI slop 指的是在低人工监督、低责任承担、低质量门槛下大量制造的内容。
它可以是直接从 chatbot 回答复制粘贴出来的低质量内容。问题不只在幻觉本身,更在数量:当整个网站、整串讨论、整个 feed 都被低成本内容灌满,SEO 农场与无人看管的内容农场,就会把信息环境的信噪比一路往下拉。
Noy 与 Zhang 的实验显示,在 444 名受试者的中等专业写作任务中,ChatGPT 让平均完成时间下降约 40%、质量提高约 18% 15;Brynjolfsson、Li 与 Raymond 的客服研究则显示,AI 辅助让平均生产力提升约 14%,对新手与低技能工作者的帮助特别大,最高可达 34% 16。至少在“可文本化、可拆解、可评分”的任务上,LLM 是货真价实的生产力工具。
但 AI slop 的扩散,提醒我们:“单次任务效率提升”不等于“整体信息环境变好”。当每个人都能用极低成本生成大量“看起来合理”的内容时,内容的供给曲线会爆炸式右移,而人的注意力与审核能力却不会等比例增加。结果往往是:
- 你更快完成一篇稿,但读者更难在海量内容里找到真正有价值的那一篇
- 你更快做出一份报告,但组织内部开始充斥大量互相引用、互相幻觉的“二手生成物”
- 你更快得到一个答案,但你更难判断它是否可信
Harvard 与 BCG 合作的“Jagged Technological Frontier”研究则提醒我们:AI 带来的不是一条平滑的能力曲线,而是一道锯齿状的前沿。对于落在前沿之内的顾问任务,使用 GPT-4 的参与者平均完成更多任务、速度快 25.1%、质量高出超过 40%;但对于落在前沿之外的任务,使用 AI 的人正确率反而比控制组低了 19 个百分点 17。
也许,今天的 AI 最适合扮演的角色,比较像下面这样:
| 任务类型 | 使用 AI 的适配度 | 为什么 |
|---|---|---|
| 草稿、摘要、改写、翻译、格式整理 | 高 | 任务可文本化、容错高、收益即时 |
| 企业内知识问答 | 中高 | 搭配检索、权限与来源引用后很实用 |
| 代码辅助、测试样板、文档生成 | 中高 | 对局部模式与 boilerplate 很强,但需 code review |
| 多步骤流程自动化 | 中 | 要有工具、状态管理与 human approval 才较可靠 |
| 医疗、法律、财务等高风险判断 | 低到中 | 可当辅助,不宜当终审,必须外部验证 |
写到这里,“prompt engineering”也许能更加去营销化。Prompt 不是咒语,而是界面规格。它的重要性不在于某句神秘模板,而在于你是否把任务、上下文、限制与评分方式讲清楚。
但问题在于,现今许多人相信 AI 工具能快速总结与摘要想知道的内容,因此往往跳过必要的领域知识学习与独立思考,结果在解决特定领域问题时,反而写不出好的 prompt。在软件工程中,这就像需求没有定义清楚,自然做不出高质量的应用程序。
是的,也许 AI 工具能让不懂写代码的人更快做出应用;但要审查代码结构、进行系统优化,乃至长期的维护,仍需要大量的领域知识与训练。这也容易造成一种“外行已跨入特定领域”的假象,忽略了在下 prompt 时其实无法精准界定问题,最后只能得到模棱两可、看似有道理的结论。
相对地,对于已具备专业知识的人而言,这些工具能精简繁琐的构思与整理流程,让人把更多精力与时间投入最终的审查与调校。
结语
如果要用一句话收尾:今天的 AI 不是神,也不是玩具;它是一套高能力、概率式、可被工具增强、但仍需要设计与约束的系统。目前它最有价值的用法,不是取代思考,而是把重复、搜索、草稿、重组、比较与初步推理等工作压缩掉;相对地,则是在尚未建立验证的认知前,就把它误认成一切的真理。
下次再看到“AI 快要有意识了”这类标题时,不妨回到第一性原理,检视 AI 背后实际的技术底层架构,让我们能更理性地看待 AI 的发展趋势。
参考资源
-
BERT: Pre-training of Deep Bidirectional Transformers (Devlin et al., 2018) ↩
-
Language Models are Few-Shot Learners (Brown et al., 2020) ↩ ↩2 ↩3
-
Neural Machine Translation of Rare Words with Subword Units (Sennrich et al., 2015) ↩
-
SentencePiece: A simple and language independent subword tokenizer (Kudo & Richardson, 2018) ↩
-
Training language models to follow instructions with human feedback (Ouyang et al., 2022) ↩
-
The Curious Case of Neural Text Degeneration (Holtzman et al., 2019) ↩
-
Scaling Laws for Neural Language Models (Kaplan et al., 2020) ↩
-
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Lewis et al., 2020) ↩
-
ReAct: Synergizing Reasoning and Acting in Language Models (Yao et al., 2022) ↩
-
Toolformer: Language Models Can Teach Themselves to Use Tools (Schick et al., 2023) ↩
-
Folk psychological attributions of consciousness to large language models (Colombatto & Fleming, 2024) ↩
-
Experimental evidence on the productivity effects of generative artificial intelligence (Noy & Zhang, 2023) ↩
-
Navigating the Jagged Technological Frontier (Dell’Acqua et al., 2023) / SSRN abstract ↩