AI 有意识吗？为什么 ChatGPT 这么好用却常一本正经地出错

最近跟身边的人聊天，发现大家对 AI 的想象差异大得惊人：有人受电影影响，担心 AI 哪天会毁灭人类（觉得它快要有意识了），有人觉得它只是高级一点的搜索引擎或聊天机器人。本文尝试回答一个更实际的问题：我们手上的 AI 到底是什么？它为什么有时非常有用，又为什么常在关键时刻很笨？

之前在 ChatGPT 越用越焦虑？AI 时代知识工作者的心理健康指南谈过 AI 带给知识工作者的焦虑，这篇想退一步，回到更根本的问题。

结论先说：把当前主流的聊天式 AI 拆开来看，它不是单一的神秘黑盒，而是 Transformer 语言模型、大规模预训练、指令微调、检索与工具调用，再加上外层工作流与安全机制的组合。它能产生惊人的结果，不是因为它有“意识”，而是因为它能从庞大的语言与代码语料中学到高度压缩的统计规律，并在合适的 prompt、工具与验证配合下，把这些规律变成可用的输出。

TL;DR：四个核心判断

作为我个人的阅读与消化笔记，本文讨论以下内容：

主流 AI 本质上是概率式生成系统，不是数字意识：流畅的对话能力很容易触发拟人化想象与过度信任。
它常常“看起来很准”，靠的是三件事：规模化学到的统计规律、对用户意图的后训练，以及工具与检索带来的外部 grounding。
Agent 不是魔法：通常只是把模型、工具、状态、路由、重试与人工审核组成可执行的编排，而且不是每个任务都值得上 multi-agent。
成熟 AI 使用不是迷信 prompt 咒语，认为 AI 所有事情都能做到：而是把任务定义清楚、给对上下文、要求来源、做交叉验证。

LLM 大语言模型的基础：Transformer

让我们简单回顾一下历史。2017 年之前，主流的语言模型（RNN、LSTM）读文字的方式，有点像被规定“一次只能看一个字，看完才能看下一个”：句子一长，前面的信息就容易淡掉，训练速度也快不起来，因为整个过程很难并行化。2017 年，Google 的研究团队发表了一篇标题很有自信的论文 Attention Is All You Need ¹，提出 Transformer 架构，让模型不必只靠循环一步步传递记忆，而是能用 attention 直接找出句子里彼此相关的位置。后面的故事发展得非常快：2018 年出现 BERT 与初代 GPT，2020 年 GPT-3 用规模证明了这条路走得通，2022 年底 ChatGPT 把它推到每个人面前。今天几乎所有主流大语言模型 (Large Language Model, LLM)（GPT 系列、Claude、Gemini…）都建立在 Transformer 或其变体上。

timeline
    title Transformer 简易发展史
    2017 以前 : RNN / LSTM
              : 一次读一个字，句子一长就容易失忆
    2017 : Transformer 诞生
         : Attention Is All You Need
    2018 : BERT 与初代 GPT 分头发展
    2020 : GPT-3 证明规模的威力
    2022 : ChatGPT 让大众第一次直接用上它

那 Transformer 到底是什么？可以把它想成一台“很会抓重点的阅读机器”。它在读一段文字时，不是像以前的模型那样主要靠从左到右慢慢记，而是让句子里的每个字（更准确说是 token）同时发问：“我现在最该注意哪些其他 token？”比方说读到“小明把球丢给小华，然后他就跑走了”，机器在处理“他”这个位置时，会回头衡量“小明”与“小华”哪一个更可能被指代。这种“自己决定要看哪里、看多用力”的能力叫 attention（注意力），正是 Transformer 的核心。

你不需要背任何数学公式，只要抓住一个直觉：Transformer 会为句子里的每个位置算出一张“注意力地图”，标出该看哪里、各看多重，再把看到的信息混合起来，变成下一步要用的理解。也因为每个位置可以同时计算，它天生适合用大量 GPU 并行训练，这正是后来模型能一路长大的工程原因。

flowchart LR
    A[输入文字
“小明把球丢给小华”] --> B[切成 tokens]
    B --> C[Embedding
把每个 token 变成向量]
    C --> D[Self-Attention
每个位置都问：
我现在要注意谁？]
    D --> E[FFN
小脑袋再加工一次]
    E --> F[重复很多层
Layer 1..N]
    F --> G[输出
下一个 token 的概率]

    D -.-> H[注意力地图（概念）
“丢”会特别看“球”与“给谁”]

如果用更生活化的比喻：你在写阅读理解题时，看到题目“谁把球丢出去？”，你的眼睛会自动回去扫描“谁”“丢”“球”“给谁”这几个关键词，而不是把整段每个字都同等用力地记住。Transformer 做的就是把这种“回头扫关键词”的行为，变成可以大规模训练的计算。

也因此，当我们说“LLM 很聪明”时，背后其实是：它用 Transformer 在大量文本里学会了“哪些词通常一起出现、哪些句型常接在一起、哪些上下文暗示下一句该往哪里走”这些统计规律，然后在生成时用这些规律一步步猜下一个 token。

这些词在大语言模型的处理中经过 Embedding（更准确说，是将每个 token 转换成一串向量空间的表示方式），所有的运算将变成数学问题进行概率预测：

如果想用一个简单的数学比喻来理解，这些模型面对的问题比较像这样：

x + y < 100，请找出 x 与 y 是多少

第一眼看起来没什么，但注意：这道题没有唯一解。x = 10、y = 20 可以，x = 66、y = 33 也可以，符合条件的组合有无限多组。通常我们熟悉“x + 3 = 10，求 x”这种只有一个正确答案的问题；大语言模型解的却比较像是“在一大堆可能答案里，依照上下文挑一个看起来最合理的下一步”。

对应回文本生成：你给的上下文就像限制条件（x + y < 100），而模型从大量文本学到的统计规律，则告诉它哪些组合比较“像人会写的”。所以同一个问题问它两次，在系统允许随机性的设置下，它可能一次回 x = 10、y = 20，另一次回 x = 66、y = 33：两个答案都符合限制，但不相同。这个画面值得先记住，因为它同时解释了两件事：为什么 LLM 的回答有时不完全一样，以及为什么它偶尔会一本正经地答错（“语言上合理”不等于“事实上正确”）。后面谈到 decoding 与老虎机的比喻时，我们会再回到这个直觉。

我们是否真正理解 AI？

基于现在 AI 大语言模型发展的结果，我自己的观察是：科学界知道怎么训练这些模型，却还没有完整理解为什么某些能力会在规模化后如此有效。我们对“怎么做”的部分很清楚：训练流程通常是用梯度下降，不断降低“猜错下一个 token”的损失，训练程序与优化目标都是人设计的，没有任何神秘成分。但对“为什么有效”的部分，理解就薄弱得多：为什么一个只被要求“猜下一个字”的系统，会顺便学会语法、翻译、写代码，甚至一定程度的推理？为什么参数多到理论上足以死背大量训练数据的模型，却能在没看过的问题上泛化，而不是单纯背答案？这些问题，目前的深度学习理论都还没有完整的答案。

所以比较诚实的描述是：我们像是拿到了一份“照着做就会成功”的食谱，但还没完全搞懂背后的化学反应。也因此出现了 mechanistic interpretability（机制可解释性）这样的研究领域：研究者像做神经科学一样，把模型打开，在里面寻找负责特定概念的回路与特征，试着回答“它到底学到了什么”，但这门学问还非常年轻。这件事对一般用户的意义很实际：模型的能力边界是被“测出来”的，不是被“设计出来”的，所以连开发它的实验室，也得靠大量评测才知道它哪里强、哪里弱。

一个我们尚未完全理解的系统，自然不该被当成保证正确的真理机器。

语言模型变成了一种通用文本界面

如果把近年 LLM 的发展压缩成一句话：2017 年之后，语言模型不只是变大，而是变成了一种通用的文本界面。Transformer 提供了可并行化、可大规模训练的注意力架构；BERT ² 把 encoder-only 路线推上理解任务的高峰；GPT-3 让 few-shot 能力进入主流视野 ³；InstructGPT 与后续的聊天模型则证明，后训练与人类反馈往往比单纯把模型做大，更能改善“照用户的意思做事”的能力。

下面这条时间线尝试勾勒出今天 LLM 与 agentic system 的骨架：

timeline
    title LLM 与 Agentic AI 的选择性里程碑
    2017 : Transformer
    2018 : BERT
         : SentencePiece
    2019 : T5
         : BART
         : Sentence-BERT
    2020 : GPT-3
         : Scaling Laws
         : DPR
         : RAG
    2022 : InstructGPT
         : ReAct
         : Emergent Abilities
    2023 : GPT-4
         : Toolformer
         : AutoGen
         : CAMEL
         : Emergence Mirage Debate
    2024-2026 : 简单可组合 agent patterns 成熟
         : 图状工作流与多代理编排文档化

把 Transformer 家族的主流骨架分开来看，会更容易理解“不同模型其实不是同一种工具”这件事：

类型	代表	主要运作方式	强项	常见限制
Encoder-only	BERT	双向读取上下文，偏理解	分类、抽取、判断、表示学习	不擅长自然生成长文本
Decoder-only	GPT 类	自回归地逐 token 生成	对话、写作、代码生成、通用 completion	容易幻觉；事实更新依赖工具或外部数据
Encoder-decoder	T5 / BART	先编码输入，再解码输出	摘要、翻译、问答、seq2seq 任务	较任务导向，不一定是最佳通用聊天骨干

LLM 到底怎么产生一句话

一个聊天式 LLM 生成回答时，最朴素的流程是：把文字切成 token、映射成向量、加上位置信息，经过多层 self-attention 与前馈网络后，输出“下一个 token 的概率分布”，再用 decoding 方法选出下一步，然后不断重复直到结束。

这里有三个需要注意的部分：

token 不是字，也不是词，而是模型词表中的切分单位。子词化之所以重要，是因为自然语言是开放词汇：新词、缩写、专有名词与拼写变形会不断冒出。因此有很多进行切分的方式及研究，例如 BPE 的核心是用固定大小的词汇表表示可变长度的子字符串 ⁴；SentencePiece 进一步做成语言无关、可直接从原始句子训练的 tokenizer，对中文这种没有空格分词的语言尤其重要 ⁵。
训练数据不是知识库，而是让模型学习条件分布的语料。GPT-3 论文中提到，它是 1750 亿参数的自回归模型，训练数据以 Common Crawl 为主，也包含书籍与 Wikipedia ³；OpenAI 对 GPT-4 的公开说法则是：base model 使用公开数据与授权数据预训练，之后再以 RLHF 对齐用户意图 ⁶。覆盖面惊人，但互联网世界的偏误、冗余与质量不均也一并被带进模型。数据越多，不等于对世界的理解越完整。
可用性主要来自后训练。BERT 是双向表征模型，GPT-3 展示了 few-shot transfer，但真正让“跟你说人话、照你的意思做事”变得可用的转折点，是 InstructGPT 这类以示范数据与人类偏好排序做后训练的方法。OpenAI 在论文里展示：一个 1.3B 的 InstructGPT，在人类偏好评分上可以胜过 175B 的原始 GPT-3 ⁷。AI 好不好用，经常是训练目标与界面设计的问题，不只是参数量的问题。

到了输出阶段，差别最大的往往不是模型知道多少，而是你怎么从那个概率分布中抽样 ⁸。下面这张表，是理解“AI 为什么有时很像老虎机”的关键：

解码方式	怎么选下一个 token	优点	典型问题
Greedy	每一步都选最高概率	稳定、可复现、便宜	容易早早走入错误路径
Beam Search	同时保留多条高概率候选序列	对结构化生成有时有效	追求模型概率，不等于追求真实或自然
Top-k / Top-p	只在高概率子集合中抽样	平衡多样性与流畅度	参数不好调时会发散或保守
Self-consistency	采样多条思路再投票	对推理题常更准	成本更高，且仍可能集体错误

高准确率的老虎机

世界上存在大量可压缩的规律，而语言恰好把许多规律留下了痕迹。随着模型、数据与算力增长，语言模型的能力会呈现可预期的改善 ⁹；GPT-3 则展示了在大规模数据集训练下，从 zero-shot 到 few-shot 的迁移能力 ³。这不保证模型“理解”得像人，但只要任务与训练分布之间有足够重叠，它就可能非常好用。

准确度还有另一个来源：外部记忆与工具（例如 RAG 方法, Retrieval-Augmented Generation）。RAG 的论文中强调参数式记忆存了很多知识，但在知识密集任务上，存取与更新仍然有限；然而，把模型接上向量索引之后，生成结果通常会更具体，也更贴近事实 ¹⁰。

因此，很多“看起来更聪明”的 agent，其实不是脑子突然长出来，而是多了外部工具与更好的控制流。

更准确地说，模型每一步会先算出下一个 token 的概率分布；系统再用 greedy、top-p、temperature 等 decoding 策略从中选出下一步。temperature 参数调高时（在大语言模型中通常会增加输出的随机性与创造力），回答更有创意、也更不稳定；同时，它也并非毫无规则地乱吐字，表现仍深深依赖已学到的统计结构、上下文与工具可用性。

flowchart LR
    A[低温 / Greedy
单次命中率高、多样性低
稳定保守，适合事实性任务] -->|调高随机性| B[中温 / Top-p
命中率与多样性折中
日常任务的平衡点]
    B -->|继续调高| C[高温 / 高采样
单次命中率低、多样性高
创意发散，惊喜与翻车并存]
    B -. 多次采样再投票 .-> D[多路采样后投票
命中率高、多样性高
用成本与延迟换质量]
    C -. 多次采样再投票 .-> D

Agentic 不是魔法，是编排

如果把 LLM 比喻成一颗很强但不够稳定的文本推理核心，agent 就是把它接上现实世界的外壳。Anthropic 在《Building effective agents》里的注解提到：工作流是让 LLM 与工具沿着预先定义的 code path 被编排；agent 则是让模型自己动态决定流程与工具的使用方式 ¹¹。

Consistently, the most successful implementations weren’t using complex frameworks or specialized libraries. Instead, they were building with simple, composable patterns. — Anthropic

从工程实现的角度看，agent 的基本堆栈其实就是将人类的可执行步骤拆解（模型、工具定义、状态、路由、人工审核、记录与追踪）：

你把工具的框架告知大语言模型，最终由模型依照中间判断决定是否调用
应用端执行工具拿回结果，再把 tool output 回送给模型产生最终回答

真正增加能力的，不是“Agent”这个词，而是把外部数据与动作安全地接进系统。

flowchart TD
    A[用户需求] --> B[Router 或 Planner]
    B --> C[单一 LLM 判断是否足够]
    C -->|足够| D[直接回答]
    C -->|不足| E[检索或工具调用]
    E --> F[搜索 / 数据库 / API / 计算器]
    F --> G[专家代理或子任务]
    G --> H[Reviewer / Verifier]
    H --> I[带来源或可执行结果的最终输出]
    H -->|高风险或不确定| J[Human-in-the-loop]
    J --> I

上面这张图，是把 ReAct ¹²、Toolformer ¹³、function calling、图状 workflow 与 human-in-the-loop 几种思路，压缩成同一张工程视角的流程图。

当然，不是每个复杂任务都需要 multi-agent，有时候，许多任务靠一个 agent 配上合适的工具与 prompt，就能达到相似的结果。我个人认为这点在 2025 到 2026 年的 AI Agent 狂热里特别重要，最大的风险之一，就是把“增加模型调用次数”误当成“增加系统智慧”。

方式	代表脉络	适合什么	主要优点	主要代价
单一 agent + tools	Function calling / skills	任务边界明确、需要少量工具	成本低、调试容易	上下文太多时容易混乱
Planner-executor	ReAct 类	需要分步推理与外部查证	轨迹可检查、较能减少幻觉	延迟增加
Multi-agent	AutoGen / CAMEL / multi-agent frameworks	多领域、多人协作样式、并行子任务	模块化、可分工	coordination 成本高、失败面更多
Graph workflow	LangGraph / workflow engines	长流程、状态持久、人工审核	显式控制、可观测、可靠性较高	设计成本较高

AI 是否有意识？

综观围绕人工智能相关电影的叙事，AI 几乎总是被拍成两种东西：要么像人，要么比人更像人，甚至带来毁灭或负面结果，某种程度上挑起人类对于 AI 的恐惧。这些角色之所以迷人，正是因为它们被赋予了欲望、意图、情感与自我。那是好的戏剧叙事，却不是今天多数 LLM 系统的工程描述。

问题在于，当聊天模型越来越像在“与你对话”，人就越容易把它当成有内在主体的存在。更有意思的是，《Neuroscience of Consciousness》一项调查发现：一般大众中多数受试者愿意将“某种程度的意识可能性”归给 LLM，而且使用频率越高，这种倾向越强 ¹⁴。

所以比较严谨的说法，不是“AI 显然已经有意识”，而是今天的公共讨论，远比科学判准成熟得更快。至少对当前主流部署系统来说，我们能确定的是：它们是为 token 预测、遵循指令、工具使用与 workflow 编排而设计的系统。至于它们是否具备主观经验，目前没有公认的科学证据或测试能证成；工程上也不需要假设它们有自我、欲望或内在意图，才能解释其主要行为。

正在扩散的 AI Slop：AI 是否真的有用，还是只是让我们更累？

在这些 AI 工具普及下，我们也许需要想想另一个更迫切的问题：AI Slop。AI slop 指的是在低人工监督、低责任承担、低质量门槛下大量制造的内容。

它可以是直接从 chatbot 回答复制粘贴出来的低质量内容。问题不只在幻觉本身，更在数量：当整个网站、整串讨论、整个 feed 都被低成本内容灌满，SEO 农场与无人看管的内容农场，就会把信息环境的信噪比一路往下拉。

Noy 与 Zhang 的实验显示，在 444 名受试者的中等专业写作任务中，ChatGPT 让平均完成时间下降约 40%、质量提高约 18% ¹⁵；Brynjolfsson、Li 与 Raymond 的客服研究则显示，AI 辅助让平均生产力提升约 14%，对新手与低技能工作者的帮助特别大，最高可达 34% ¹⁶。至少在“可文本化、可拆解、可评分”的任务上，LLM 是货真价实的生产力工具。

但 AI slop 的扩散，提醒我们：“单次任务效率提升”不等于“整体信息环境变好”。当每个人都能用极低成本生成大量“看起来合理”的内容时，内容的供给曲线会爆炸式右移，而人的注意力与审核能力却不会等比例增加。结果往往是：

你更快完成一篇稿，但读者更难在海量内容里找到真正有价值的那一篇
你更快做出一份报告，但组织内部开始充斥大量互相引用、互相幻觉的“二手生成物”
你更快得到一个答案，但你更难判断它是否可信

Harvard 与 BCG 合作的“Jagged Technological Frontier”研究则提醒我们：AI 带来的不是一条平滑的能力曲线，而是一道锯齿状的前沿。对于落在前沿之内的顾问任务，使用 GPT-4 的参与者平均完成更多任务、速度快 25.1%、质量高出超过 40%；但对于落在前沿之外的任务，使用 AI 的人正确率反而比控制组低了 19 个百分点 ¹⁷。

也许，今天的 AI 最适合扮演的角色，比较像下面这样：

任务类型	使用 AI 的适配度	为什么
草稿、摘要、改写、翻译、格式整理	高	任务可文本化、容错高、收益即时
企业内知识问答	中高	搭配检索、权限与来源引用后很实用
代码辅助、测试样板、文档生成	中高	对局部模式与 boilerplate 很强，但需 code review
多步骤流程自动化	中	要有工具、状态管理与 human approval 才较可靠
医疗、法律、财务等高风险判断	低到中	可当辅助，不宜当终审，必须外部验证

写到这里，“prompt engineering”也许能更加去营销化。Prompt 不是咒语，而是界面规格。它的重要性不在于某句神秘模板，而在于你是否把任务、上下文、限制与评分方式讲清楚。

但问题在于，现今许多人相信 AI 工具能快速总结与摘要想知道的内容，因此往往跳过必要的领域知识学习与独立思考，结果在解决特定领域问题时，反而写不出好的 prompt。在软件工程中，这就像需求没有定义清楚，自然做不出高质量的应用程序。

是的，也许 AI 工具能让不懂写代码的人更快做出应用；但要审查代码结构、进行系统优化，乃至长期的维护，仍需要大量的领域知识与训练。这也容易造成一种“外行已跨入特定领域”的假象，忽略了在下 prompt 时其实无法精准界定问题，最后只能得到模棱两可、看似有道理的结论。

相对地，对于已具备专业知识的人而言，这些工具能精简繁琐的构思与整理流程，让人把更多精力与时间投入最终的审查与调校。

结语

如果要用一句话收尾：今天的 AI 不是神，也不是玩具；它是一套高能力、概率式、可被工具增强、但仍需要设计与约束的系统。目前它最有价值的用法，不是取代思考，而是把重复、搜索、草稿、重组、比较与初步推理等工作压缩掉；相对地，则是在尚未建立验证的认知前，就把它误认成一切的真理。

下次再看到“AI 快要有意识了”这类标题时，不妨回到第一性原理，检视 AI 背后实际的技术底层架构，让我们能更理性地看待 AI 的发展趋势。

参考资源

05 Jul 2026

« Oncall 心态指南：Dropbox 与 AWS 顶尖工程师如何看待事故应对与复盘

TPU 的 4x4x4 到底在乘什么？一篇看懂 TPU Slice 与 GPU 设计哲学 »

Eason Cao Follow Eason is an engineer working at FANNG and living in Europe. He was accredited as AWS Professional Solution Architect, AWS Professional DevOps Engineer and CNCF Certified Kubernetes Administrator. He started his Kubernetes journey in 2017 and enjoys solving real-world business problems.