文章

AI-概念扫盲

AI-概念扫盲

深度学习

关键概念:神经网络,CNNS,RNNS,Transformer

人工智能(AI):人工智能是使计算机模拟人类智能行为的科学,包括学习、推理和自我改进。

机器学习(ML):机器学习是人工智能的一个分支,它使计算机能够通过数据和算法自动学习并改进其性能。

深度学习(DL):深度学习是机器学习的一种方法,通过使用复杂的神经网络结构来处理大量数据,使得机器能够执行高级模式识别和预测。

深度学习算法试图模拟人类大脑的工作方式,其灵感来源于神经生物学,它通过对大量数据的学习,自动提取出数据的高层次特征和模式,从而实现图像识别语音识别、自然语言处理等任务。

按照架构的不同,神经网络可以分为:卷积神经网络(CNNs)、循环神经网络(RNNs)、Transformer网络等等。

同样是区分不同水果,这次你带着孩子去了超市那里有各种不同的水果,你没有解释每种水果的特点只是给孩子指出了哪些是苹果哪些是香蕉,他通过观察和比较,慢慢学会了辨认各种水果。在这个过程中,孩子的大脑(在这里比喻为深度学习模型)自动从复杂的视觉、嗅觉等信号中提取层次化的特征。比如圆形、条纹、颜色深浅、气味等,从而达到识别水果的目的。

自然语言处理(NLP)是人工智能和计算机科学的一个重要分支,旨在使计算机能够理解、解释和生成人类语言。它结合了计算机科学、语言学和数据科学的元素,用于解决与语言相关的各种问题。NLP的应用包括机器翻译、语音识别、情感分析、文本摘要、聊天机器人等。通过算法和大量的数据训练,NLP模型能够从复杂的语言输入中提取有意义的信息,从而在自动化服务、数据分析、内容生成等多个领域发挥重要作用。

SFT监督微调

SFT的过程类似于从中学生成长为大学生的阶段,在这个阶段我们会学习到专业知识,比如金融、法律等领域,我们的头脑会更专注于特定领域。对于大模型来说,在这个阶段它可以学习各种人类的对话语料,甚至是非常专业的垂直领域知识,在监督微调过程之后,它可以按照人类的意图去回答专业领域的问题。这时候我们向经过SFT的模型提问:“埃菲尔铁塔在哪个国家?”模型大概率会回答“法国”,而不是去补全后边的句子。这时候的模型已经可以按照人类的意图去完成基本的对话功能了,但是模型的回答有时候可能并不符合人类的偏好,它可能会输出一些涉黄、涉政、涉暴或者种族歧视等言论,这时候我们就需要对模型进行RLHF(基于人类反馈的强化学习)。

模型优化 微调是对预训练的人工智能模型进行进一步训练,以便它更好地适应特定的任务或数据集。

数据适应性 通过使用特定领域或任务的数据,微调调整模型的参数使其更适合于该特定环境。

性能提升 微调的目的是提高模型在特定任务上的表现,比如提升精度、减少错误率或提高处理速度。

Transformer架构

输入层,隐藏层,输出层

神经网络

模拟人脑判断

1
2
3
4
5
6
7
8
输入层:
X(光照强度),Y=0表示关灯,Y=1表示开灯

隐藏层:
Z=W(模型权重)X+B(模型偏移)

输出层:
Z<0.5则Y=0;Z>=0.5则Y=1

大模型

特点:

规模和参数量大,适应性和灵活性强,广泛数据集的预训练,计算资源需求量大

工作流程

分词化和词表映射

分词化(Tokenization)是自然语言处理(NLP)中的重要概念,它是将段落和句子分割成更小的分词(token)的过程。举一个实际的例子,以下是一个英文句子:I want to study ACA.为了让机器理解这个句子,对字符串执行分词化,将其分解为独立的单元。使用分词化,我们会得到这样的结果:[‘l’ ,’want’ ,’to’ ,’study’ ,’ACA’,.”] 将一个句子分解成更小的、独立的部分可以帮助计算机理解句子的各个部分,以及它们在上下文中的作用,这对于进行大量上下文的分析尤其重要。分词化有不同的粒度分类: -词粒度(Word-Level Tokenization)分词化,如上文中例子所示,适用于大多数西方语言,如英语。 -字符粒度(Character-Level)分词化是中文最直接的分词方法,它是以单个汉字为单位进行分词化。 -子词粒度(Subword-Level)分词化,它将单词分解成更小的单位,比如词根、词缀等。这种方法对于处理新词(比如专有名词、网络用语等)特别有效,因为即使是新词,它的组成部分(子词)很可能已经存在于词表中了。每一个token都会通过预先设置好的词表,映射为一个 tokenid,这是token 的“身份证”一句话最终会被表示为一个元素为token id的列表,供计算机进行下一步处理。

推理过程

大语言模型的工作概括来说是根据给定的文本预测下一个token。对我们来说,看似像在对大模型提问,但实际上是给了大模型一串提示文本,让它可以对后续的文本进行推理。大模型的推理过程不是一步到位的,当大模型进行推理时,它会基于现有的token,根据概率最大原则预测出下一个最有可能的token,然后将该预测的token加入到输入序列中,并将更新后的输入序列继续输入大模型预测下一个token,这个过程叫做自回归。直到输出特殊token(如,end ofsentence,专门用来控制推理何时结束)或输出长度达到阈值。

大语言模型LLM

这类大模型专注于自然语言处理(NLP),旨在处理语言、文章、对话等自然语言文本。它们通常基于深度学习架构(如Transformer模型),经过大规模文本数据集训练而成,能够捕捉语言的复杂性,包括语法、语义、语境以及蕴含的文化和社会知识。语言大模型典型应用包括文本生成、问答系统、文本分类、机器翻译、对话系统等。

示例包括:GPT系列(OpenAl):如GPT-3、GPT-3.5、GPT-4等。Bard(Google):谷歌推出的大型语言模型用于提供信息丰富的、有创意的文本输出。通义千问(阿里云):阿里云自主研发的超大规模的语言模型

多模态模型

多模态大模型能够同时处理和理解来自不同感知通道(如文本、图像、音频、视频等)的数据,并在这些模态之间建立关联和交互。它们能够整合不同类型的输入信息,进行跨模态推理、生成和理解任务。多模态大模型的应用涵盖视觉问答、图像描述生成、跨模态检索、多媒体内容理解等领域。

Agent

Agents是什么? 大语言模型可以接受输入,可以分析&推理、可以输出文字、代码、媒体。然而,其无法像人类一样,拥有规划思考能力、运用各种工具与物理世界互动,以及拥有人类的记忆能力。

AI Agents是基于LLM的能够自主理解、自主规划决策、执行复杂任务的智能体。

Agent的设计目的是为了处理那些简单的语言模型可能无法直接解决的问题,尤其是当这些任务涉及到多个步骤或者需要外部数据源的情况。

LLM:接受输入、思考、输出

人类:LLM(接受输入、思考、输出)+记忆+工具 +规划 ——>Agents

Agents工作与决策流程

工作流程:

规划(Planning):智能体会把大型任务分解为子任务,并规划执行任务的流程;智能体会对任务执行的过程进行思考和反思,从而决定是继续执行任务,或判断任务完结并终止运行。

记忆(Memory):短期记忆,是指在执行任务的过程中的上下文,会在子任务的执行过程产生和暂存,在任务完结后被清空。长期记忆是长时间保留的信息,一般是指外部知识库,通常用向量数据库来存储和检索。

工具使用(Tools):为智能体配备工具 AP,比如:计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具 AP,,智能体就可以是物理世界交互,解决实际的问题,比如当询问当日天气时,agent本身是不具备这种知识储备的,他需要去连接其他工具来获取。

执行(Action):根据规划和记忆来实施具体行动,这可能会涉及到与外部世界的互动或通过工具来完成任务

用一个流程图来表示

决策流程:

感知—》规划—》行动—》观察—》感知

Agents的决策流程,一个循环是一个task

一个实例场景:智能家居系统,根据语音指令调节室内环境

感知(Perception):语音助手监听到用户语言指令:“我感觉有点冷,把温度调高一些”

规划(planning):系统可能会定制以下计划:检测当前室内温度,根据用户指令决定升高几度合适,调整温度并告知用户

行动(action):系统执行计划

观察(Observation):系统检测室内温度,以及用户反馈,如果用户几分钟后再次说“温度刚好”,系统感知环境调节成功;如果用户还觉得冷,系统会调整计划

记忆

智能体中的记忆机制:

形成记忆:大模型在大量包含世界知识的数据集上进行预训练。在预训练中,大模型通过调整神经元的权重来学习理解和生成人类语言,这可以被视为”记忆”的形成过程。通过使用深度学习和梯度下降等技术,大模型可以不断提高基于预测或生产文本的能力,进而形成世界记忆或长期记忆

短期记忆:在当前任务执行过程中所产生的信息,比如某个工具或某个子任务执行的结果、会写入短期记忆中。记忆在当前任务过程中产生和暂存,在任务完结后被清空。

长期记忆:长期记忆是长时间保留的信息。一般是指外部知识库,通常用向量数据库来存储和检索。

工具使用

Agent可以通过学习调用外部API来获取模型权重中所缺少的额外信息,这些信息包括当前信息、代码执行能力和访问专有信息源等。这对于预训练后难以修改的模型权重来说是非常重要的。

常握使用工具是人类最独特和重要的特质之一,我们通过创造、修改和利用外部工具来突破我们身体和认知的限制。同样地,我们也可以为语言模型(LLM)提供外部工具来显著提升其能力。

ReAct框架

ReAct(Reasoning and Acting)是由Yao等人于2022年提出的框架,其核心思想是将推理(Reasoning)行动(Acting)交织结合,让大语言模型在执行任务时既能”思考”又能”行动”。

传统大语言模型存在三大固有局限:知识时效性不足(无法获取实时信息)、计算能力受限(难以处理复杂计算)、以及无法与环境交互(缺乏外部反馈机制)。ReAct框架应运而生,通过将链式推理与环境行动有机结合,构建出能主动思考、决策并执行复杂任务的智能体系统。

工作原理

ReAct基于”思考-行动-观察”循环机制:

  1. 思考(Thought):模型对当前任务进行推理和分析,决定下一步行动方案
  2. 行动(Action):模型调用外部工具或API执行具体操作(如搜索、计算、查询数据库等)
  3. 观察(Observation):获取行动返回的结果,作为新的输入信息

这个循环会持续进行,直到模型认为已收集到足够信息并生成最终答案。

实际应用示例

1
2
3
4
5
6
7
8
9
10
11
12
问题:苹果遥控器最初设计与之交互的程序,还有哪些其他设备可以控制?

Thought 1: 我需要搜索Apple Remote,找到它最初设计与之交互的程序
Action 1: Search[Apple Remote]
Observation 1: Apple Remote是苹果公司设计的遥控器,最初用于与Front Row程序交互...

Thought 2: 我需要查找还有哪些设备可以控制Front Row
Action 2: Search[Front Row compatible devices]
Observation 2: Front Row也可以通过iPhone、iPad上的Remote应用控制...

Thought 3: 根据搜索结果,整合最终答案
Action 3: Finish[除Apple Remote外,iPhone和iPad上的Remote应用也可以控制Front Row程序]

ReAct与CoT的关系

对比维度CoT(思维链)ReAct
核心能力推理推理+行动
外部交互无,仅依赖模型内部知识有,可调用外部工具
知识来源预训练知识内部知识+外部检索
主要风险事实幻觉、错误传播搜索结果质量影响推理
  • CoT专注于推理过程,但缺乏与外部世界的交互能力,可能导致事实幻觉和错误传播
  • ReAct在CoT的基础上增加了行动能力,通过调用外部工具获取实时信息来弥补CoT的不足
  • 研究表明,ReAct与CoT结合使用的方案效果最佳,既能利用内部知识进行推理,又能通过外部信息验证和补充

业界应用

  • LangChain/LangGraph:内置ReAct Agent实现,是最广泛使用的ReAct实践框架,支持零样本(zero-shot)ReAct提示
  • AutoGPT:基于ReAct范式实现自主任务分解和执行的开源项目
  • 微软Semantic Kernel:支持ReAct风格的规划器(Planner),可自动编排AI调用序列
  • Coze(扣子)/Dify:低代码AI Agent平台,底层工作流采用ReAct的思考-行动-观察循环

提示词工程

定义 Prompt Engineering 指的是在与人工智能系统交互时,如何精心设计和优化输入语句(prompts)的过程。这个过程关注于如何构造问题或命令,以从 AI 系统获取最有效和相关的回应。

关键性质 Prompt Engineering 重视语言的选择、上下文的应用,以及用户意图的明确表达。通过细致调整输入语句,可以优化AI的理解和响应,从而提升整体的交互体验。

1:明确目标,希望大模型为你做什么

2:优化提示,给大模型更加具体的指示

3:评估和迭代,通过不同的提示词问大模型同样的问题,以达到最佳效果

提示词工程的两大核心技术:

N-gram:原理是统计通过计算N个词共同出现的概率来预测下一个词,其中N是不固定参数,比如2-gram是使用前一个词来预测下一个词

深度学习:深度学习模型由多层神经网络组成的,可以自动从数据中学习的特征,让模型不断自我学习不断成长

提示词

Prompt(提示词)是指在使用大模型时,向模型提供的一些指令或问题。这些指令作为模型的输入,引导模型产生所需要的输出。例如,在生成文本时,Prompt 可能是一个问题或者一个句子开始的部分,模型需要根据这个提示来生成接下来的内容。

CoT思维链

CoT(Chain of Thought,思维链)是一种提示工程技术,通过要求大语言模型在给出最终答案之前展示中间推理步骤,从而显著提升模型在复杂推理任务上的表现。这一技术由Wei等人于2022年首次提出。

核心原理:思维链模仿了人类的思考方式——当面对复杂问题时,我们不会直接给出答案,而是逐步推理,将问题分解为多个中间步骤,每一步都基于前一步的结论。

CoT的主要类型

1. Few-shot CoT(少样本思维链)

通过在提示中提供包含完整推理过程的示例,引导模型学习逐步推理的模式:

1
2
3
4
5
Q: 商店有23个苹果,卖了15个,又进货了8个,现在有多少个?
A: 起初有23个苹果。卖了15个,剩下23-15=8个。又进货了8个,现在是8+8=16个。答案是16。

Q: 停车场有3辆车,又来了2辆,开走1辆,现在有几辆?
A: 起初有3辆车。来了2辆,变成3+2=5辆。开走1辆,变成5-1=4辆。答案是4。

2. Zero-shot CoT(零样本思维链)

无需提供推理示例,只需在问题后添加”Let’s think step by step”(让我们一步一步思考),即可触发模型的链式推理能力。由Kojima等人于2022年提出,简单但效果显著:

1
2
3
Q: 一个农夫有17只羊,除9只外都走丢了,还剩几只?
A: 让我们一步一步思考。
农夫有17只羊,除9只外都走丢了,意味着还剩9只羊没有走丢。答案是9。

3. Auto-CoT(自动思维链)

自动构建推理链示例,减少人工标注成本。模型自动为问题生成推理过程,然后作为few-shot示例用于后续推理,实现”自举”式的思维链生成。

4. 多模态CoT

将思维链技术扩展到多模态场景(文本+图像),使模型能够在视觉问答、图像推理等任务中进行逐步推理。例如,先识别图像中的关键元素,再基于识别结果进行逻辑推导。

CoT的实际应用场景

  • 数学推理:多步计算、证明题、应用题等需要分步推导的场景
  • 常识推理:需要多步逻辑推导的生活常识问题
  • 符号推理:逻辑推导、规则应用、形式化证明
  • 决策分析:复杂的多因素决策,需要权衡利弊
  • 代码生成:先分析需求,再拆解为代码逻辑步骤,最后生成代码

CoT的局限性

  • 对小模型(参数量<10B)效果有限,思维链能力通常在大模型中”涌现”
  • 推理步骤可能存在逻辑错误,需要人工验证
  • 生成长推理链会显著增加推理时间和计算成本(token消耗增加)
  • 复杂任务中推理链可能偏离正确方向,错误会逐步累积

Embedding向量化

Embedding是一种将高维数据(如文本、图像或音频)转化为低维数值向量的技术。通过将复杂的特征信息映射到向量空间中,embedding能够捕捉数据的语义或特征相似性,使得机器能够更有效地处理、比较和搜索信息。

它的主要作用是将自然世界的文字、图片、语音、视频转化成计算机能识别的形式,也就是数字矩阵。

这个过程中大概有12000个维度

案例图

我们可以把每一列看成是一个维度,比如第一列以人类维度划分男人,女人,国王,王后,他们的得分基本相同,也就是相似度

以下是多种维度的一个解释图

RAG检索增强生成

宗旨是提高文本的准确性和丰富性

结合检索与生成:RAG融合了信息检索和文本生成两种技术,先从大数据中检索信息,再基于这些信息生成文本

增强生成质量:通过使用检索到的相关信息,RAG旨在提高文本生成的相关性,准确性和深度。

应用于复杂查询:RAG适用于需要广泛知识和深度理解的复杂查询,能够提供更丰富,更精确的回答。

RAG流程图大致如下

为什么要使用RAG技术?RAG和模型微调的区别?

微调技术和RAG技术: 微调:在已有的预训练模型基础上,再结合特定任务的数据集进一步对其进行训练,使得模型在这一领域中表现更 好; RAG:在生成回答之前,通过信息检索从外部知识库中查找与问题相关的知识,增强生成过程中的信息来源,从 而提升生成的质量和准确性。

共同点:都是为了赋予模型某个领域的特定知识,解决大模型的幻觉问题。

RAG(Retrieval-Augmented Generation)的原理:

检索(Retrieval):当用户提出问题时,系统会从外部的知识库中检索出与用户输入相关的内容。

增强(Augmentation):系统将检索到的信息与用户的输入结合,扩展模型的上下文。然后再传给生成模型(也就是Deepseek);

生成(Generation):生成模型基于增强后的输入生成最终的回答。由于这一回答参考了外部知识库中的内容因此更加准确可读。

美团对于查询改写技术的探索与实践:https://tech.meituan.com/2022/02/17/exploration-and-practice-of-query-rewriting-in-meituan-search.html

Advanced RAG

高级 RAG 可以通过 LangChain4j 实现,涉及以下核心组件:

QueryTransformer(查询转换器) QueryRouter(查询路由器) ContentRetriever(内容检索器) ContentAggregator(内容聚合器) ContentInjector(内容注入器)

协同关系如下图

Retrieval Augmentor 检索增强器,是 Advanced RAG 管道的入口,主要分为以下几个步骤;

第一步,将 UserMessage 转换为 Query。 第二步,通过 QueryTransformer 组件将用户的 Query 转换为一个或者多个 Query。 第三步,通过 QueryRouter 将第二步转换的 Query 路由到其对应的 Content Retriever 检索内容。 第四步,ContentAggregator 将 Content Retriever 检索的内容合并到一个最终的排名列表中。 最后,将第四步产生的 Content 与 UserMessage组合,发给大模型。

LangChain框架

langchain是language和chain的组合,直译过来就是语言的链路,它代表了一种专门用于文本分析的先进链式处理工具

langchain的原理就是数据输入(手动输入,文件上传,数据库链接),数据分析,数据输出

langchain4j

Java版本的langchain框架

MCP协议

MCP(Model Context Protocol,模型上下文协议)是由Anthropic公司于2024年11月发布的开放协议,旨在标准化大语言模型与外部数据源和工具之间的交互方式。

核心思想:类似于USB-C统一了设备连接标准,MCP试图统一AI模型与外部世界的连接方式。通过MCP,AI应用可以以统一的方式连接数据库、API、文件系统等各种外部资源,无需为每个数据源单独开发集成接口。

MCP架构

  • MCP主机(Host):发起连接的AI应用(如Claude Desktop、IDE插件等)
  • MCP客户端(Client):与服务器保持1:1连接的协议客户端
  • MCP服务器(Server):提供具体能力(工具、资源、提示词模板)的轻量级服务

MCP提供的三大能力

  • 工具(Tools):模型可调用的函数,如搜索、计算、数据库查询等
  • 资源(Resources):模型可读取的数据,如文件内容、数据库记录等
  • 提示词(Prompts):预定义的提示词模板,帮助用户快速完成特定任务

实际应用:Claude Desktop已内置MCP支持,社区已有大量MCP Server实现(如GitHub、Slack、数据库等集成),Spring AI也提供了MCP的Java实现。

A2A协议

A2A(Agent-to-Agent,智能体间通信协议)是由Google于2025年4月发布的开放协议,旨在解决不同AI Agent之间的互联互通问题。

核心思想:如果说MCP解决的是”Agent如何连接工具”的问题,那么A2A解决的是”Agent如何与其他Agent协作”的问题。在复杂的实际业务中,往往需要多个Agent协同工作,A2A提供了标准化的通信协议,使得不同框架、不同厂商构建的Agent能够相互发现、理解和协作。

A2A的关键概念

  • Agent Card:Agent的”名片”,描述Agent的能力、接口和认证方式,便于其他Agent发现和调用
  • Task:Agent间协作的基本单元,一个Agent向另一个Agent发送任务请求,接收方处理后返回结果
  • 消息(Message):Agent间传递的信息载体,支持文本、文件、表单等多种内容类型
  • Part:消息中的具体内容片段,如文本片段、文件片段等

MCP与A2A的关系

对比维度MCPA2A
解决问题Agent连接工具和数据Agent与Agent之间协作
连接对象工具、API、数据库其他Agent
通信方向单向(Agent调用工具)双向(Agent间协商)
协议层级基础设施层协作层

两者互补:MCP让Agent拥有能力,A2A让Agent之间能够协作。完整的智能体系统需要两者配合使用。

推理模型

推理模型是一类专门强化了推理能力的大语言模型,它们在输出最终答案前会先进行深度的”思考”(生成隐藏或可见的思维链),从而在数学、编程、逻辑等复杂任务上取得远超普通模型的表现。

核心技术:测试时计算(Test-time Compute)

NVIDIA提出的扩展定律表明:模型在输出前”思考”时间越长(即生成更多内部推理token),答案质量越高。这一发现类似训练阶段的Scaling Law,但作用于推理阶段,且似乎不存在性能上限。

推理模型正是这一思想的具体实现——通过在推理阶段投入更多计算资源(生成思维链),换取更高质量的输出。

业界代表模型

OpenAI o1/o3

OpenAI于2024年9月发布的o1模型是首个大规模应用”思考后再回答”范式的商业推理模型。o1在输出最终回答前会先生成隐藏的思维链,通过强化学习训练学会了在思维链中进行试错、回溯和自我纠错。o3是o1的升级版本,在编程、数学等领域表现更优。

DeepSeek-R1

DeepSeek于2025年1月发布的开源推理模型,输出可见的思维链内容,用户可以观察模型的推理过程。R1通过强化学习训练获得了推理能力,性能可与OpenAI o1媲美,同时完全开源,推动了推理模型的普及。其API(deepseek-reasoner)向用户开放思维链输出。

Qwen-QwQ

阿里云推出的推理模型,同样采用”思考后再回答”的范式,在中文推理任务上表现突出。

推理模型与传统模型的区别

对比维度传统大模型推理模型
输出方式直接生成答案先思考再生成答案
推理过程无显式推理步骤生成思维链
复杂推理容易出错显著提升
推理速度较慢(需额外思考时间)
适用场景日常对话、文本生成数学、编程、逻辑推理

思维链监控与安全

OpenAI的研究发现,推理模型的思维链难以被外部指令控制(即难以”教唆”模型在思维链中执行恶意行为),这一特性反而使得思维链可以作为AI安全防护的监控手段——通过监控思维链来判断模型是否存在有害意图。OpenAI推出了CoT-Control评估套件来验证这一结论。

本文由作者按照 CC BY 4.0 进行授权