一、AI基础
AI(Artificial Intelligence)人工智能:模拟人类感知、思考、推理、决策的机器智能总称。如:智能对话、AI绘图、人脸识别、语音助手均属于AI应用范畴。
ML(Machine Learning)机器学习:AI核心分支,让机器从海量数据中自动学习规律,无需人工编写全部规则。如:短视频推荐算法、商品智能推荐、垃圾邮件自动识别。
DL(Deep Learning)深度学习:基于多层神经网络的机器学习技术,是当前大模型、画图、语音AI的主流底层方案。如:GPT大模型、Stable Diffusion绘图、手机人脸解锁均依托深度学习实现。
AGI(通用人工智能):具备人类同等跨领域自主学习、通用思考能力的强人工智能,目前尚未实现。如:现阶段无任何落地AGI,网传“全能AI”均为专项能力整合,并非真正通用智能。
AIGC(生成式人工智能):AI自动生成文字、图片、音频、视频、3D等原创内容的技术统称。如:AI写文案、AI绘图、AI配音、AI生成短视频、AI建模均属于AIGC范畴。
窄AI(弱AI):当前所有落地商用AI,仅擅长单一任务,如对话、绘图、语音识别,无通用思考能力。如: Siri语音助手、Midjourney绘图、讯飞语音转文字、电商智能客服。
模型(Model):经数据训练后可独立完成任务的AI程序,如GPT、文心一言、Stable Diffusion。如:文本模型GPT-4、通义千问;绘图模型SD、Midjourney;视频模型Sora。
参数(Params):模型存储知识与能力的权重数值,参数规模(7B/13B/70B)决定模型知识容量与智能程度。如:Llama 2-7B、Qwen-14B、GPT-3.5(百亿级参数)、GPT-4(万亿级参数)。
权重(Weight):神经网络核心参数,用于控制信息传递的强弱,是模型学习的核心载体。如:模型训练过程中自动跳转权重参数,让AI精准区分语义、识别图形特征。
数据集(Dataset):用于模型训练、验证、测试的海量原始数据或标注数据。如:维基百科文本数据集、COCO图像数据集、LibriSpeech语音数据集。
预训练(PT Pre-Train):模型基础训练阶段,用全网海量无标注通用数据学习语法、常识、通用知识,生成基座模型。如:Llama基座模型、Qwen通用预训练模型、GPT原生基础模型。
微调(FT Fine-Tuning):在通用预训练模型基础上,用行业专属数据二次训练,适配垂直场景。如:通用大模型微调为医疗问诊模型、法律问答模型、电商客服模型。
训练(Train):通过数据不断更新模型参数,缩小误差,让模型学会对应任务的过程。如:用海量文本数据训练大模型、用图片数据训练AI绘图模型,持续优化模型能力。
推理(Inference):模型训练完成后,接收输入、生成结果的过程,日常使用AI均为推理阶段。如:输入问题让文心一言作答、输入提示词生成AI图片、语音转文字实时识别。
神经网络(Neural Network):模仿人脑神经元结构搭建的计算网络,是所有深度学习模型的基础。如:人脸检测、AI翻译、智能推荐等功能,底层均依托神经网络运算。
神经元(Neuron):神经网络最小计算单元,负责接收、运算、输出数据特征。如:海量神经元组合运算,才能让AI识别图片轮廓、理解文本语义。
层(Layer):神经网络分层结构,分为输入层、隐藏层、输出层;多层堆叠即为“深度”学习。
CNN(卷积神经网络):经典视觉网络,擅长图像分类、目标检测、图像处理。如:手机相册图片分类、安防摄像头目标检测、医学影像病灶识别。
RNN/LSTM(循环神经网络):早期时序数据模型,适用于文本、语音序列,现已被Transformer主流替代。如:早期机器翻译、语音识别、文本时序预测模型。
Transformer:当前LLM、多模态模型统一底层核心架构,依靠注意力机制实现全局上下文理解。如:GPT系列、Qwen、Claude、ViT图像模型均基于Transformer搭建。
SA(Self-Attention)自注意力机制:Transformer核心,自动计算文本、图像各元素关联权重,捕捉长距离语义依赖。
MSA(Multi-Head Self-Attention)多头自注意力:多组注意力并行计算,同时捕捉语义、语法、逻辑多重特征。
FFN(前馈神经网络):Transformer内部非线性变换模块,负责特征转换与深度学习。
Encoder 编码器:专注信息理解,代表模型BERT,适用于分类、检索、语义匹配。如:百度BERT模型,多用于文本相似度匹配、情感分析、内容检索。
Decoder 解码器:专注内容生成,代表GPT系列,适用于对话、续写、创作。如:GPT-3.5、GPT-4,主打文本生成、对话交互、文案创作。
Encoder-Decoder 编解码架构:兼顾理解与生成,代表T5、LLaVA,多用于翻译、图文问答。如:谷歌T5翻译模型、LLaVA图文问答模型、机器同声翻译模型。
激活函数(Activation Function):为网络引入非线性能力,让模型学习复杂规律,常见ReLU、Sigmoid。
损失函数(Loss Function):衡量模型预测结果与真实答案的误差差距,是训练优化的核心依据。
梯度下降(Gradient Descent):模型核心优化算法,通过反向传播不断更新参数、缩小预测误差。
三、大语言模型LLM
LM(Language Model)语言模型:所有自然语言处理模型的统称。如:小型分词模型、文本分类模型、GPT、通义千问均属于语言模型范畴。
LLM(Large Language Model)大语言模型:海量文本预训练、超大参数规模,具备对话、创作、逻辑推理、知识问答能力。如:GPT-3.5/4、文心一言、通义千问、Llama、Claude。
LMM(Large Multimodal Model)多模态大模型:可同时处理文本、图像、音频、视频等多种数据的AI模型。如:GPT-4V、Gemini、通义万相、LLaVA、Sora视频模型。
Base Model 基座模型:仅完成通用预训练、未做对话对齐的原始大模型,需微调、对齐才能落地使用。如:Llama 2原生基座、Qwen基础预训练模型,无法直接对话,需二次优化。
Token 词元:AI处理文本的最小单位,中英文拆分规则不同,是上下文长度、计费、计算量的统计基准。如:GPT计费按Token统计,1个中文汉字约对应1-2个Token,英文单词多为1个Token。
Context Window 上下文窗口:模型单次可读取、记忆、处理的最大Token长度,如8K、32K、128K。如:GPT-3.5默认4K上下文、GPT-4支持128K长文本、通义千问128K版本。
Embedding 嵌入向量:将文字、图像转为高维数字向量,实现语义检索、相似度匹配、知识库召回。如:百度向量检索、OpenAI Embedding接口、企业私有知识库文本匹配。
Prompt 提示词:用户输入给AI的指令、问题、描述,直接决定输出质量与效果。
Prompt Engineering 提示工程:优化提示词结构、逻辑、格式,提升AI输出精准度的专业技巧。
Zero-Shot 零样本:不提供任何示例,直接下发任务让模型执行。如:直接提问“写一篇春日作文”“总结这段文字”,无需提供参考案例。
Few-Shot 少样本:在提示词中附带1-5个案例,引导模型模仿格式、逻辑与输出规范。如:给模型2条古诗范例,让其仿写同风格古诗;给2条分类案例,让模型自主分类文本。
CoT(Chain-of-Thought)思维链:引导模型分步拆解、逐步推理,大幅提升数学、逻辑、复杂问题准确率。如:解数学应用题时,让模型“分步写出解题步骤,最后给出答案”。
RAG(Retrieval-Augmented Generation)检索增强生成:外挂私有/实时知识库,AI作答前先检索真实资料,解决知识过时、幻觉问题。如:企业知识库问答、最新时政问答、高校校规智能咨询、产品手册答疑。
Agent 智能体:具备自主规划、任务拆解、工具调用、反思纠错、循环执行能力的高阶AI形态。如:GPTs、AutoGPT、字节豆包智能体、企业自动化办公AI。
Tool Calling / Function Call 工具调用:模型自动识别用户需求,主动调用外部接口、代码、数据库、插件完成任务。
JSON Mode:强制模型输出标准结构化JSON格式,适配程序自动化对接与开发。
Hallucination 模型幻觉:大模型核心缺陷,无依据编造虚假数据、文献、事实,输出错误信息。如:模型编造不存在的论文、虚假数据、未发生的时政事件、虚构产品参数。
Alignment 对齐:通过微调、强化学习,让模型输出符合人类有用、合规、安全的价值观。
SFT(Supervised Fine-Tuning)有监督微调:用人工标注的指令对话数据训练,让模型精准理解人类指令、规范输出。如:将通用模型微调为合规客服模型、公文写作专用模型。
RLHF(Human Feedback Reinforcement Learning)人类反馈强化学习:人工对模型回答打分,训练奖励模型,优化输出偏好、减少劣质回答。如:GPT、文心一言上线前,人工对海量对话打分筛选优质回答优化模型。
RLAIF(AI Feedback Reinforcement Learning)AI反馈强化学习:用AI打分替代人工标注,降低对齐成本、提升迭代效率。
模型偏移(Model Drift):模型微调后丢失通用能力,泛化性下降,仅适配单一场景。如:将通用大模型过度微调为单一医疗问答模型后,写作、通识问答能力大幅变差。
上下文丢失:超长对话或长文本处理中,模型遗忘前文关键信息的问题。
四、模型微调与轻量化技术
LoRA(Low-Rank Adaptation)低秩适配:主流轻量化微调方案,仅训练少量低秩矩阵,不改动全量权重,节省大量显存。如:个人用消费级显卡微调Llama、Qwen开源模型,适配专属写作风格。
QLoRA(Quantized LoRA)量化低秩适配:量化技术+LoRA结合,普通消费级显卡即可完成大模型微调。如:用3060/4060家用显卡微调7B、13B开源大模型,无需专业算力服务器。
量化(Quantization):降低模型权重精度,压缩模型体积、提升推理速度、降低显存占用。如:将13B大模型从FP16量化为INT4,模型体积缩小75%,可本地部署运行。
FP32/FP16/BF16 浮点精度:训练常用精度,FP32全精度稳定、耗显存;FP16/BF16半精度兼顾速度与效果。如:大模型预训练多用BF16,高精度科研训练多用FP32,常规推理多用FB16。
INT4/INT8 整型量化:本地部署推理主流低精度方案,极致压缩模型,适配端侧与家用显卡。
GPTQ/AWQ:两大行业主流量化算法,平衡模型画质、文本质量与推理速度。如:本地部署Qwen、Llama模型常用GPTQ量化,部署绘图模型常用AWQ量化。
模型蒸馏(Model Distillation):用大模型(教师)训练小型模型(学生),实现模型轻量化、低成本部署。如:用GPT-4作为教师模型,训练出轻量化的端侧小型对话模型,适配手机设备。
KV Cache:核心推理加速技术,缓存历史计算结果,避免重复运算,大幅提升对话速度。如:连续多轮对话时,模型无需重复计算前文内容,秒回提问,主流对话模型均搭载该技术。
PagedAttention 分页注意力:显存智能调度技术,vLLM框架核心,大幅提升AI并发吞吐量。如:企业AI服务高峰期同时承载上千用户对话,依托该技术稳定不卡顿。
DP(Data Parallelism)数据并行:多卡加载不同数据、共享模型权重,适用于常规大规模训练。
并行:将超大模型权重拆分至多块显卡,解决单卡显存不足问题。
TP(Tensor Parallelism)张量并行:拆分计算张量,横向分布式并行计算。
PP(Pipeline Parallelism)流水线并行:拆分模型层级,分段流水线执行训练,提升训练效率。