一、AI基础

AI（Artificial Intelligence）人工智能：模拟人类感知、思考、推理、决策的机器智能总称。如：智能对话、AI绘图、人脸识别、语音助手均属于AI应用范畴。

ML（Machine Learning）机器学习：AI核心分支，让机器从海量数据中自动学习规律，无需人工编写全部规则。如：短视频推荐算法、商品智能推荐、垃圾邮件自动识别。

DL（Deep Learning）深度学习：基于多层神经网络的机器学习技术，是当前大模型、画图、语音AI的主流底层方案。如：GPT大模型、Stable Diffusion绘图、手机人脸解锁均依托深度学习实现。

AGI（通用人工智能）：具备人类同等跨领域自主学习、通用思考能力的强人工智能，目前尚未实现。如：现阶段无任何落地AGI，网传“全能AI”均为专项能力整合，并非真正通用智能。

AIGC（生成式人工智能）：AI自动生成文字、图片、音频、视频、3D等原创内容的技术统称。如：AI写文案、AI绘图、AI配音、AI生成短视频、AI建模均属于AIGC范畴。

窄AI（弱AI）：当前所有落地商用AI，仅擅长单一任务，如对话、绘图、语音识别，无通用思考能力。如： Siri语音助手、Midjourney绘图、讯飞语音转文字、电商智能客服。

模型（Model）：经数据训练后可独立完成任务的AI程序，如GPT、文心一言、Stable Diffusion。如：文本模型GPT-4、通义千问；绘图模型SD、Midjourney；视频模型Sora。

参数（Params）：模型存储知识与能力的权重数值，参数规模（7B/13B/70B）决定模型知识容量与智能程度。如：Llama 2-7B、Qwen-14B、GPT-3.5（百亿级参数）、GPT-4（万亿级参数）。

权重（Weight）：神经网络核心参数，用于控制信息传递的强弱，是模型学习的核心载体。如：模型训练过程中自动跳转权重参数，让AI精准区分语义、识别图形特征。

数据集（Dataset）：用于模型训练、验证、测试的海量原始数据或标注数据。如：维基百科文本数据集、COCO图像数据集、LibriSpeech语音数据集。

预训练（PT Pre-Train）：模型基础训练阶段，用全网海量无标注通用数据学习语法、常识、通用知识，生成基座模型。如：Llama基座模型、Qwen通用预训练模型、GPT原生基础模型。

微调（FT Fine-Tuning）：在通用预训练模型基础上，用行业专属数据二次训练，适配垂直场景。如：通用大模型微调为医疗问诊模型、法律问答模型、电商客服模型。

训练（Train）：通过数据不断更新模型参数，缩小误差，让模型学会对应任务的过程。如：用海量文本数据训练大模型、用图片数据训练AI绘图模型，持续优化模型能力。

推理（Inference）：模型训练完成后，接收输入、生成结果的过程，日常使用AI均为推理阶段。如：输入问题让文心一言作答、输入提示词生成AI图片、语音转文字实时识别。

二、神经网络与深度学习

神经网络（Neural Network）：模仿人脑神经元结构搭建的计算网络，是所有深度学习模型的基础。如：人脸检测、AI翻译、智能推荐等功能，底层均依托神经网络运算。

神经元（Neuron）：神经网络最小计算单元，负责接收、运算、输出数据特征。如：海量神经元组合运算，才能让AI识别图片轮廓、理解文本语义。

层（Layer）：神经网络分层结构，分为输入层、隐藏层、输出层；多层堆叠即为“深度”学习。

CNN（卷积神经网络）：经典视觉网络，擅长图像分类、目标检测、图像处理。如：手机相册图片分类、安防摄像头目标检测、医学影像病灶识别。

RNN/LSTM（循环神经网络）：早期时序数据模型，适用于文本、语音序列，现已被Transformer主流替代。如：早期机器翻译、语音识别、文本时序预测模型。

Transformer：当前LLM、多模态模型统一底层核心架构，依靠注意力机制实现全局上下文理解。如：GPT系列、Qwen、Claude、ViT图像模型均基于Transformer搭建。

SA（Self-Attention）自注意力机制：Transformer核心，自动计算文本、图像各元素关联权重，捕捉长距离语义依赖。

MSA（Multi-Head Self-Attention）多头自注意力：多组注意力并行计算，同时捕捉语义、语法、逻辑多重特征。

FFN（前馈神经网络）：Transformer内部非线性变换模块，负责特征转换与深度学习。

Encoder 编码器：专注信息理解，代表模型BERT，适用于分类、检索、语义匹配。如：百度BERT模型，多用于文本相似度匹配、情感分析、内容检索。

Decoder 解码器：专注内容生成，代表GPT系列，适用于对话、续写、创作。如：GPT-3.5、GPT-4，主打文本生成、对话交互、文案创作。

Encoder-Decoder 编解码架构：兼顾理解与生成，代表T5、LLaVA，多用于翻译、图文问答。如：谷歌T5翻译模型、LLaVA图文问答模型、机器同声翻译模型。

激活函数（Activation Function）：为网络引入非线性能力，让模型学习复杂规律，常见ReLU、Sigmoid。

损失函数（Loss Function）：衡量模型预测结果与真实答案的误差差距，是训练优化的核心依据。

梯度下降（Gradient Descent）：模型核心优化算法，通过反向传播不断更新参数、缩小预测误差。

三、大语言模型LLM

LM（Language Model）语言模型：所有自然语言处理模型的统称。如：小型分词模型、文本分类模型、GPT、通义千问均属于语言模型范畴。

LLM（Large Language Model）大语言模型：海量文本预训练、超大参数规模，具备对话、创作、逻辑推理、知识问答能力。如：GPT-3.5/4、文心一言、通义千问、Llama、Claude。

LMM（Large Multimodal Model）多模态大模型：可同时处理文本、图像、音频、视频等多种数据的AI模型。如：GPT-4V、Gemini、通义万相、LLaVA、Sora视频模型。

Base Model 基座模型：仅完成通用预训练、未做对话对齐的原始大模型，需微调、对齐才能落地使用。如：Llama 2原生基座、Qwen基础预训练模型，无法直接对话，需二次优化。

Token 词元：AI处理文本的最小单位，中英文拆分规则不同，是上下文长度、计费、计算量的统计基准。如：GPT计费按Token统计，1个中文汉字约对应1-2个Token，英文单词多为1个Token。

Context Window 上下文窗口：模型单次可读取、记忆、处理的最大Token长度，如8K、32K、128K。如：GPT-3.5默认4K上下文、GPT-4支持128K长文本、通义千问128K版本。

Embedding 嵌入向量：将文字、图像转为高维数字向量，实现语义检索、相似度匹配、知识库召回。如：百度向量检索、OpenAI Embedding接口、企业私有知识库文本匹配。

Prompt 提示词：用户输入给AI的指令、问题、描述，直接决定输出质量与效果。

Prompt Engineering 提示工程：优化提示词结构、逻辑、格式，提升AI输出精准度的专业技巧。

Zero-Shot 零样本：不提供任何示例，直接下发任务让模型执行。如：直接提问“写一篇春日作文”“总结这段文字”，无需提供参考案例。

Few-Shot 少样本：在提示词中附带1-5个案例，引导模型模仿格式、逻辑与输出规范。如：给模型2条古诗范例，让其仿写同风格古诗；给2条分类案例，让模型自主分类文本。

CoT（Chain-of-Thought）思维链：引导模型分步拆解、逐步推理，大幅提升数学、逻辑、复杂问题准确率。如：解数学应用题时，让模型“分步写出解题步骤，最后给出答案”。

RAG（Retrieval-Augmented Generation）检索增强生成：外挂私有/实时知识库，AI作答前先检索真实资料，解决知识过时、幻觉问题。如：企业知识库问答、最新时政问答、高校校规智能咨询、产品手册答疑。

Agent 智能体：具备自主规划、任务拆解、工具调用、反思纠错、循环执行能力的高阶AI形态。如：GPTs、AutoGPT、字节豆包智能体、企业自动化办公AI。

Tool Calling / Function Call 工具调用：模型自动识别用户需求，主动调用外部接口、代码、数据库、插件完成任务。

JSON Mode：强制模型输出标准结构化JSON格式，适配程序自动化对接与开发。

Hallucination 模型幻觉：大模型核心缺陷，无依据编造虚假数据、文献、事实，输出错误信息。如：模型编造不存在的论文、虚假数据、未发生的时政事件、虚构产品参数。

Alignment 对齐：通过微调、强化学习，让模型输出符合人类有用、合规、安全的价值观。

SFT（Supervised Fine-Tuning）有监督微调：用人工标注的指令对话数据训练，让模型精准理解人类指令、规范输出。如：将通用模型微调为合规客服模型、公文写作专用模型。

RLHF（Human Feedback Reinforcement Learning）人类反馈强化学习：人工对模型回答打分，训练奖励模型，优化输出偏好、减少劣质回答。如：GPT、文心一言上线前，人工对海量对话打分筛选优质回答优化模型。

RLAIF（AI Feedback Reinforcement Learning）AI反馈强化学习：用AI打分替代人工标注，降低对齐成本、提升迭代效率。

模型偏移（Model Drift）：模型微调后丢失通用能力，泛化性下降，仅适配单一场景。如：将通用大模型过度微调为单一医疗问答模型后，写作、通识问答能力大幅变差。

上下文丢失：超长对话或长文本处理中，模型遗忘前文关键信息的问题。

四、模型微调与轻量化技术

LoRA（Low-Rank Adaptation）低秩适配：主流轻量化微调方案，仅训练少量低秩矩阵，不改动全量权重，节省大量显存。如：个人用消费级显卡微调Llama、Qwen开源模型，适配专属写作风格。

QLoRA（Quantized LoRA）量化低秩适配：量化技术+LoRA结合，普通消费级显卡即可完成大模型微调。如：用3060/4060家用显卡微调7B、13B开源大模型，无需专业算力服务器。

量化（Quantization）：降低模型权重精度，压缩模型体积、提升推理速度、降低显存占用。如：将13B大模型从FP16量化为INT4，模型体积缩小75%，可本地部署运行。

FP32/FP16/BF16 浮点精度：训练常用精度，FP32全精度稳定、耗显存；FP16/BF16半精度兼顾速度与效果。如：大模型预训练多用BF16，高精度科研训练多用FP32，常规推理多用FB16。

INT4/INT8 整型量化：本地部署推理主流低精度方案，极致压缩模型，适配端侧与家用显卡。

GPTQ/AWQ：两大行业主流量化算法，平衡模型画质、文本质量与推理速度。如：本地部署Qwen、Llama模型常用GPTQ量化，部署绘图模型常用AWQ量化。

模型蒸馏（Model Distillation）：用大模型（教师）训练小型模型（学生），实现模型轻量化、低成本部署。如：用GPT-4作为教师模型，训练出轻量化的端侧小型对话模型，适配手机设备。

五、推理优化与分布式训练

KV Cache：核心推理加速技术，缓存历史计算结果，避免重复运算，大幅提升对话速度。如：连续多轮对话时，模型无需重复计算前文内容，秒回提问，主流对话模型均搭载该技术。

PagedAttention 分页注意力：显存智能调度技术，vLLM框架核心，大幅提升AI并发吞吐量。如：企业AI服务高峰期同时承载上千用户对话，依托该技术稳定不卡顿。

DP（Data Parallelism）数据并行：多卡加载不同数据、共享模型权重，适用于常规大规模训练。

MP（Model Parallelism）模型

并行：将超大模型权重拆分至多块显卡，解决单卡显存不足问题。

TP（Tensor Parallelism）张量并行：拆分计算张量，横向分布式并行计算。

PP（Pipeline Parallelism）流水线并行：拆分模型层级，分段流水线执行训练，提升训练效率。

认识AI，从AI大模型专业术语开始

一、AI基础

三、大语言模型LLM

四、模型微调与轻量化技术