llm

Large Language Model，大语言模型

简介

大语言模型（LLM）是一种基于深度学习的自然语言处理模型，通过在海量文本数据上进行训练，能够理解和生成人类语言。LLM 是人工智能领域的重要突破，代表了当前自然语言处理技术的最高水平。

核心原理

1. transformer 架构

现代 LLM 主要基于 Transformer 架构，该架构由以下关键组件构成：

自注意力机制（Self-Attention）：让模型在处理每个词时能够关注句子中的其他相关词
位置编码（Positional Encoding）：为序列中的每个位置提供位置信息
多层注意力层：通过堆叠多层注意力机制学习复杂的语言模式
前馈神经网络：对注意力层的输出进行非线性变换

2. 训练过程

预训练（Pre-training）：在大规模文本语料上学习语言的基本规律
微调（Fine-tuning）：在特定任务数据集上进行针对性训练
人类反馈强化学习（RLHF）：通过人类偏好优化模型输出

主流大语言模型

开源模型

LLaMA（Meta）：开源影响力最大的模型系列
Qwen（阿里）：性能优秀的中文开源模型
ChatGLM（智谱）：清华团队开发的中英双语模型
Mistral：法国开发的效率优化模型
DeepSeek：性能强劲的国产模型
Gemma（Google）：轻量级开源模型

闭源模型

GPT-4/OpenAI：OpenAI 开发的旗舰模型
Claude（Anthropic）：以安全性和有用性著称
Gemini（Google）：多模态大模型
文心一言（百度）：国产大模型代表
通义千问（阿里）：阿里云的大语言模型
Kimi（月之暗面）：长文本处理能力强

应用场景

1. 代码开发

python

# 使用 OpenAI API 生成代码示例
from openai import OpenAI

client = OpenAI(api_key="your-api-key")

response = client.chat.completions.create(
    model="gpt-4",
    messages=[
        {"role": "user", "content": "用 Python 写一个快速排序算法"}
    ]
)

print(response.choices[0].message.content)

2. 文本处理

文章摘要和提取
翻译和多语言处理
情感分析
文本分类

3. 对话交互

智能客服
虚拟助手
教育辅导
创意写作

4. 数据分析

数据解读和报告生成
趋势预测分析
自动化文档处理

关键技术概念

1. 上下文窗口（Context Window）

指模型单次处理的最大 token 数量，决定了模型能理解和生成的内容长度。

2. Token

语言模型处理的基本单位，通常一个词对应 1-4 个 token。

3. 温度（Temperature）

控制模型输出的随机性：

低温度（0.1-0.3）：输出更确定性
中等温度（0.7）：平衡创造性和确定性
高温度（1.0+）：输出更具创造性

4. 提示词工程（Prompt Engineering）

通过优化输入提示来引导模型生成更好的输出。

5. RAG（检索增强生成）

结合外部知识库增强模型回答的准确性。

本地部署

使用 Ollama（推荐）

bash

# 安装 Ollama
# 访问 https://ollama.com 下载安装

# 拉取并运行模型
ollama run llama3.2

# 其他常用模型
ollama run qwen2.5
ollama run deepseek-r1
ollama run mistral

使用 vLLM

python

from vllm import LLM, SamplingParams

llm = LLM(model="meta-llama/Llama-2-7b-hf")
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

outputs = llm.generate(["Hello, my name is"], sampling_params)

评估指标

困惑度（Perplexity）：衡量模型对文本的预测能力
准确率（Accuracy）：在特定任务上的正确率
BLEU 分数：机器翻译质量评估
人工评估：通过人类评分评估回答质量

发展趋势

多模态能力：支持图像、音频、视频等多种输入
长上下文处理：支持更长的上下文窗口
Agent 能力：模型具备自主规划和执行任务的能力
效率优化：更小的模型达到更强的性能
领域专用化：针对医疗、法律等垂直领域优化

llm ​

简介 ​

核心原理 ​

1. transformer 架构 ​

2. 训练过程 ​

主流大语言模型 ​

开源模型 ​

闭源模型 ​

应用场景 ​

1. 代码开发 ​

2. 文本处理 ​

3. 对话交互 ​

4. 数据分析 ​

关键技术概念 ​

1. 上下文窗口（Context Window） ​

2. Token ​

3. 温度（Temperature） ​

4. 提示词工程（Prompt Engineering） ​

5. RAG（检索增强生成） ​

本地部署 ​

使用 Ollama（推荐） ​

使用 vLLM ​

评估指标 ​

发展趋势 ​

llm

简介