API易文档中心 home page
Search...
⌘K
注册使用
控制台
控制台
Search...
Navigation
基础概念
大语言模型(LLM)
首页
使用场景
资源导航
常见问题
大模型百科
基础概念
大语言模型(LLM)
Token与分词
提示词(Prompt)
上下文窗口(Context Window)
温度参数(Temperature)
Top-p(核采样)
嵌入(Embedding)
向量数据库
注意力机制
困惑度(Perplexity)
学习范式
零样本学习(Zero-shot)
单样本学习(One-shot)
少样本学习(Few-shot)
监督学习(Supervised Learning)
无监督学习(Unsupervised Learning)
自监督学习(Self-supervised Learning)
强化学习
迁移学习
推理与能力
思维链
自我一致性
思维树
React
涌现能力
上下文学习
推理时间计算
基础架构
Transformer架构
编码器
解码器
自注意力机制
多头注意力
位置编码
主流模型
GPT系列
Claude系列
Gemini系列
LLaMA系列
Mistral/Mixtral系列
DeepSeek模型
GLM智谱系列
文心一言
通义千问
BERT模型
Grok模型
训练技术
Fine tuning
Lora
Rlhf
Distillation
应用实践
Rag
Agent
Function calling
Embedding
工具生态
Langchain
Huggingface
Api frameworks
Evaluation
On this page
概念定义
详细解释
什么是大语言模型?
工作原理
基本架构
实际应用
主要应用场景
典型产品
发展历程
技术挑战
当前限制
相关概念
延伸阅读
基础概念
大语言模型(LLM)
什么是大语言模型?了解LLM的基本概念、工作原理和应用场景
概念定义
大语言模型(Large Language Model,LLM)是一种使用海量文本数据训练的人工智能模型,能够理解和生成人类语言,具备强大的文本理解、生成和推理能力。
详细解释
什么是大语言模型?
大语言模型是深度学习技术的产物,通过在数万亿字符的文本数据上进行训练,学会了语言的模式、语法规则和知识关联。这些模型具有以下特征:
规模庞大
参数数量从几十亿到万亿级别
训练数据覆盖互联网大部分公开文本
需要大量计算资源进行训练
能力全面
文本生成:写作、翻译、总结
语言理解:问答、分析、推理
代码编程:代码生成和调试
创意任务:诗歌、故事创作
类比理解
可以把LLM想象成一个”博学的助手”,它读过无数书籍、文章和网页,能够根据你的问题提供相关的信息和见解。不过它不是简单地复制文本,而是基于学到的模式生成新的回答。
工作原理
基本架构
训练过程
预训练
:在大规模文本数据上学习语言模式
微调
:针对特定任务进行优化调整
对齐
:通过人类反馈确保输出符合期望
推理过程
将输入文本转换为数字表示(Token)
通过多层神经网络处理
预测下一个最可能的词
重复此过程生成完整回答
预测机制
LLM的核心是”预测下一个词”,通过不断预测和生成,最终形成连贯的文本。这个过程就像接龙游戏,但LLM能考虑更广泛的上下文信息。
实际应用
主要应用场景
内容创作
文章写作和编辑
营销文案生成
代码编程助手
创意故事创作
信息处理
文档总结和分析
多语言翻译
数据提取和整理
智能搜索和问答
交互应用
智能客服系统
个人助理应用
教育辅导工具
专业咨询助手
典型产品
产品名称
开发公司
特色能力
GPT-4
OpenAI
多模态理解,代码生成
Claude
Anthropic
长文本处理,安全对话
Gemini
Google
多模态集成,实时信息
文心一言
百度
中文优化,知识问答
发展历程
LLM发展里程碑
2017年
:Transformer架构问世,奠定现代LLM基础
2018年
:BERT模型发布,引入双向编码
2019年
:GPT-2发布,展现强大生成能力
2020年
:GPT-3问世,参数达1750亿
2022年
:ChatGPT发布,引发AI应用热潮
2023年
:GPT-4等多模态模型成熟,AI进入新阶段
技术挑战
当前限制
幻觉问题
可能生成看似合理但不准确的信息
需要通过RAG等技术改善
上下文限制
受限于上下文窗口大小
无法处理超长文档
计算成本
训练和推理需要大量计算资源
限制了模型的可及性
安全风险
可能被恶意利用生成有害内容
需要完善的安全机制
相关概念
Token
:LLM处理文本的基本单位
Transformer
:LLM的核心架构
微调
:针对特定任务优化模型
提示词
:与LLM交互的输入方式
延伸阅读
推荐资源
Attention Is All You Need
- Transformer原始论文
Language Models are Few-Shot Learners
- GPT-3论文
OpenAI GPT系列模型文档
Hugging Face Transformers教程
Token与分词
Assistant
Responses are generated using AI and may contain mistakes.