书籍详情
开启智能对话新纪元:大规模语言模型的探索与实践

作者:蔡华、徐清、宣晓华
出版社:清华大学出版社
出版时间:2024-12-01
ISBN:9787302678533
定价:¥99.00
购买这本书可以去
内容简介
本书深度探讨了当今科技领域最引人注目的大规模语言模型相关技术,内容主要围绕大规模语言模型构建、评估和应用展开,分为以下四部分:第 1~5章主要介绍大规模语言模型的发展历程及其训练相关内容,包括语言模型的基本架构、大规模语言模型的高效微调技术、人类反馈强化学习和模型的分布式训练;第 6和 7章主要介绍大规模语言模型的推理优化技术、推理加速框架和模型的评估;第 8~10章主要介绍大规模语言模型扩展和应用,包括大规模语言模型和知识的融合、多模态大规模语言模型的技术介绍和其智能体扩展应用,以及大规模语言模型的垂直领域应用;第 11章主要介绍大规模语言模型研究的困难、挑战和未来潜在研究方向。本书面向技术爱好者、从业者、学术研究者和一般读者。它提供大规模语言模型相关的全面介绍,帮助从业人员和专业人士了解大规模语言模型的应用及技术原理,支持学术界研究前沿技术,并以通俗的语言帮助读者理解这一技术及其对生活的影响。
作者简介
暂缺《开启智能对话新纪元:大规模语言模型的探索与实践》作者简介
目录
第 1章大规模语言模型的背景介绍 1
11语言建模的发展阶段 2
12大规模语言模型带来的机遇 3
第 2章从统计语言模型到预训练语言模型 5
21统计语言模型 6
22神经网络语言模型 7
221前馈神经网络语言模型 7
222循环神经网络语言模型 8
223长短期记忆神经网络语言模型 9
224 Word2Vec词向量表示模型 10
23 预训练语言模型 12
ELMo 12
231 Transformer13
232 BERT 22
233 ELECTRA 23
234 GPT 1-325
235 BART 29
236 T5 31
237
第 3章大规模语言模型的框架结构 34
31编码器结构36
32 编码器-解码器结构 36
GLM36
321 UL2 41
322
33 解码器结构43
PaLM43
331 BLOOM45
332 InstructGPT47
333
34 LLaMA家族 50
341预训练数据 52
342模型架构 53
343中文 LLaMA 62
344中文 Alpaca66
第 4章大规模语言模型的训练方法 69
41模型的训练成本 71
411算力估算 71
412费用和能耗 72
42有监督微调74
421提示学习 75
422上下文学习 76
423指令微调 77
43参数高效微调 78
431部分参数的高效微调79
432参数增加的高效微调80
433重参数化的高效微调91
434混合高效微调系列 97
44人类反馈强化学习100
441强化学习 101
442近端策略优化104
443人类反馈对齐111
45大模型灾难性遗忘123
第 5章大模型分布式并行技术125
51分布式系统125
52数据并行 129
521输入数据切分130
522模型参数同步131
523数据并行优化132
53模型并行 134
531 张量并行 134
532 流水线并行 139
533 优化器相关并行 141
54其他并行 146
541 异构系统并行146
542 专家并行 147
543 多维混合并行148
544 自动并行 149
55并行训练框架 149
551 Megatron-LM152
552 DeepSpeed159
Colossal-AI163
553
第 6章大规模语言模型解码推理优化相关技术 168
61解码方法 168
611 基于搜索的解码方法169
612 基于采样的解码方法171
62推理优化方法 174
621 推理原理 177
622 推理加速 177
63模型压缩技术 179
631 量化 181
632 剪枝 184
633 蒸馏 186
64显存优化技术 187
641 键值缓存 187
642 注意力优化 188
65算子优化技术 195
651 算子融合 195
652 高性能算子 195
66推理加速框架 195
661 HuggingFace TGI196
vLLM197
662
663 LightLLM200
第 7章大规模语言模型的评估203
71评估概述 205
72评估体系 206
721知识与能力 207
722伦理与安全 209
73评估方法 212
731自动评估 213
732人工评估 217
733其他评估 221
74评估领域 223
741通用领域 223
742特定领域 226
743综合评测 227
75评估挑战 232
第 8章大规模语言模型与知识的结合233
81知识和知识表示 233
82知识图谱简介 236
83大规模语言模型和知识图谱的结合 238
84知识图谱增强大规模语言模型 240
841 LLM预训练阶段240
842 LLM评估阶段 245
843 LLM推理阶段 247
85大规模语言模型增强知识图谱 249
851知识图谱嵌入249
852知识图谱补全251
853知识图谱构建257
854知识图谱到文本生成263
855知识图谱问答265
86大规模语言模型和知识图谱协同267
861知识表示 267
862知识推理 268
87知识检索增强大规模语言模型工程应用268
871结构化数据 269
872结构化和非结构化数据 270
873向量数据库 272
874 LangChain知识库问答276
88未来的发展方向 279
第 9章多模态大规模语言模型技术应用 281
91多模态指令调节 285
911模态对齐 286
912数据收集 287
913模态桥接 290
914模型评估 292
92多模态上下文学习296
93多模态思维链 299
931模态连接 299
932学习范式 300
933链的配置和形式 301
94 LLM辅助视觉推理 301
941训练范式 303
942功能角色 305
943模型评估 307
95 LLM扩展智能体 307
951智能体308
952记忆模块 312
953任务规划 314
954动作模块 317
955评估策略 319
96多模态语言模型挑战 323
961技术问题 323
962成本问题 323
963社会问题 324
第 10章大规模语言模型应用 326
101法律领域 328
1011法律提示研究329
1012法律综合评估332
102教育领域 336
1021能力评估 336
1022伦理问题 340
1023问答应用 341
103金融领域 342
1031智能应用场景346
1032困难和挑战 347
104生物医疗 348
1041潜力和价值 348
1042应用的场景 351
1043困难和挑战 355
105代码生成 356
1051代码生成问题356
1052代码大规模语言模型357
1053发展趋势 361
第 11章展望和结论 363
111局限和挑战 363
1111局限 363
1112挑战 364
112方向和建议 365
1121数据方面 365
1122技术方面 365
1123应用方面 366
1124方向建议 366
113值得探索的研究 368
1131基础理论研究369
1132高效计算研究370
1133安全伦理研究371
1134数据和评估研究 372
1135认知学习问题373
1136高效适配研究374
参考文献 376
11语言建模的发展阶段 2
12大规模语言模型带来的机遇 3
第 2章从统计语言模型到预训练语言模型 5
21统计语言模型 6
22神经网络语言模型 7
221前馈神经网络语言模型 7
222循环神经网络语言模型 8
223长短期记忆神经网络语言模型 9
224 Word2Vec词向量表示模型 10
23 预训练语言模型 12
ELMo 12
231 Transformer13
232 BERT 22
233 ELECTRA 23
234 GPT 1-325
235 BART 29
236 T5 31
237
第 3章大规模语言模型的框架结构 34
31编码器结构36
32 编码器-解码器结构 36
GLM36
321 UL2 41
322
33 解码器结构43
PaLM43
331 BLOOM45
332 InstructGPT47
333
34 LLaMA家族 50
341预训练数据 52
342模型架构 53
343中文 LLaMA 62
344中文 Alpaca66
第 4章大规模语言模型的训练方法 69
41模型的训练成本 71
411算力估算 71
412费用和能耗 72
42有监督微调74
421提示学习 75
422上下文学习 76
423指令微调 77
43参数高效微调 78
431部分参数的高效微调79
432参数增加的高效微调80
433重参数化的高效微调91
434混合高效微调系列 97
44人类反馈强化学习100
441强化学习 101
442近端策略优化104
443人类反馈对齐111
45大模型灾难性遗忘123
第 5章大模型分布式并行技术125
51分布式系统125
52数据并行 129
521输入数据切分130
522模型参数同步131
523数据并行优化132
53模型并行 134
531 张量并行 134
532 流水线并行 139
533 优化器相关并行 141
54其他并行 146
541 异构系统并行146
542 专家并行 147
543 多维混合并行148
544 自动并行 149
55并行训练框架 149
551 Megatron-LM152
552 DeepSpeed159
Colossal-AI163
553
第 6章大规模语言模型解码推理优化相关技术 168
61解码方法 168
611 基于搜索的解码方法169
612 基于采样的解码方法171
62推理优化方法 174
621 推理原理 177
622 推理加速 177
63模型压缩技术 179
631 量化 181
632 剪枝 184
633 蒸馏 186
64显存优化技术 187
641 键值缓存 187
642 注意力优化 188
65算子优化技术 195
651 算子融合 195
652 高性能算子 195
66推理加速框架 195
661 HuggingFace TGI196
vLLM197
662
663 LightLLM200
第 7章大规模语言模型的评估203
71评估概述 205
72评估体系 206
721知识与能力 207
722伦理与安全 209
73评估方法 212
731自动评估 213
732人工评估 217
733其他评估 221
74评估领域 223
741通用领域 223
742特定领域 226
743综合评测 227
75评估挑战 232
第 8章大规模语言模型与知识的结合233
81知识和知识表示 233
82知识图谱简介 236
83大规模语言模型和知识图谱的结合 238
84知识图谱增强大规模语言模型 240
841 LLM预训练阶段240
842 LLM评估阶段 245
843 LLM推理阶段 247
85大规模语言模型增强知识图谱 249
851知识图谱嵌入249
852知识图谱补全251
853知识图谱构建257
854知识图谱到文本生成263
855知识图谱问答265
86大规模语言模型和知识图谱协同267
861知识表示 267
862知识推理 268
87知识检索增强大规模语言模型工程应用268
871结构化数据 269
872结构化和非结构化数据 270
873向量数据库 272
874 LangChain知识库问答276
88未来的发展方向 279
第 9章多模态大规模语言模型技术应用 281
91多模态指令调节 285
911模态对齐 286
912数据收集 287
913模态桥接 290
914模型评估 292
92多模态上下文学习296
93多模态思维链 299
931模态连接 299
932学习范式 300
933链的配置和形式 301
94 LLM辅助视觉推理 301
941训练范式 303
942功能角色 305
943模型评估 307
95 LLM扩展智能体 307
951智能体308
952记忆模块 312
953任务规划 314
954动作模块 317
955评估策略 319
96多模态语言模型挑战 323
961技术问题 323
962成本问题 323
963社会问题 324
第 10章大规模语言模型应用 326
101法律领域 328
1011法律提示研究329
1012法律综合评估332
102教育领域 336
1021能力评估 336
1022伦理问题 340
1023问答应用 341
103金融领域 342
1031智能应用场景346
1032困难和挑战 347
104生物医疗 348
1041潜力和价值 348
1042应用的场景 351
1043困难和挑战 355
105代码生成 356
1051代码生成问题356
1052代码大规模语言模型357
1053发展趋势 361
第 11章展望和结论 363
111局限和挑战 363
1111局限 363
1112挑战 364
112方向和建议 365
1121数据方面 365
1122技术方面 365
1123应用方面 366
1124方向建议 366
113值得探索的研究 368
1131基础理论研究369
1132高效计算研究370
1133安全伦理研究371
1134数据和评估研究 372
1135认知学习问题373
1136高效适配研究374
参考文献 376
猜您喜欢



