书籍详情

数据科学技术:文本分析和知识图谱

数据科学技术:文本分析和知识图谱

作者:苏海波、刘译璟、易显维、苏萌

出版社:清华大学出版社

出版时间:2024-01-01

ISBN:9787302649700

定价:¥129.00

购买这本书可以去
内容简介
  数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的实现路线,并对应用于业界算法大赛中的技术方案和技巧进行源代码解读,帮助读者深入理解技术原理。最后,本书还介绍了文本分析和知识图谱技术在政务、公共安全、应急等多个行业中的智能应用实践案例。《数据科学技术:文本分析和知识图谱》适合具备Python和机器学习技术基础的高等院校学生、文本分析(或者自然语言处理)以及知识图谱领域的算法工程师和研究机构的研究者阅读,也适合数据科学和人工智能领域的研究者作为参考书。
作者简介
  苏海波清华大学电子工程系博士,副研究员,在文本分析、知识图谱、大模型等人工智能方向拥有超过十年的研发实践经验。多篇SCI和EI论文发表于国外顶尖学术会议和期刊,获得国家发明专利20余项,曾担任科技部重点研发计划子课题负责人。获得2019年和2020年北京市科学技术进步奖,带领团队获得多个业界知名算法技术评测的冠军和亚军。刘译璟北京大学博士、正高级工程师,现任北京百分点科技集团股份有限公司CTO。在云计算、大数据、人工智能等领域拥有15年研究和工作经验。曾荣获北京市科学技术奖等奖项,承担国家科技部重点研发计划项目2项,参与多个国家自然科学基金项目,多篇论文曾发表于国内外学术刊物。易显维中国地质大学硕士,拥有12年AI算法研发岗相关研发管理经验。在数据挖掘、OCR、文本分析等方面拥有丰富的实践经验,在众多知名企事业单位举办的高水平机器学习算法竞赛中累计获奖20余次。苏 萌美国康奈尔大学博士,研究员, 现任北京百分点科技集团股份有限公司董事长兼CEO、北京大学国家发展研究院实践教授、北京大学光华管理学院实践教授、北京市商会副会长、海淀区工商联副主席、海淀区政协委员、国务院学位委员会全国应用统计专业 “大数据专家委员会" 委员等。曾执教于北京大学光华管理学院,任副系主任、博士生导师。
目录
第1章 什么是数据科学 1
1.1 数据科学的定义 1
1.1.1 数据科学的背景 1
1.1.2 数据科学的定义 1
1.2 数据科学的关键技术 3
1.2.1 数据存储计算 5
1.2.2 数据治理  12
1.2.3 结构化数据分析  28
1.2.4 语音分析  44
1.2.5 视觉分析 55
1.2.6 文本分析 61
1.2.7 知识图谱  65
1.3 本章小结  65
1.4 习题  66
1.5 本章参考文献  66
第2章 文本预训练模型 68
2.1 文本分析技术的发展史  68
2.2 Transformer模型结构  70
2.3 预训练模型的结构和变种 75
2.4 加速处理器GPU和TPU  79
2.4.1 GPU的介绍  79
2.4.2 GPU产品命名  80
2.4.3 TPU和GPU的区别  83
2.4.4 TPU的使用总结  84
2.5 预训练模型的常见问题  87
2.5.1 模型输入的常见问题  87
2.5.2 模型原理的常见问题  90
2.5.3 模型进化的常见问题  94
2.6 预训练模型的源码解读  96
2.6.1 模型架构  96
2.6.2 BertModel  96
2.6.3 BERT预训练任务  107
2.6.4 BERT 微调  112
2.7 本章小结  114
2.8 习题  114
2.9 本章参考文献  115
第3章 多语种文本分析 116
3.1 多语种文本分析背景介绍  116
3.2 多语种文本分析技术  116
3.2.1 Polyglot技术  116
3.2.2 Multilingual BERT  117
3.2.3 XLM多语言模型  117
3.2.4 XLMR多语言模型  119
3.2.5 模型实验效果  120
3.3 多语种文本分析源码解读  121
3.4 本章小结  125
3.5 习题  126
3.6 本章参考文献  126
第4章 文本情感分析 127
4.1 情感分析背景介绍  127
4.2 情感分析技术  127
4.2.1 目标和挑战  127
4.2.2 技术发展历程  129
4.2.3 情感分析的需求分析  133
4.2.4 情感分析的落地实践  134
4.2.5 模型开发平台的构建  137
4.3 情感分析比赛和方案  144
4.3.1 背景介绍  144
4.3.2 方案介绍  146
4.3.3 数据清洗和增广  147
4.3.4 多模态融合  147
4.3.5 机器学习技巧  148
4.4 情感分析源码解读  151
4.4.1 F1值适应优化技巧代码  151
4.4.2 对抗训练代码  152
4.5 本章小结  154
4.6 习题  154
4.7 本章参考文献  155
第5章 文本机器翻译 156
5.1 机器翻译背景介绍  156
5.2 机器翻译技术  157
5.2.1 基于规则的机器翻译  157
5.2.2 统计机器翻译  158
5.2.3 神经网络机器翻译  159
5.2.4 Encoder-Decoder模型  161
5.2.5 注意力机制模型  162
5.2.6 工业级神经网络实践  164
5.3 机器翻译比赛和方案  167
5.3.1 WMT21翻译任务  167
5.3.2 WMT22 翻译任务  168
5.4 机器翻译源码解读  169
5.4.1 通用框架介绍  169
5.4.2 翻译模型实现  170
5.5 本章小结  180
5.6 习题  181
5.7 本章参考文献  181
第6章 文本智能纠错 183
6.1 文本纠错背景介绍  183
6.2 文本智能纠错技术  184
6.2.1 智能纠错的意义和难点  185
6.2.2 智能纠错解决的问题  185
6.2.3 业界主流解决方案  186
6.2.4 技术方案实践  190
 6.3 文本智能纠错技术  193
6.3.1 比赛介绍  193
6.3.2 校对问题思考  194
6.4 纠错方案和源码解读  195
6.4.1 GECToR原理解读  195
6.4.2 MacBERT原理解读  199
6.4.3 PERT原理解读 200
6.4.4 PLOME原理解读 202
6.4.5 比赛方案  203
6.5 本章小结 204
6.6 习题  205
6.7 本章参考文献  205
第7章 知识图谱构建  206
7.1 知识图谱背景介绍 206
7.1.1 知识和知识图谱 206
7.1.2 知识获取、知识抽取与信息抽取
 的区别207
7.1.3 知识图谱构建范式 208
7.2 非结构化信息抽取技术  211
7.2.1 信息抽取框架  211
7.2.2 命名实体识别 212
7.2.3 关系识别  213
7.2.4 事件抽取  215
7.3 生成式统一模型抽取技术  216
7.4 模型源码解读 220
7.5 本章小结 224
7.6 习题 224
7.7 本章参考文献  225
第8章 知识图谱问答  226
8.1 背景介绍  226
8.2 知识图谱问答技术  229
8.2.1 信息检索方法  229
8.2.2 语义解析方法  231
8.3 方案和源码解读  233
8.3.1 NL2SPARQL  233
8.3.2 NL2SPARQL语义解析方案  234
8.3.3 T5、BART、UniLM模型简介  234
8.3.4 T5、BART、UniLM方案  236
8.3.5 训练T5、BART、UniLM
 生成模型  237
8.3.6 语义排序方案和代码  239
8.3.7 SPARQL修正代码  241
8.4 本章小结  245
8.5 习题  245
第9章 结构化知识NL2SQL问答 246
9.1 NL2SQL背景介绍 246
9.2 NL2SQL技术  249
9.2.1 NL2SQL技术路线  249
9.2.2 NL2SQL项目实践  255
9.3 NL2SQL比赛和方案  256
9.4 NL2SQL源码解读  259
9.5 本章小结  269
9.6 习题  269
9.7 本章参考文献  270
第10章 ChatGPT大语言模型 271
10.1 ChatGPT介绍  271
10.1.1 ChatGPT的定义和背景  271
10.1.2 ChatGPT的发展历程  272
10.2 GPT模型概述 272
10.2.1 GPT-1模型的原理  272
10.2.2 GPT-2模型的原理  273
10.2.3 GPT-3模型的原理  275
10.3 ChatGPT的实现原理  277
10.3.1 大模型的微调技术  277
10.3.2 ChatGPT的能力来源  278
10.3.3 ChatGPT的预训练和微调  279
10.4 ChatGPT的应用  282
10.4.1 ChatGPT提示工程  282
10.4.2 ChatGPT应用场景  283
10.4.3 ChatGPT的优缺点 284
10.5 开源大模型  285
10.5.1 ChatGLM大模型  285
10.5.2 LLaMA大模型  288
10.6 本章小结 294
10.7 习题 294
10.8 本章参考文献 295
第11章 行业实践案例  296
11.1 智慧政务实践案例  296
11.1.1 案例背景  296
11.1.2 解决方案  297
11.1.3 系统架构和实现  299
11.1.4 案例总结  307
11.2 公共安全实践案例 308
11.2.1 案例背景 308
11.2.2 解决方案 309
11.2.3 系统架构及实现  311
11.2.4 案例总结  317
11.3 智能应急实践案例  318
11.3.1 案例背景  319
11.3.2 解决方案  320
11.3.3 系统架构及实现  321
11.3.4 案例总结  332
11.4 本章小结  334
11.5 习题 334
猜您喜欢

读书导航