书籍详情
走进搜索引擎
作者:梁斌 编著
出版社:电子工业出版社
出版时间:2007-10-01
ISBN:9787121049224
定价:¥49.80
购买这本书可以去
内容简介
在网络普及的今天,人们经常在信息海洋中彷徨,在万维网迷宫般的复杂与魅力之间挣扎。直到搜索引擎这一伟大的技术产生,才使得人们犹如找到了走出迷宫的灯塔,可以非常便捷地找到自己所需要的信息。 正是因为搜索引擎离我们越来越近,所以越来越多的人期待着能够揭开她神秘的面纱。其实搜索引擎并不是变幻莫测的大海,也不是高不可攀的山峰。请拿起本书,它就是引领你的火炬,它就是你身边的伙伴,它将带着你走进搜索引擎。在那里,你必将会被搜索引擎精致的设计和宏伟的架构所征服。 本书由搜索引擎开发研究领域年轻而有活力的科学家精心编写,作者将自己对搜索引擎的深刻理解和实际应用巧妙地结合,使得从未接触过搜索引擎原理的读者也能够轻松地在搜索引擎的大厦中遨游一番。 本书作为搜索引擎原理与技术的入门书籍,面向那些有志从事搜索引擎行业的青年学生、需要完整理解并优化搜索引擎的专业技术人员、搜索引擎的营销人员,以及网站的负责人等。 本书是从事搜索引擎开发的工程技术人员难得的参考书,也可作为大中专院校相关专业的教学辅导书。
作者简介
梁斌毕业于南京大学,获得软件工程硕士学位,曾经发表过多篇论文,获得1项国家专利,作者主要的兴趣方向包括数据挖掘、Wed挖掘、搜索引擎和软件工程等,目前在清华大学信息科学与技术国家实验室从事搜索引擎相关研究工作。
目录
称为“Crawler”,中文译为“爬虫”,或者“蜘蛛”)是其中最华彩的乐章。让我们从爬虫开始,逐渐进入闪烁着奇异光芒的领地。
第一节 爬虫的发展历史 32
世界上第1个爬虫 32
爬虫的发展历程 33
第二节 万维网及其网页分析 34
蝴蝶结型的万维网 34
万维网的直径 37
万维网的规模及变化特征 39
网页的特征 39
第三节 有关爬虫的基本概念 41
爬虫 41
种子站点 41
URL 42
Backlinks 42
第四节 网页抓取原理 43
telnet和wget 43
从种子站点开始逐层抓取 44
不重复抓取策略 50
网页抓取优先策略 59
网页重访策略★ 61
Robots协议 67
其他应该注意的礼貌性问题 69
抓取提速策略(合作抓取策略) 70
第五节 网页库 77
第六节 下载系统回顾及未来发展 82
参考文献 84
第四章 搜索引擎的分析系统 86
搜索引擎的4大系统中的第2个系统是分析系统,分析系统主要完成的工作包括信息抽取、网页消重、中文分词和PageRank计算等。
第一节 知识准备 87
HTML语言 87
锚文本(anchor text) 87
半结构化数据(Semi-structured data) 88
第二节 信息抽取及网页信息结构化 89
网页结构化的目标 89
建立HTML标签树 93
通过投票方法得到正文 98
网页结构化过程回顾 103
第三节 网页查重 105
网页查重技术发展历史 105
网页查重实现方法 107
第四节 中文分词 113
什么是中文分词 113
通过字典实现分词 114
通过统计学方法实现分词 120
第五节 PageRank 121
PageRank的来由 121
PageRank的基本想法 122
PageRank的计算公式 124
PageRank的计算方法 ★ 129
第六节 分析系统结构图 134
参考文献 136
第五章 搜索引擎的索引系统 139
在搜索引擎的4大系统中,第3个系统称为“索引系统”。该系统就好像搜索引擎的数据大本营,在这里存储了并索引了数以亿计的网页。
第一节 知识准备 140
信息 140
索引 141
倒排索引、倒排表、临时倒排文件、最终倒排文件 141
其他概念 142
第二节 全文检索 143
全文检索 143
第三节 文档编号 146
编号的本质 146
文档编号的方法 147
游程编码 149
第四节 倒排索引 154
经典的倒排索引 154
正排索引(前向索引) 155
倒排索引 158
第五节 数据规模的估计 163
齐普夫法则 163
布尔检索模型下的索引规模估计★ 165
第六节 涉及存储规模的一些计算 170
正排表与倒排表的合并 170
多个临时倒排文件的归并 174
倒排索引分布式存储 179
倒排文件缓存 183
倒排索引词典统计信息的计算 183
第七节 倒排索引文件的创建过程 185
创建倒排表 185
计算统计信息 187
参考文献 189
第六章 搜索引擎的查询系统 191
在搜索引擎4大系统中,第4个系统称为“查询系统”。查询系统直接面对用户,在接收用户的查询请求后,通过检索、排序及摘要提取等计算,将计算结果组织成搜索结果页返回给用户。整个查询过程不仅要快,而且必须能够提供用户满意的查询结果。
第一节 知识准备 192
什么是信息熵 192
检索和查询的区别 196
检索词和查询词的区别 196
自动文本摘要(Automatic Text Summarization) 197
第二节 网页信息检索 198
早期的检索模型 198
向量空间模型(Vector Space Models) 201
关键词权重的量化方法TF/IDF★ 207
搜索引擎采用的检索模型 213
多文档列表求交计算 215
检索结果排序 222
堆排序 223
第三节 中文自动摘要 230
自动摘要的发展历史 230
自动摘要的含义和实现 231
第四节 生成搜索结果页 239
生成搜索结果页 239
第五节 搜索结果页的缓存 242
搜索结果页的缓存 242
第六节 推测用户查询意图 245
查询分类 245
推测信息类、事物类的查询意图 247
第七节 查询系统的当前热点和发展方向 249
查询系统的当前热点 249
参考文献 250
第七章 搜索引擎的其他话题 252
本书初步介绍了搜索引擎4大系统各自的运作原理,以及相互配合的关系。本节通过回答一些有关搜索引擎的基本问题,以从宏观上更好地理解和认识搜索引擎。
第一节 搜索引擎问与答 253
为什么搜索引擎的搜索速度这么快 253
为什么搜索引擎能够返回那么多的查询结果 255
为什么搜索引擎总能返回最想要的结果 256
搜索引擎如何大规模存储网页的 257
什么是SEO 259
什么是元搜索引擎 260
搜索引擎认为的作弊行为是哪些 261
如何进一步学习和了解搜索引擎发展的最新成果 262
第二节 搜索引擎未来的发展 265
新兴的搜索产品 265
搜索技术的未来 268
参考文献 270
附录A 搜索引擎系统结构全观图 271
第一节 爬虫的发展历史 32
世界上第1个爬虫 32
爬虫的发展历程 33
第二节 万维网及其网页分析 34
蝴蝶结型的万维网 34
万维网的直径 37
万维网的规模及变化特征 39
网页的特征 39
第三节 有关爬虫的基本概念 41
爬虫 41
种子站点 41
URL 42
Backlinks 42
第四节 网页抓取原理 43
telnet和wget 43
从种子站点开始逐层抓取 44
不重复抓取策略 50
网页抓取优先策略 59
网页重访策略★ 61
Robots协议 67
其他应该注意的礼貌性问题 69
抓取提速策略(合作抓取策略) 70
第五节 网页库 77
第六节 下载系统回顾及未来发展 82
参考文献 84
第四章 搜索引擎的分析系统 86
搜索引擎的4大系统中的第2个系统是分析系统,分析系统主要完成的工作包括信息抽取、网页消重、中文分词和PageRank计算等。
第一节 知识准备 87
HTML语言 87
锚文本(anchor text) 87
半结构化数据(Semi-structured data) 88
第二节 信息抽取及网页信息结构化 89
网页结构化的目标 89
建立HTML标签树 93
通过投票方法得到正文 98
网页结构化过程回顾 103
第三节 网页查重 105
网页查重技术发展历史 105
网页查重实现方法 107
第四节 中文分词 113
什么是中文分词 113
通过字典实现分词 114
通过统计学方法实现分词 120
第五节 PageRank 121
PageRank的来由 121
PageRank的基本想法 122
PageRank的计算公式 124
PageRank的计算方法 ★ 129
第六节 分析系统结构图 134
参考文献 136
第五章 搜索引擎的索引系统 139
在搜索引擎的4大系统中,第3个系统称为“索引系统”。该系统就好像搜索引擎的数据大本营,在这里存储了并索引了数以亿计的网页。
第一节 知识准备 140
信息 140
索引 141
倒排索引、倒排表、临时倒排文件、最终倒排文件 141
其他概念 142
第二节 全文检索 143
全文检索 143
第三节 文档编号 146
编号的本质 146
文档编号的方法 147
游程编码 149
第四节 倒排索引 154
经典的倒排索引 154
正排索引(前向索引) 155
倒排索引 158
第五节 数据规模的估计 163
齐普夫法则 163
布尔检索模型下的索引规模估计★ 165
第六节 涉及存储规模的一些计算 170
正排表与倒排表的合并 170
多个临时倒排文件的归并 174
倒排索引分布式存储 179
倒排文件缓存 183
倒排索引词典统计信息的计算 183
第七节 倒排索引文件的创建过程 185
创建倒排表 185
计算统计信息 187
参考文献 189
第六章 搜索引擎的查询系统 191
在搜索引擎4大系统中,第4个系统称为“查询系统”。查询系统直接面对用户,在接收用户的查询请求后,通过检索、排序及摘要提取等计算,将计算结果组织成搜索结果页返回给用户。整个查询过程不仅要快,而且必须能够提供用户满意的查询结果。
第一节 知识准备 192
什么是信息熵 192
检索和查询的区别 196
检索词和查询词的区别 196
自动文本摘要(Automatic Text Summarization) 197
第二节 网页信息检索 198
早期的检索模型 198
向量空间模型(Vector Space Models) 201
关键词权重的量化方法TF/IDF★ 207
搜索引擎采用的检索模型 213
多文档列表求交计算 215
检索结果排序 222
堆排序 223
第三节 中文自动摘要 230
自动摘要的发展历史 230
自动摘要的含义和实现 231
第四节 生成搜索结果页 239
生成搜索结果页 239
第五节 搜索结果页的缓存 242
搜索结果页的缓存 242
第六节 推测用户查询意图 245
查询分类 245
推测信息类、事物类的查询意图 247
第七节 查询系统的当前热点和发展方向 249
查询系统的当前热点 249
参考文献 250
第七章 搜索引擎的其他话题 252
本书初步介绍了搜索引擎4大系统各自的运作原理,以及相互配合的关系。本节通过回答一些有关搜索引擎的基本问题,以从宏观上更好地理解和认识搜索引擎。
第一节 搜索引擎问与答 253
为什么搜索引擎的搜索速度这么快 253
为什么搜索引擎能够返回那么多的查询结果 255
为什么搜索引擎总能返回最想要的结果 256
搜索引擎如何大规模存储网页的 257
什么是SEO 259
什么是元搜索引擎 260
搜索引擎认为的作弊行为是哪些 261
如何进一步学习和了解搜索引擎发展的最新成果 262
第二节 搜索引擎未来的发展 265
新兴的搜索产品 265
搜索技术的未来 268
参考文献 270
附录A 搜索引擎系统结构全观图 271
猜您喜欢