书籍详情
生物信息学基础
作者:孙啸,陆祖宏,谢建明编著
出版社:清华大学出版社
出版时间:2005-05-01
ISBN:9787302102700
定价:¥32.00
购买这本书可以去
内容简介
生物信息学是一门新兴的交叉学科。在该领域中,由生物学家和计算机科学家共同研究生物分子信息的获取、管理、分析和利用。生物信息学以计算机、网络为工具,用数学和信息科学的理论、方法和技术去研究生物大分子,研究生物分子信息组织的规律。本书紧紧围绕基因组与后基因组研究,阐述生物信息学的方法、技术、资源及其核心算法,介绍各种信息学方法和技术在生物信息学中的应用。本书首先简要说明生物信息学的研究对象及主要研究内容;然后介绍基本的序列比较算法,介绍各种生物信息学数据资源及主要数据库;接下来以专题形式介绍基因组信息分析、分子系统发生分析及蛋白质结构预测;最后,介绍基因表达数据分析。为了便于计算机和数学研究人员进入生物信息学研究领域,本书还特别介绍了与生物信息学有关的基本分子生物学知识。本书可以作为高年级大学生或研究生的生物信息学课程教材,也可以作为生命科学工作者、计算机应用人员的参考书。
作者简介
暂缺《生物信息学基础》作者简介
目录
第1章生物信息学引论……………………………………………………………………1
1.1 引言………………………………………………………………………………1
1.1.1生物信息学概念………………………………………………………1
1.1.2生物分子信息……………………………………………………………2
1.1.3生物信息学的研究目标和任务…………………………………………4
1.1.4生物信息学的研究意义…………………………………………………6
1.2生物信息学的发展历史…………………………………………………………7
1.3人类基因组计划和基因组信息学………………………………………………9
1.3.1人类基因组计划简介……………………………………………………9
1.3.2人类基因组计划对生物信息学的挑战………………………………13
1.4蛋白质结构与功能关系的研究…………………………………………………16
1.5生物信息学的主要研究内容……………………………………………………18
1.5.1 生物分子数据的收集与管理………………………………………18
1.5.2数据库搜索及序列比较………………………………………………19
1.5.3基因组序列分析………………………………………………………20
1.5.4基因表达数据的分析与处理……………………………………21
1.5.5蛋白质结构预测………………………………………………………21
1.6生物信息学所用的方法和技术………………………………………………23
1.6.1数学统计方法…………………………………………………………23
1.6.2动态规划方法…………………………………………………………23
1.6.3机器学习与模式识别技术……………………………………………24
1.6.4数据库技术及数据挖掘………………………………………………25
1.6.5人工神经网络技术……………………………………………………26
1.6.6专家系统……………………………………………………………27
1.6.7分子模型化技术……………………………………………………28
1.6.8量子力学和分子力学计算…………………………………………29
1.6.9生物分子的计算机模拟…………………………………………29
1.6.10 特网(internet)技术………………………………………………31
1.7生物信息学目前的发展概况……………………………………………………31
问题与练习……………………………………………………………………………35
参考文献……………………………………………………………………………35
第2章生物信息学的生物学基础………………………………………………………40
2.1细胞………………………………………………………………………………40
2.2蛋白质的结构和功能……………………………………………………………42
2.2.1蛋白质的功能…………………………………………………………42
2.2.2蛋白质的分子组成……………………………………………………43
2.2.3蛋白质的结构层次………………………………………………44
2.2.4蛋白质结构与功能的关系……………………………………………50
2.3 遗传信息载体一dna………………………………………………………51
2.3.1核苷酸………………………………………………………………52
2.3.2 dna的结构………………………………………………………53
2.4分子生物学中心法则……………………………………………………………55
2.4.1 dna的复制……………………………………………………………55
2.4.2转录……………………………………………………………………56
2.4.3翻译…………………………………………………………………57
2.4.4 mrna的反转录与cdna……………………………………………59
2.4.5对遗传信息流的再认识…………………………………………60
2.5基因组结构………………………………………………………………………60
2.5.1染色体结构…………………………………………………………60
2.5.2基因…………………………………………………………………62
2.5.3原核生物基因组…………………………………………………63
2.5.4真核生物基因组………………………………………………………64
2.6基因表达调控…………………………………………………………………69
2.6.1基因表达调控的层次……………………………69
2.6.2原核基因调控…………………………………………………………70
2.6.3真核基因调控…………………………………………………………70
2.7新生肽链的折叠…………………………………………………………………71
2.7.1新生肽链的加工……………………………………………………72
2.7.2新生肽链的折叠………………………………………………………72
2.7.3蛋白质折叠的一般规律……………………………………………72
2.7.4帮助新生肽链折叠的生物大分子……………………………………73
2.7.5蛋白质构象病问题……………………………………………………74
2.8生物大分子结构的测定……………………………………………74
2.8.1 x射线衍射结构分析……………………….…………………………74
2.8.2核磁共振结构分析…………………………………………………76
2.9分子生物学工具……………………………77
问题与练习…………………………………………………79
参考文献………………………………………………………………………………79
第3章序列比较…………………………………………………………………………81
3.1序列的相似性……………………………………………………………………81
3.1.1字母表和序列…………………………………………………………82
3.1.2 编辑距离……………………………………………………………83
3.1.3通过点矩阵分析两条序列的相似之处………………………………84
3.1.4 序列的两两比对…………………………………………………86
3.1.5用于序列相似性的打分矩阵…………………………………………87
3.2两两比对算法……………………………………………………………………92
3.2.1序列两两比对基本算法………………………………………………93
3.2.2子序列与完整序列的比对……………………………………………96
3.2.3寻找最大的相似子序列………………………………………………97
3.2.4准全局序列比对………………………………………………………98
3.2.5关于连续空位的问题…………………………………………………99
3.2.6比较相似序列…………………………………………………………102
3.2.7 比对的统计学显著性…………………………………………………103
3.3序列多重比对…………………………………………104
3.3.1 sp模型………………………………………………………………105
3.3.2多重比对的动态规划算法……………………………………………107
3.3.3优化计算方法……………………………110
3.3.4星形比对………………………………………………………………112
3.3.5树形比对……………………………………………………………114
3.3.6其他多重序列比对算法………………………………………………115
3.3.7统计特征分析……………………………………………………115
3.4 dna片段组装………………………………………………………………116
3.4.1片段组装问题………………………………………………………117
3.4.2序列片段组装模型……………………………………………………119
3.4.3序列片段覆盖图………………………………………………………121
3.4.4贪婪算法………………………………………………………………123
3.4.5非循环图拓扑排序法…………………………………………………124
问题与练习……………………………………………………………………125
参考文献…………………………………………………126
第4章生物分子数据库…………………………………………………………………130
4.1 引言……………………………………………………………………………130
4.2核酸序列数据库………………………………………………………………131
4.2.1 genbank/embl-bank/ddbj …………………………………131
4.2.2基因组数据库…………………………………………………………136
4.2.3表达序列标记数据库dbest………………………………………137
4.2.4序列标记位点数据库dbsts………………………………………138
4.2.5面向基因聚类数据库unigene……………………………………138
4.3蛋白质序列数据库…………………………………………………………138
4.3.1 pir……………………………………………………………………138
4.3.2 swiss—prot………………………………………………………140
4.3.3 trembl…………………………………………………………141
4.4生物大分子结构数据库………………………………………………………142
4.4.1 pdb …………………………………………………………………142
4.4.2 mmdb………………………………………………………………142
4.5其他生物分子数据库…………………………………………………………143
4.5.1单碱基多态性数据库dbsnp………………………………………144
4.5.2蛋白质结构分类数据库scop……………………………………144
4.5.3蛋白质二级结构数据库dssp………………………………………145
4.5.4蛋白质同源序列比对数据库hssp ………………………………146
4.5.5 序列模式数据库prosite……………………………………147
4.5.6 蛋白质指纹数据库prints ………………………………………147
4.5.7人类遗传数据库omim……………………………………………147
4.5.8 基因启动子数据库epd……………………………………………148
4.5.9转录调控区域数据库trrd………………………………………148
4.5.10 转录因子数据库transfac……………………………………149
4.5.11基因本体数据库go………………………………………………149
4.5.12 生物、医学文献数据库pubmed ………………………………149
4.5.13 目录数据库dbcat………………………………………………149
4.6数据库搜索……………………………………………………………………150
4.6.1 fasta…………………………………………………………………151
4.6.2 blast………………………………………………………………154
4.6.3 vast ………………………………………………………………158
4.7数据库集成……………………………………………………………………159
4.7.1 entrez ………………………………………………………………160
4.7.2 srs…………………………………………………………………161
4.7.3 expasy………………………………………………………………162
问题与练习……………………………………………………………………………162
参考文献………………………………………………………………………………163
第5章基因组信息分析…………………………………………………………………168
5.1关于遗传语言……………………………………………………………168
5.1.1 基因组dna的奥秘…………………………………………………168
5.1.2探索遗传语言…………………………………………………………171
5.1.3关于生物复杂性………………………………………………………172
5.1.4基因组学研究带来的希望…………………………………………172
5.2原核基因组特点………………………………………………………………173
5.2.1长开放阅读框…………………………………………………………173
5.2.2高基因密度……………………………………………………………173
5.2.3简单的基因结构………………………………………………………173
5.2.4原核基因组中的gc含量……………………………………………174
5.3真核基因组特点………………………………………………………………174
5.3.1基因组规模……………………………………………………………174
5.3.2 巨大的非编码序列……………………………………………………174
5.3.3复杂的基因结构………………………………………………………174
5.3.4复杂的基因转录调控方式……………………………………………175
5.3.5可变剪接………………………………………………………………175
5.3.6 cpg岛………………………………………………………………176
5.3.7等值区……………………………………………………………176
5.3.8密码子使用偏性………………………………………………………177
5.4基因组序列分析………………………………………………………………177
5.4.1基因组序列分析步骤和分析结果评价………………………………177
5.4.2核苷酸关联分析……………………………………………………179
5.5基因识别方法…………………………………………………………………181
5.5.1 最长orfs法……………………………………………………181
5.5.2基于密码子出现频率的预测方法……………………………………182
5.5.3同源性方法……………………………………………………………184
5.5.4神经网络方法…………………………………………………………185
5.5.5隐马尔可夫模型法……………………………………………………186
5.5.6模式判别分析法………………………………………………….…..198
5.5.7基于动态规划的基因结构预测方法…………………………………199
5.5.8基于剪切比对的基因识别……………………………………………202
5.5.9其他基因识别方法……………………………………………………202
5.6非编码区域分析和调控元件识别……………………………………………203
5.6.1调控元件的建模………………………………………………………204
5.6.2调控元件模式的得分函数……………………………………………206
5.6.3模式驱动的调控元件识别……………………………………………207
5.6.4序列驱动的调控元件识别……………………………………………208
问题与练习…………………………………………215
参考文献…………………………………………………215
第6章系统发生分析……………………………………………………………………219
6.1分子系统发生与系统发生树……………………………………………219
6.1.1 分子系统发生分析………………………219
6.1.2系统发生树…………………………………221
6.1.3距离和特征………………………………………222
6.1.4分子系统发生分析过程……………………………………223
6.2基于距离的系统发生树构建方法…………………………………………225
6.2.1最小二乘法………………………………………………………225
6.2.2连锁聚类方法及非加权分组平均法……………………………226
6.2.3 距离变换法…………………………………一…………….………229
6.2.4邻近归并法…………………………………….230
6.3基于特征的系统发生树构建方法……………………….………………232
6.3.1最大简约法………………………………….232
6.3.2快速搜索策略…………………………………235
6.4最大似然法…………………………………………236
6。5系统发生树的可靠性…………………………………………………………238
6.5.1 自举检验……………………………….238
6.5.2参数检验………………………………………………………………239
6.6全基因组系统发生分析…………………….239
6.6.1基于多棵系统发生树的方法…………………………………………239
6.6.2基于基因内容的方法……………………………240
6.6。3基于蛋白质折叠结构的方法……………………………..………….240
6.6.4基于基因次序的方法……………………………240
6.6.5基于连接的直向同源蛋白的方法……………….…………………240
6.6.6基于代谢途径的方法…………………241
问题与练习…………242
参考文献……………………………………243
第7章蛋白质结构预测…………………………………………………………………245
7.1 引言………………………………………………………………………245
7.2蛋白质二级结构预测………………………………………………………249
7.2.1利用的信息及预测准确性…………………………………………249
7.2.2 chou—fasman方法 ……………………………………………250
7.2.3 gor方法………………………………252
7.2.4基于氨基酸疏水性的预测方法………………………………………255
7.2.5最邻近方法……………………………………………………………257
7.2.6人工神经网络方法…………………………………………………258
7.2.7综合方法………………………………………………………………261
7.2.8氨基酸残基之间的距离…………………………………………261
7.3 rna二级结构的预测…………………………………………………………262
7.4蛋白质空间结构预测………………………………………………………263
7.4.1同源模型化方法………………………………………………………264
7.4.2线索化方法(折叠识别方法)…………………………………………266
7.4.3从头预测方法…………………………………………………………267
7.4.4预测方法评价…………………………………………………………272
7.5蛋白质空间结构比较…………………………………………………………273
问题与练习……………………………………………………………………………275
参考文献………………………………………………………………………………276
第8章基因表达数据分析………………………………………………………………282
8.1基因表达数据的获取…………………………………………………………283
8.1.1 cdna微阵列…………………………………………………………283
8.1.2寡核苷酸芯片…………………………………………………………284
8.1.3基因表达数据的网络资源……………………………………………285
8.2基因表达数据预处理…………………………………………………………286
8.3基因表达差异的显著性分析…………………………………………………289
8.3.1倍数分析………………………………………………………………289
8.3.2 t检验…………………………………………………………………29c
8.3.3贝叶斯分析……………………………………………………………291
8.4基因表达谱聚类分析…………………………………………………………292
8.4.1相似性度量函数………………………………………………………292
8.4.2聚类方法………………………………………………………………294
8.4.3基于模型的聚类方法…………………………………………………298
8.4.4支持向量机……………………………………………………………299
8.4.5聚类结果的可视化……………………………………………………301
8.4.6聚类结果的定量评价…………………………………………………303
8.5基因表达数据的分类分析……………………………………………………305
8.5.1朴素贝叶斯分类法……………………………………………………305
8.5.2忌一近邻法………………………………………………………………306
8.5.3其他分类法……………………………………………………………306
8.6 主成分分析pca ……………………………………………………………307
8.7基于基因表达谱的基因调控网络研究………………………………………309
8.7.1布尔网络模型…………………………………………………………310
8.7.2线性组合模型…………………………………………………………312
8.7.3加权矩阵模型…………………………………………………………312
8.7.4数据整合分析…………………………………………………………313
问题与练习……………………………………………………………………………314
参考文献………………………………………………………………………………314
附录1 常用基本词汇表…………………………………………………………………320
附录2生物信息分析工具808………………………………………………………333
1.1 引言………………………………………………………………………………1
1.1.1生物信息学概念………………………………………………………1
1.1.2生物分子信息……………………………………………………………2
1.1.3生物信息学的研究目标和任务…………………………………………4
1.1.4生物信息学的研究意义…………………………………………………6
1.2生物信息学的发展历史…………………………………………………………7
1.3人类基因组计划和基因组信息学………………………………………………9
1.3.1人类基因组计划简介……………………………………………………9
1.3.2人类基因组计划对生物信息学的挑战………………………………13
1.4蛋白质结构与功能关系的研究…………………………………………………16
1.5生物信息学的主要研究内容……………………………………………………18
1.5.1 生物分子数据的收集与管理………………………………………18
1.5.2数据库搜索及序列比较………………………………………………19
1.5.3基因组序列分析………………………………………………………20
1.5.4基因表达数据的分析与处理……………………………………21
1.5.5蛋白质结构预测………………………………………………………21
1.6生物信息学所用的方法和技术………………………………………………23
1.6.1数学统计方法…………………………………………………………23
1.6.2动态规划方法…………………………………………………………23
1.6.3机器学习与模式识别技术……………………………………………24
1.6.4数据库技术及数据挖掘………………………………………………25
1.6.5人工神经网络技术……………………………………………………26
1.6.6专家系统……………………………………………………………27
1.6.7分子模型化技术……………………………………………………28
1.6.8量子力学和分子力学计算…………………………………………29
1.6.9生物分子的计算机模拟…………………………………………29
1.6.10 特网(internet)技术………………………………………………31
1.7生物信息学目前的发展概况……………………………………………………31
问题与练习……………………………………………………………………………35
参考文献……………………………………………………………………………35
第2章生物信息学的生物学基础………………………………………………………40
2.1细胞………………………………………………………………………………40
2.2蛋白质的结构和功能……………………………………………………………42
2.2.1蛋白质的功能…………………………………………………………42
2.2.2蛋白质的分子组成……………………………………………………43
2.2.3蛋白质的结构层次………………………………………………44
2.2.4蛋白质结构与功能的关系……………………………………………50
2.3 遗传信息载体一dna………………………………………………………51
2.3.1核苷酸………………………………………………………………52
2.3.2 dna的结构………………………………………………………53
2.4分子生物学中心法则……………………………………………………………55
2.4.1 dna的复制……………………………………………………………55
2.4.2转录……………………………………………………………………56
2.4.3翻译…………………………………………………………………57
2.4.4 mrna的反转录与cdna……………………………………………59
2.4.5对遗传信息流的再认识…………………………………………60
2.5基因组结构………………………………………………………………………60
2.5.1染色体结构…………………………………………………………60
2.5.2基因…………………………………………………………………62
2.5.3原核生物基因组…………………………………………………63
2.5.4真核生物基因组………………………………………………………64
2.6基因表达调控…………………………………………………………………69
2.6.1基因表达调控的层次……………………………69
2.6.2原核基因调控…………………………………………………………70
2.6.3真核基因调控…………………………………………………………70
2.7新生肽链的折叠…………………………………………………………………71
2.7.1新生肽链的加工……………………………………………………72
2.7.2新生肽链的折叠………………………………………………………72
2.7.3蛋白质折叠的一般规律……………………………………………72
2.7.4帮助新生肽链折叠的生物大分子……………………………………73
2.7.5蛋白质构象病问题……………………………………………………74
2.8生物大分子结构的测定……………………………………………74
2.8.1 x射线衍射结构分析……………………….…………………………74
2.8.2核磁共振结构分析…………………………………………………76
2.9分子生物学工具……………………………77
问题与练习…………………………………………………79
参考文献………………………………………………………………………………79
第3章序列比较…………………………………………………………………………81
3.1序列的相似性……………………………………………………………………81
3.1.1字母表和序列…………………………………………………………82
3.1.2 编辑距离……………………………………………………………83
3.1.3通过点矩阵分析两条序列的相似之处………………………………84
3.1.4 序列的两两比对…………………………………………………86
3.1.5用于序列相似性的打分矩阵…………………………………………87
3.2两两比对算法……………………………………………………………………92
3.2.1序列两两比对基本算法………………………………………………93
3.2.2子序列与完整序列的比对……………………………………………96
3.2.3寻找最大的相似子序列………………………………………………97
3.2.4准全局序列比对………………………………………………………98
3.2.5关于连续空位的问题…………………………………………………99
3.2.6比较相似序列…………………………………………………………102
3.2.7 比对的统计学显著性…………………………………………………103
3.3序列多重比对…………………………………………104
3.3.1 sp模型………………………………………………………………105
3.3.2多重比对的动态规划算法……………………………………………107
3.3.3优化计算方法……………………………110
3.3.4星形比对………………………………………………………………112
3.3.5树形比对……………………………………………………………114
3.3.6其他多重序列比对算法………………………………………………115
3.3.7统计特征分析……………………………………………………115
3.4 dna片段组装………………………………………………………………116
3.4.1片段组装问题………………………………………………………117
3.4.2序列片段组装模型……………………………………………………119
3.4.3序列片段覆盖图………………………………………………………121
3.4.4贪婪算法………………………………………………………………123
3.4.5非循环图拓扑排序法…………………………………………………124
问题与练习……………………………………………………………………125
参考文献…………………………………………………126
第4章生物分子数据库…………………………………………………………………130
4.1 引言……………………………………………………………………………130
4.2核酸序列数据库………………………………………………………………131
4.2.1 genbank/embl-bank/ddbj …………………………………131
4.2.2基因组数据库…………………………………………………………136
4.2.3表达序列标记数据库dbest………………………………………137
4.2.4序列标记位点数据库dbsts………………………………………138
4.2.5面向基因聚类数据库unigene……………………………………138
4.3蛋白质序列数据库…………………………………………………………138
4.3.1 pir……………………………………………………………………138
4.3.2 swiss—prot………………………………………………………140
4.3.3 trembl…………………………………………………………141
4.4生物大分子结构数据库………………………………………………………142
4.4.1 pdb …………………………………………………………………142
4.4.2 mmdb………………………………………………………………142
4.5其他生物分子数据库…………………………………………………………143
4.5.1单碱基多态性数据库dbsnp………………………………………144
4.5.2蛋白质结构分类数据库scop……………………………………144
4.5.3蛋白质二级结构数据库dssp………………………………………145
4.5.4蛋白质同源序列比对数据库hssp ………………………………146
4.5.5 序列模式数据库prosite……………………………………147
4.5.6 蛋白质指纹数据库prints ………………………………………147
4.5.7人类遗传数据库omim……………………………………………147
4.5.8 基因启动子数据库epd……………………………………………148
4.5.9转录调控区域数据库trrd………………………………………148
4.5.10 转录因子数据库transfac……………………………………149
4.5.11基因本体数据库go………………………………………………149
4.5.12 生物、医学文献数据库pubmed ………………………………149
4.5.13 目录数据库dbcat………………………………………………149
4.6数据库搜索……………………………………………………………………150
4.6.1 fasta…………………………………………………………………151
4.6.2 blast………………………………………………………………154
4.6.3 vast ………………………………………………………………158
4.7数据库集成……………………………………………………………………159
4.7.1 entrez ………………………………………………………………160
4.7.2 srs…………………………………………………………………161
4.7.3 expasy………………………………………………………………162
问题与练习……………………………………………………………………………162
参考文献………………………………………………………………………………163
第5章基因组信息分析…………………………………………………………………168
5.1关于遗传语言……………………………………………………………168
5.1.1 基因组dna的奥秘…………………………………………………168
5.1.2探索遗传语言…………………………………………………………171
5.1.3关于生物复杂性………………………………………………………172
5.1.4基因组学研究带来的希望…………………………………………172
5.2原核基因组特点………………………………………………………………173
5.2.1长开放阅读框…………………………………………………………173
5.2.2高基因密度……………………………………………………………173
5.2.3简单的基因结构………………………………………………………173
5.2.4原核基因组中的gc含量……………………………………………174
5.3真核基因组特点………………………………………………………………174
5.3.1基因组规模……………………………………………………………174
5.3.2 巨大的非编码序列……………………………………………………174
5.3.3复杂的基因结构………………………………………………………174
5.3.4复杂的基因转录调控方式……………………………………………175
5.3.5可变剪接………………………………………………………………175
5.3.6 cpg岛………………………………………………………………176
5.3.7等值区……………………………………………………………176
5.3.8密码子使用偏性………………………………………………………177
5.4基因组序列分析………………………………………………………………177
5.4.1基因组序列分析步骤和分析结果评价………………………………177
5.4.2核苷酸关联分析……………………………………………………179
5.5基因识别方法…………………………………………………………………181
5.5.1 最长orfs法……………………………………………………181
5.5.2基于密码子出现频率的预测方法……………………………………182
5.5.3同源性方法……………………………………………………………184
5.5.4神经网络方法…………………………………………………………185
5.5.5隐马尔可夫模型法……………………………………………………186
5.5.6模式判别分析法………………………………………………….…..198
5.5.7基于动态规划的基因结构预测方法…………………………………199
5.5.8基于剪切比对的基因识别……………………………………………202
5.5.9其他基因识别方法……………………………………………………202
5.6非编码区域分析和调控元件识别……………………………………………203
5.6.1调控元件的建模………………………………………………………204
5.6.2调控元件模式的得分函数……………………………………………206
5.6.3模式驱动的调控元件识别……………………………………………207
5.6.4序列驱动的调控元件识别……………………………………………208
问题与练习…………………………………………215
参考文献…………………………………………………215
第6章系统发生分析……………………………………………………………………219
6.1分子系统发生与系统发生树……………………………………………219
6.1.1 分子系统发生分析………………………219
6.1.2系统发生树…………………………………221
6.1.3距离和特征………………………………………222
6.1.4分子系统发生分析过程……………………………………223
6.2基于距离的系统发生树构建方法…………………………………………225
6.2.1最小二乘法………………………………………………………225
6.2.2连锁聚类方法及非加权分组平均法……………………………226
6.2.3 距离变换法…………………………………一…………….………229
6.2.4邻近归并法…………………………………….230
6.3基于特征的系统发生树构建方法……………………….………………232
6.3.1最大简约法………………………………….232
6.3.2快速搜索策略…………………………………235
6.4最大似然法…………………………………………236
6。5系统发生树的可靠性…………………………………………………………238
6.5.1 自举检验……………………………….238
6.5.2参数检验………………………………………………………………239
6.6全基因组系统发生分析…………………….239
6.6.1基于多棵系统发生树的方法…………………………………………239
6.6.2基于基因内容的方法……………………………240
6.6。3基于蛋白质折叠结构的方法……………………………..………….240
6.6.4基于基因次序的方法……………………………240
6.6.5基于连接的直向同源蛋白的方法……………….…………………240
6.6.6基于代谢途径的方法…………………241
问题与练习…………242
参考文献……………………………………243
第7章蛋白质结构预测…………………………………………………………………245
7.1 引言………………………………………………………………………245
7.2蛋白质二级结构预测………………………………………………………249
7.2.1利用的信息及预测准确性…………………………………………249
7.2.2 chou—fasman方法 ……………………………………………250
7.2.3 gor方法………………………………252
7.2.4基于氨基酸疏水性的预测方法………………………………………255
7.2.5最邻近方法……………………………………………………………257
7.2.6人工神经网络方法…………………………………………………258
7.2.7综合方法………………………………………………………………261
7.2.8氨基酸残基之间的距离…………………………………………261
7.3 rna二级结构的预测…………………………………………………………262
7.4蛋白质空间结构预测………………………………………………………263
7.4.1同源模型化方法………………………………………………………264
7.4.2线索化方法(折叠识别方法)…………………………………………266
7.4.3从头预测方法…………………………………………………………267
7.4.4预测方法评价…………………………………………………………272
7.5蛋白质空间结构比较…………………………………………………………273
问题与练习……………………………………………………………………………275
参考文献………………………………………………………………………………276
第8章基因表达数据分析………………………………………………………………282
8.1基因表达数据的获取…………………………………………………………283
8.1.1 cdna微阵列…………………………………………………………283
8.1.2寡核苷酸芯片…………………………………………………………284
8.1.3基因表达数据的网络资源……………………………………………285
8.2基因表达数据预处理…………………………………………………………286
8.3基因表达差异的显著性分析…………………………………………………289
8.3.1倍数分析………………………………………………………………289
8.3.2 t检验…………………………………………………………………29c
8.3.3贝叶斯分析……………………………………………………………291
8.4基因表达谱聚类分析…………………………………………………………292
8.4.1相似性度量函数………………………………………………………292
8.4.2聚类方法………………………………………………………………294
8.4.3基于模型的聚类方法…………………………………………………298
8.4.4支持向量机……………………………………………………………299
8.4.5聚类结果的可视化……………………………………………………301
8.4.6聚类结果的定量评价…………………………………………………303
8.5基因表达数据的分类分析……………………………………………………305
8.5.1朴素贝叶斯分类法……………………………………………………305
8.5.2忌一近邻法………………………………………………………………306
8.5.3其他分类法……………………………………………………………306
8.6 主成分分析pca ……………………………………………………………307
8.7基于基因表达谱的基因调控网络研究………………………………………309
8.7.1布尔网络模型…………………………………………………………310
8.7.2线性组合模型…………………………………………………………312
8.7.3加权矩阵模型…………………………………………………………312
8.7.4数据整合分析…………………………………………………………313
问题与练习……………………………………………………………………………314
参考文献………………………………………………………………………………314
附录1 常用基本词汇表…………………………………………………………………320
附录2生物信息分析工具808………………………………………………………333
猜您喜欢