58 「研究新领域报导」
民国90年5月自然科学简讯第十三卷第二期
生物资讯简介
交通大学生物科技系及生物资讯所 黄镇刚
e-mail: jkhwang@cc.nctu.edu.tw
一,简介
1990年10月一日,美国国家卫生总署与
能源部重新开始人类基因体计画(Human
Genome Project, 简称HGP或HUGO),这个计
画对科学界乃至整个社会产生重大影响.今年
2月15,16日,HGP与Celera公司分别在自
然(Nature)与科学(Science)杂志出版了人类基因
体图谱草稿(working draft)[1].截至笔者写本篇
报导止,生物学家已解出上千种基因体(详细
数字见http://www.ebi.ac.uk/genomes/),包括了
病毒与类病毒(viroids),质体(plasmids),细胞
器(organelles),细菌(bacteria),古菌(archaea)及
真核生物(eukaryota).在人类基因图谱中有许
多重要的发现[2]:估计人类约有三万两千多个
基因[3],远低於先前的估计值.虽然人类基因
体是果蝇的30倍,酵母菌的250倍,但是人
类基因数目仅为果蝇的两到三倍.这由於人类
的基因,像alternate splicing sites远比果蝇,
线虫来的复杂,组合不同的编码顺序(exon)
来表达不同的蛋白质[4];另外像基因,CG成
分,CpG岛(island),重组速度,single-nucleotide
polymorphism (SNP)(目前在人类基因体发现
了140万SNP)分布密度随著区域不同而有很
大的改变.基因体研究,累积了大量序列资料.
资料的运用,是紧接著的重要的工作.这些资
讯对於未来新药的研发,基因治疗,生物机制
的探讨,癌症研究,蛋白质相互作用,蛋白质
结构预测等都大有助益.在"後基因体时代
",序列的注解,功能的预测,为将来生物领
域中最主要的研究的题目,这些都是生物资讯
学研究的课题.在基因体解序的研究,生物资
讯已经占了极重要的地位.人类基因体计画需
要组合大量序列片段,比对序列,预测基因位
置,预测序列与功能的相关性.Celera在1998
成立,在很短的时间,利用所谓的「全基因体
霰弹枪方法」(whole-genome shutgun approach)
[5],立刻能够与进行多年HGP竞争解码人类
基因体图谱—而「全基因体霰弹枪方法」的可
行性倚赖著计算生物演算法[6]与高速电脑硬
体.继深蓝(Deep Blue)之後,IBM在1999年12
月宣布投资一亿美金五年的计画,发展速度超
过1015运算/秒 (petaop/s),一百万平行处理器
的超级 "蓝色基因" 电脑(Blue gene)及相关软
体,来解决蛋白质摺叠的相关问题[7]."科学"
杂志称生物资讯为二十一世纪生物学的"绝对
必要条件"(sine qua non)[8],确实点出生物资讯
在现代生物的重要地位.
二,生物资讯
生物资讯是一个整合性的系统,包括了资
料库管理,资料撷取,资料库存,分析引擎之
发展及网路使用介面.现在网路上有许多关基
因体的网站[9],各式各样资料库更是散布各
处.大部分的生物相关的资料库如基因体序
列,蛋白质结构资料库等皆为公有领域(public
domain),学术界可自由下载.这些资料时时更
新,各有特定资料内容与格式,例如:EMBL
的Nucleotide Sequence Database, SWISSPROT
的Protein Sequence Database与电脑注解的
TrEMBL; ENSEMBL[10]的自动注解的真核
生物基因体资料库;National Library Medicine
(NLM)的MEDLINE为生命科学与医学文献的
资料库,涵盖4000生物医学期刊,超过1000
万个生物医学文献引索;InterPro (Integrated
Resource of Protein Domains and Functional Sites)
资料库包含蛋白质家族,功能区(domain),功
能位置等资讯;Pfam包含对蛋白质区域多重序
列比对,利用Hidden Markov Models (HMM)[11]
对蛋白质家族的分类;PROSITE为蛋白质序列
形式(pattern)的资料库;PRINTS为蛋白质指纹
图谱资料库;USPO—PRT收集10280(截至2001
年3月2日)美国专利的蛋白质序列;PRODOM
是蛋白质区域资料库(Protein Domain
Database);DSSP (Definition of Secondary
Structure of Proteins), HSSP,FSSP为结合蛋
白质一级,二级,三级结构的资料库;PDB收
集蛋白质与DNA三级构造等;SCOP[12],
CATH[13]为蛋白质结构分类资料库;SRS[14]
是一个资料库管理系统.限於篇幅,我们只列
「研究新领域报导」 59
民国90年5月自然科学简讯第十三卷第二期
出这一些的例子.但是可以看出,整合这麼多
资料为生物资讯中重要课题.现在虽有很多物
种的基因图谱已经被解出.但是大部份基因图
谱只是所谓的"原始资料"(raw data).接下
来的工作是如何将这些"原始资料"变成有用
的知识—所谓的资料掘矿[15] (data mining).因
此分析工具的发展是生物资讯极重要的研究.
例如说,在人类基因体中,编码区域(coding
region)只占所有DNA 3%(而重复序列(repeat
sequences)占了46%)其中可以确定的人类基
因至少有两万五仟个[5],但是它的上限为何
却很难说,虽然现在大家认可的估计值约为三
万两千基因.因为基因预测软体如GenScan[16],
GrailEXP[17] GeneWise[18], Genie[19]等,除了
利用类神经网路或HMM等方法辨认splicing
sites,编码区域(coding region)的特徵,也结合
例如Expressed Sequence Tag(EST)资讯,帮
助预测基因部份是根据所谓的(EST),但是一
些不活跃的基因可能不会在EST资料库中,导
致被软体漏掉(对於这些基因,生物资讯学家
套用了物理名词,称之为冷暗物质(dark
matter)).因此基因的预测,仍是一活跃研究
的领域.
在生物资讯中,一般人最常用的是序列比
对的工具, 如Altschul等人发展的局部序列
比对软体BLAST(Basic Local Alignment Search
Tool)[20]—NCBI提供了许多不同用途的
BLAST版本(blastn:核酸比对, Megablast:
基因体序列比对,blastp:蛋白质比对等);计
算演化树的PHYLIP[21](the PHYLogeny
Inference Package)Pearson与Lipman发展的
FASTA[22],是根据Smith-Waterman演算法
[23],虽然比较慢但敏感度高;Thompson等人
发展的多重序列比对软体CLUSTAL W[24]
等.侦测蛋白质区域软体工具如SMART(Simple
Modular Architecture Research Tool)[25], NCBI
的DART(Domain Architecture Retrieval Tool)
[26].工研院生医中心最近发展的FLAG[27]则
是针对基因体与基因体之间序列比对.
对於蛋白质二级结构及其他特性的预测,
有用的软体工具,如PHD[28]软体组,可预测
二级结构,溶剂接触面积(solvent accessible
area),跨膜(transmembrane)部位等;PREDATOR
软体[29](宣称准确率可到达75%),利用support
vector machine方法预测二级结构[30].在蛋白
质侧鍊预测工具,有用统计方法SCRWL[31],
类神经网路NETROT[32],利用演化法预测侧
鍊[33].在蛋白质结构的研究方面:蛋白质结
构比对的工具,有VAST(Vector Alignment
Search Tool) [34],CE(Combinatorial Extension of
the optimal path)[35],Dali伺服器[36]提供比较
蛋白质立体结构,SWISS-MODEL提供自动化
由蛋白质序列构建同源蛋白质结构的服务,而
其所发展的Swiss-PdbViewer[37]软体,让使用
者有更多的空间来调控所建构蛋白质的模型,
如能量最适化,threading能量的计算,蛋白质
表面电位的计算等;MaxSprout伺服器[38]根
据Cα 径迹(trace)构建整的蛋白质座标.立体
分子绘图软体如Roger Sayle多平台的Rasmol,
绘图速度极快,NCBI的Cn3D能够与NCBI
的MMDB网路连接,做结构比对.在产业界,
生物资讯对於新药的研发与生物晶片结果的分
析极为重要.谁先从基因图谱淘出新的基因宝
藏,谁就是赢家.无怪乎,人称今日有所谓的
"生物资讯淘金热".
三,结论
现在生物相关资料大量累积,但是由於现
阶段软体工具及硬体的不足,一般生物学家电
脑资讯及数理统计的训练不够,不少生物学家
面对这些大量资料的累积,却没有能力利用这
些资讯.因此生物资讯及计算生物的发展与教
学更加迫切.生物资讯是个跨生物,电脑资讯
与数学统计的领域.但是现有生物系所的课程
无法涵盖.大学已经体认到生物资讯的重要,
如交通大学成立生物资讯研究所,有些学校(如
阳明,清华,交通)也成立生物资讯学程.为
促进生物资讯的教育与研究,台湾的生物资讯
学会也已成立.由於将来未来生物科技必朝向
跨领域的方向,结合理化,资电,工程,甚至
人文社会,以生命科学为中心的研究.因此现
代生物学的教育,必须反映出现代生命科学发
展的趋势,生科学生须要接受更多跨领域的训
练,非生科学生亦须认识生物学(分子层次)
的内容.现代生物科技突飞猛进,而生物资讯
为未来生物学的"绝对必要条件"(sine qua
non),因此政府对於台湾生物资讯教育与研究
的的支持实在是刻不容缓.
参考文献
[1]HGP与Celera原本计画一起发表在自然
杂志,但是後来谈不妥,Celera自行投稿
60 「研究新领域报导」
民国90年5月自然科学简讯第十三卷第二期
科学杂志发表.见http://www.sciencemag.
org/cgi/content/full/291/5507/1195
[2]International Human Genome Sequencing
Consortium, Nature, 409, 860 (2001).
[3]撇开预测的基因数不算,对於确定是基因
的数目,Celera估计为26383,HGP为
24500.
[4]人类的一个基因,平均可表现三个蛋白
质.
[5]J. L. Weber and E. W. Myers, Genome
Research, 7, 401 (1997); 参见 http://www.
genome.org/cgi/content/full/7/5/401
[6]Celera提供了一很好的非专业性介绍「散
弹枪方法」的文章,详见http://www.celera.
com/genomics/news/articles/03_00/assemble
_genome_3_24.cfm
[7]http://www.research.ibm.com/bluegene/
[8]S. J. Spengler, Science, 287, 1221(2000).
[9]http://www.ensembl.org/genome/central,
http://www.ncbi.nlm.nih.gov/genome/central,
http://genome.ucsc.edu/
[10]ENSEMBL是由EMBL-EBI与Sanger
Center共同发展的软体系统.网址为
http://www.ensembl.org
[11]对HMM的介绍,可见 R. Durbin, S. Eddy
A. Krogh, G. Mitchison, Biological sequence
analysis, Cambridge University Press, 1998.
[12]http://scop.mrc-
lmb.cam.ac.uk/scop/data/scop.1.html
[13]http://www.biochem.ucl.ac.uk/bsm/cath_new/i
ndex.html
[14]http://srs.ebi.ac.uk/
[15]E. Birney, A. Bateman, M. E. Clamp and T. J.
Hubbard, Nature, 409, 827 (2001)
[16]Burge, C. and Karlin, S. J. Mol. Biol. 268, 78
(1997)
[17]http://grail.lsd.ornl.gov/grailexp/references.ht
ml
[18]E. Birney and R. Durbin, Genome Res., 10,
547 (2000).
[19]M. G. Reese, D. Kulp, H. Tammana and D.
Haussler, Genome Res., 10, 529 (2000)
[20]S. F. Altschul, W. Gish, W. Miller, E. W.
Myers and D. J. Lipman, J. Mol. Biol., 215,
403(1990).
[21]http://evolution.genetics.washington.edu/phyli
p.html
[22]W. R. Pearson and D. J. Lipman, Proc. Natl.
Acad. Sci. USA, 85, 2444 (1988).
[23]T. F. Smith and M. S. Waterman, J. Mol.
Biol., 147, 195 (1981).
[24]J. D. Thompson, D. G. Higgins and T. J.
Gibson, Nucleic Acids Res., 22, 4673 (1994);
http://www.ebi.ac.uk/clustalw/
[25]J. Schultz, F. Milpetz, P. Bork and C. P. Ponting,
Proc. Natl. Acad. Sci. USA, 95, 5857(1998); J.
Schultz, R. R. Copley, T. Doerks, C. P. Ponting
and P. Bork, Nucleic Acids Res., 27, 229 (2000)
[26]http://www.ncbi.nlm.nih.gov/Structure/lexingt
on/lexington.cgi cmd=rps
[27]http://flag.itri.org.tw/
[28]http://www.embl-
heidelberg.de/predictprotein/predictprotein.ht
ml
[29]http://www.embl-
heidelberg.de/argos/predator/predator_info.ht
ml
[30]C. J. Lin (private communication), S. S. Sua
and Z. Sun, J. Mol. Biol., 308, 397 (2001).
[31]http://www.fccc.edu/research/labs/dunbrack/sc
wrl/
[32]J.-K. Hwang and W. F. Liao, Protein Engine-
ering, 8, 363 (1995).
[33]J. M. Yang (private communication).
[34]http://www.ncbi.nlm.nih.gov/Structure/VAST/
vast.shtml
[35]http://cl.sdsc.edu/ce.html
[36]http://www.ebi.ac.uk/dali/
[37]http://www.expasy.ch/spdbv/
[38]http://www.ebi.ac.uk/dali/maxsprout/
民国90年5月自然科学简讯第十三卷第二期
生物资讯简介
交通大学生物科技系及生物资讯所 黄镇刚
e-mail: jkhwang@cc.nctu.edu.tw
一,简介
1990年10月一日,美国国家卫生总署与
能源部重新开始人类基因体计画(Human
Genome Project, 简称HGP或HUGO),这个计
画对科学界乃至整个社会产生重大影响.今年
2月15,16日,HGP与Celera公司分别在自
然(Nature)与科学(Science)杂志出版了人类基因
体图谱草稿(working draft)[1].截至笔者写本篇
报导止,生物学家已解出上千种基因体(详细
数字见http://www.ebi.ac.uk/genomes/),包括了
病毒与类病毒(viroids),质体(plasmids),细胞
器(organelles),细菌(bacteria),古菌(archaea)及
真核生物(eukaryota).在人类基因图谱中有许
多重要的发现[2]:估计人类约有三万两千多个
基因[3],远低於先前的估计值.虽然人类基因
体是果蝇的30倍,酵母菌的250倍,但是人
类基因数目仅为果蝇的两到三倍.这由於人类
的基因,像alternate splicing sites远比果蝇,
线虫来的复杂,组合不同的编码顺序(exon)
来表达不同的蛋白质[4];另外像基因,CG成
分,CpG岛(island),重组速度,single-nucleotide
polymorphism (SNP)(目前在人类基因体发现
了140万SNP)分布密度随著区域不同而有很
大的改变.基因体研究,累积了大量序列资料.
资料的运用,是紧接著的重要的工作.这些资
讯对於未来新药的研发,基因治疗,生物机制
的探讨,癌症研究,蛋白质相互作用,蛋白质
结构预测等都大有助益.在"後基因体时代
",序列的注解,功能的预测,为将来生物领
域中最主要的研究的题目,这些都是生物资讯
学研究的课题.在基因体解序的研究,生物资
讯已经占了极重要的地位.人类基因体计画需
要组合大量序列片段,比对序列,预测基因位
置,预测序列与功能的相关性.Celera在1998
成立,在很短的时间,利用所谓的「全基因体
霰弹枪方法」(whole-genome shutgun approach)
[5],立刻能够与进行多年HGP竞争解码人类
基因体图谱—而「全基因体霰弹枪方法」的可
行性倚赖著计算生物演算法[6]与高速电脑硬
体.继深蓝(Deep Blue)之後,IBM在1999年12
月宣布投资一亿美金五年的计画,发展速度超
过1015运算/秒 (petaop/s),一百万平行处理器
的超级 "蓝色基因" 电脑(Blue gene)及相关软
体,来解决蛋白质摺叠的相关问题[7]."科学"
杂志称生物资讯为二十一世纪生物学的"绝对
必要条件"(sine qua non)[8],确实点出生物资讯
在现代生物的重要地位.
二,生物资讯
生物资讯是一个整合性的系统,包括了资
料库管理,资料撷取,资料库存,分析引擎之
发展及网路使用介面.现在网路上有许多关基
因体的网站[9],各式各样资料库更是散布各
处.大部分的生物相关的资料库如基因体序
列,蛋白质结构资料库等皆为公有领域(public
domain),学术界可自由下载.这些资料时时更
新,各有特定资料内容与格式,例如:EMBL
的Nucleotide Sequence Database, SWISSPROT
的Protein Sequence Database与电脑注解的
TrEMBL; ENSEMBL[10]的自动注解的真核
生物基因体资料库;National Library Medicine
(NLM)的MEDLINE为生命科学与医学文献的
资料库,涵盖4000生物医学期刊,超过1000
万个生物医学文献引索;InterPro (Integrated
Resource of Protein Domains and Functional Sites)
资料库包含蛋白质家族,功能区(domain),功
能位置等资讯;Pfam包含对蛋白质区域多重序
列比对,利用Hidden Markov Models (HMM)[11]
对蛋白质家族的分类;PROSITE为蛋白质序列
形式(pattern)的资料库;PRINTS为蛋白质指纹
图谱资料库;USPO—PRT收集10280(截至2001
年3月2日)美国专利的蛋白质序列;PRODOM
是蛋白质区域资料库(Protein Domain
Database);DSSP (Definition of Secondary
Structure of Proteins), HSSP,FSSP为结合蛋
白质一级,二级,三级结构的资料库;PDB收
集蛋白质与DNA三级构造等;SCOP[12],
CATH[13]为蛋白质结构分类资料库;SRS[14]
是一个资料库管理系统.限於篇幅,我们只列
「研究新领域报导」 59
民国90年5月自然科学简讯第十三卷第二期
出这一些的例子.但是可以看出,整合这麼多
资料为生物资讯中重要课题.现在虽有很多物
种的基因图谱已经被解出.但是大部份基因图
谱只是所谓的"原始资料"(raw data).接下
来的工作是如何将这些"原始资料"变成有用
的知识—所谓的资料掘矿[15] (data mining).因
此分析工具的发展是生物资讯极重要的研究.
例如说,在人类基因体中,编码区域(coding
region)只占所有DNA 3%(而重复序列(repeat
sequences)占了46%)其中可以确定的人类基
因至少有两万五仟个[5],但是它的上限为何
却很难说,虽然现在大家认可的估计值约为三
万两千基因.因为基因预测软体如GenScan[16],
GrailEXP[17] GeneWise[18], Genie[19]等,除了
利用类神经网路或HMM等方法辨认splicing
sites,编码区域(coding region)的特徵,也结合
例如Expressed Sequence Tag(EST)资讯,帮
助预测基因部份是根据所谓的(EST),但是一
些不活跃的基因可能不会在EST资料库中,导
致被软体漏掉(对於这些基因,生物资讯学家
套用了物理名词,称之为冷暗物质(dark
matter)).因此基因的预测,仍是一活跃研究
的领域.
在生物资讯中,一般人最常用的是序列比
对的工具, 如Altschul等人发展的局部序列
比对软体BLAST(Basic Local Alignment Search
Tool)[20]—NCBI提供了许多不同用途的
BLAST版本(blastn:核酸比对, Megablast:
基因体序列比对,blastp:蛋白质比对等);计
算演化树的PHYLIP[21](the PHYLogeny
Inference Package)Pearson与Lipman发展的
FASTA[22],是根据Smith-Waterman演算法
[23],虽然比较慢但敏感度高;Thompson等人
发展的多重序列比对软体CLUSTAL W[24]
等.侦测蛋白质区域软体工具如SMART(Simple
Modular Architecture Research Tool)[25], NCBI
的DART(Domain Architecture Retrieval Tool)
[26].工研院生医中心最近发展的FLAG[27]则
是针对基因体与基因体之间序列比对.
对於蛋白质二级结构及其他特性的预测,
有用的软体工具,如PHD[28]软体组,可预测
二级结构,溶剂接触面积(solvent accessible
area),跨膜(transmembrane)部位等;PREDATOR
软体[29](宣称准确率可到达75%),利用support
vector machine方法预测二级结构[30].在蛋白
质侧鍊预测工具,有用统计方法SCRWL[31],
类神经网路NETROT[32],利用演化法预测侧
鍊[33].在蛋白质结构的研究方面:蛋白质结
构比对的工具,有VAST(Vector Alignment
Search Tool) [34],CE(Combinatorial Extension of
the optimal path)[35],Dali伺服器[36]提供比较
蛋白质立体结构,SWISS-MODEL提供自动化
由蛋白质序列构建同源蛋白质结构的服务,而
其所发展的Swiss-PdbViewer[37]软体,让使用
者有更多的空间来调控所建构蛋白质的模型,
如能量最适化,threading能量的计算,蛋白质
表面电位的计算等;MaxSprout伺服器[38]根
据Cα 径迹(trace)构建整的蛋白质座标.立体
分子绘图软体如Roger Sayle多平台的Rasmol,
绘图速度极快,NCBI的Cn3D能够与NCBI
的MMDB网路连接,做结构比对.在产业界,
生物资讯对於新药的研发与生物晶片结果的分
析极为重要.谁先从基因图谱淘出新的基因宝
藏,谁就是赢家.无怪乎,人称今日有所谓的
"生物资讯淘金热".
三,结论
现在生物相关资料大量累积,但是由於现
阶段软体工具及硬体的不足,一般生物学家电
脑资讯及数理统计的训练不够,不少生物学家
面对这些大量资料的累积,却没有能力利用这
些资讯.因此生物资讯及计算生物的发展与教
学更加迫切.生物资讯是个跨生物,电脑资讯
与数学统计的领域.但是现有生物系所的课程
无法涵盖.大学已经体认到生物资讯的重要,
如交通大学成立生物资讯研究所,有些学校(如
阳明,清华,交通)也成立生物资讯学程.为
促进生物资讯的教育与研究,台湾的生物资讯
学会也已成立.由於将来未来生物科技必朝向
跨领域的方向,结合理化,资电,工程,甚至
人文社会,以生命科学为中心的研究.因此现
代生物学的教育,必须反映出现代生命科学发
展的趋势,生科学生须要接受更多跨领域的训
练,非生科学生亦须认识生物学(分子层次)
的内容.现代生物科技突飞猛进,而生物资讯
为未来生物学的"绝对必要条件"(sine qua
non),因此政府对於台湾生物资讯教育与研究
的的支持实在是刻不容缓.
参考文献
[1]HGP与Celera原本计画一起发表在自然
杂志,但是後来谈不妥,Celera自行投稿
60 「研究新领域报导」
民国90年5月自然科学简讯第十三卷第二期
科学杂志发表.见http://www.sciencemag.
org/cgi/content/full/291/5507/1195
[2]International Human Genome Sequencing
Consortium, Nature, 409, 860 (2001).
[3]撇开预测的基因数不算,对於确定是基因
的数目,Celera估计为26383,HGP为
24500.
[4]人类的一个基因,平均可表现三个蛋白
质.
[5]J. L. Weber and E. W. Myers, Genome
Research, 7, 401 (1997); 参见 http://www.
genome.org/cgi/content/full/7/5/401
[6]Celera提供了一很好的非专业性介绍「散
弹枪方法」的文章,详见http://www.celera.
com/genomics/news/articles/03_00/assemble
_genome_3_24.cfm
[7]http://www.research.ibm.com/bluegene/
[8]S. J. Spengler, Science, 287, 1221(2000).
[9]http://www.ensembl.org/genome/central,
http://www.ncbi.nlm.nih.gov/genome/central,
http://genome.ucsc.edu/
[10]ENSEMBL是由EMBL-EBI与Sanger
Center共同发展的软体系统.网址为
http://www.ensembl.org
[11]对HMM的介绍,可见 R. Durbin, S. Eddy
A. Krogh, G. Mitchison, Biological sequence
analysis, Cambridge University Press, 1998.
[12]http://scop.mrc-
lmb.cam.ac.uk/scop/data/scop.1.html
[13]http://www.biochem.ucl.ac.uk/bsm/cath_new/i
ndex.html
[14]http://srs.ebi.ac.uk/
[15]E. Birney, A. Bateman, M. E. Clamp and T. J.
Hubbard, Nature, 409, 827 (2001)
[16]Burge, C. and Karlin, S. J. Mol. Biol. 268, 78
(1997)
[17]http://grail.lsd.ornl.gov/grailexp/references.ht
ml
[18]E. Birney and R. Durbin, Genome Res., 10,
547 (2000).
[19]M. G. Reese, D. Kulp, H. Tammana and D.
Haussler, Genome Res., 10, 529 (2000)
[20]S. F. Altschul, W. Gish, W. Miller, E. W.
Myers and D. J. Lipman, J. Mol. Biol., 215,
403(1990).
[21]http://evolution.genetics.washington.edu/phyli
p.html
[22]W. R. Pearson and D. J. Lipman, Proc. Natl.
Acad. Sci. USA, 85, 2444 (1988).
[23]T. F. Smith and M. S. Waterman, J. Mol.
Biol., 147, 195 (1981).
[24]J. D. Thompson, D. G. Higgins and T. J.
Gibson, Nucleic Acids Res., 22, 4673 (1994);
http://www.ebi.ac.uk/clustalw/
[25]J. Schultz, F. Milpetz, P. Bork and C. P. Ponting,
Proc. Natl. Acad. Sci. USA, 95, 5857(1998); J.
Schultz, R. R. Copley, T. Doerks, C. P. Ponting
and P. Bork, Nucleic Acids Res., 27, 229 (2000)
[26]http://www.ncbi.nlm.nih.gov/Structure/lexingt
on/lexington.cgi cmd=rps
[27]http://flag.itri.org.tw/
[28]http://www.embl-
heidelberg.de/predictprotein/predictprotein.ht
ml
[29]http://www.embl-
heidelberg.de/argos/predator/predator_info.ht
ml
[30]C. J. Lin (private communication), S. S. Sua
and Z. Sun, J. Mol. Biol., 308, 397 (2001).
[31]http://www.fccc.edu/research/labs/dunbrack/sc
wrl/
[32]J.-K. Hwang and W. F. Liao, Protein Engine-
ering, 8, 363 (1995).
[33]J. M. Yang (private communication).
[34]http://www.ncbi.nlm.nih.gov/Structure/VAST/
vast.shtml
[35]http://cl.sdsc.edu/ce.html
[36]http://www.ebi.ac.uk/dali/
[37]http://www.expasy.ch/spdbv/
[38]http://www.ebi.ac.uk/dali/maxsprout/
·上一篇:采编三部主办
·下一篇:学校名称

文件类型:PDF/Adobe Acrobat 文件大小:字节