HOME書籍生命科学 > バイオインフォマティクス
臨床医学:研修医
臨床医学:一般医
基礎医学
その他
バイオインフォマティクス
- 確率モデルによる遺伝子配列解析 -
Richard Durbin 他 著
京都大学教授 阿久津達也 他 訳
A5判/464頁
価格:本体9,800円+税(CD-ROMソフト共)
ISBNコード:4-7578-0100-9
本書は最近急速に進展しつつある「バイオインフォマティクス」もしくは「計算生物学」という分野の教科書である。
バイオインフォマティクスは生物学に関する情報解析を扱う幅広い分野であり、一冊の本でカバーしきれる分野ではないが、本書は、その中でも中心的な課題であるDNA,RNA,タンパク質の配列解析に焦点を合わせて書かれた本格的な教科書である。
本書はバイオインフォマティクス分野における「定本」の一つとなっている。


ヒトをはじめとする各種生物のゲノム解析計画が急速に進展し、重要な生物のDNA配列が次々に決定し、数十億文字以上の膨大な量の配列データが得られつつある現在、配列の各部分の「意味」を知るためにコンピュータによる情報解析が不可欠となっている。配列解析のためには20世紀後半から様々な研究が行われてきたが、1990年代に入り、隠れマルコフモデルなどの確率モデルにもとづく方法が大きく発展し、主要な解析手法となった。隠れマルコフモデルはもともと音声認識分野や自然言語理解などの分野で発展してきた確率モデルであるが、配列解析に適用されるにあたり独自の発展をとげた。そして、現在、有力な配列解析手法の多くが確率モデルにもとづいている。


本書はこの現代的で強力な確率モデルにもとづく配列解析手法について、この手法を発展させてきた第一線の研究者により書かれた教科書である。本書を理解することにより強力、かつ、現代的な配列解析手法の基礎や実データへの適用法を習得することができる。バイオインフォマティクスに関わる研究者、技術者、学生にとっては座右に置いておくべき必携の本であるといえる。


バイオインフォマティクスに関する教科書や入門書はいくつか出版されているが、本書は以下の特徴を持っている。

- 多くのトピックを広く浅く扱うのではなく、隠れマルコフモデルを中心とした確率モデルによる配列解析手法に焦点をしぼり、表面的な説明ではなく、できるだけ原理的なことから説明されている。

- 統一的な記述がなされ、かつ、原書執筆時点までの最新の成果が取り入れられている。

- 図、表、実データにもとづくグラフなどが豊富に使用されて視覚的にわかりやすい。

- 内容をきちんと理解すれば実際にプログラムを組めるほどに、アルゴリズムや数式が詳細に記述されている。また、数値誤差にかかわる問題など、実際にプログラム化する時に注意すべきことまで書かれている。まさに、「かゆいところに手が届く」内容となっている。

- 生物学、計算機科学、数学などのいずれの分野の研究者、技術者、学生が読んでも理解できるように、特定の分野の知識を仮定せずに記述されている。


バイオインフォマティクスに関する本の中で、本書は隠れマルコフモデルに関して最も詳細にわたり記述されている。また、日本語の本では、隠れマルコフモデルにもとづく配列解析において、実際に役立てることができるレベルまで正確に記述されているのは本書のみである。


本書では、まず、確率的解析法に関する基礎的な概念が説明された後、ペアワイズ配列アライメントの動的計画法アルゴリズムとアライメントスコアについての確率的解釈が述べられる。次に隠れマルコフモデルとその学習アルゴリズムについて詳しく説明された後、隠れマルコフモデルにもとづくペアワイズアライメント、プロファイル、マルチプルアライメントといった本書の中心をなす部分についての詳細な説明がなされる。次に、進化系統樹の確率モデルや構成方法、隠れマルコフモデルの拡張である確率文脈自由文法とそのRNA二次構造予測への応用といったトピックについて詳しく述べられた後、最後に本書を理解するのに必要な確率や統計の基礎的事項が説明される。


各章の具体的な内容は以下のとおりである。

1章 はじめに
1章では、この本の目的について述べ、配列の類似性の評価やアライメントと確率統計との関係に触れた後、この本全体の構成が説明され、最後に確率モデルに関する一般的な概念のうち、最尤推定とベイズ定理とモデル比較について説明されている。

ゲノムプロジェクトによって生物学的なデータの蓄積が加速しているが、このデータから意味ある知識を取り出すには、生物学のより進んだ理解と、膨大な配列データの組織、分類、解析が必要である。塩基やアミノ酸の文字列の背後にあるのは複雑な分子生物学であるから、文字列を解析するという抽象的な作業で済むものではない。

この本の内容は、配列解析のための確率モデルに生物学的な情報を統合化することにより、分子生物学的複雑性の理解を可能とするための方法論である。
確率モデル、特に隠れマルコフモデル(HMM: hidden Markov model)に重点をおき、配列解析の幅広い問題の統計的解析に一般的な枠組みが提供されている。

生体分子の構造や機能を決定する最も確かな方法は、直接的な実験だが、機能や構造を実験的に決定するよりも、対応するDNA の配列を得るほうがはるかに易しい。配列だけから生物学的な知識を推測する情報学的な手法を創造する必然性はそこにある。新しい配列は、進化の過程で既に存在している配列から改変される。そこには確率統計的な過程が介在するから、配列の類似性の評価や、アライメントに確率統計的な理論と手法が使われるのは自然である。アミノ酸のペアワイズのアライメントのスコアにおける確率行列の導入は、確率統計の初期の重要な応用である。確率的モデル化の手法は、配列情報解析における複雑な推定問題に対する自然な枠組みを提供し、確率統計の応用の範囲を大きく拡張してきた。

1章の最後では本全体の構成が示されているが、それは以下のとおりである。

この本は、大まかに4つの部分からなっていて、ペアワイズのアライメント、マルチプルアライメント、進化系統樹、RNA構造をカバーしている。2章から6章では、アライメントと同時にマルコフ連鎖とHMM について解説し、HMMがペアワイズのアライメント、配列ファミリーの表現、マルチプルアライメントに適用できることが示す。7章、8章では進化系統樹とその確率的なアプローチについて解説する。9章ではChomsky の変形文法の階層と確率モデルについて議論し、HMM 、確率文脈自由文法をその枠組みで説明する。10章では確率文脈自由文法を用いたRNA の構造解析について解説する。最後の11章ではこの本全体で大雑把に扱っている確率統計的な手法についてより厳密な議論を行なう。


2章 ペアワイズアライメント
ここに 2 本の生物配列があったとしよう。そこで生じる生物学的に最も重要な問いかけは、これらは互いに良く似ているのであろうか、似ている場合、それはこれらの進化的な関連によるものなのか、あるいは偶然によるものなのか、といったものである。これらの問いかけに対する答えは、ペアワイズアライメントによってもたらされる。ペアワイズアライメントとは、2 本の生物配列に適当なギャップを挿入することで、配列中の同じ位置に同じ (あるいは性質が良く似た) 塩基やアミノ酸が並ぶようにする操作のことである。

2章では生物配列のペアワイズアライメントに関する基本的な話題がほぼ網羅的に紹介されている。ペアワイズアライメントには 2 つの側面がある。ひとつは配列に適当なギャップを効率的に挿入するためのコンピュータアルゴリズムについての側面、もうひとつはペアワイズアライメントの結果からそれらの配列が互いに良く似ているかどうかを判定するためのスコアについての側面である。これまで、情報科学的な視点に立った教科書では前者、生物学的な視点に立った教科書では後者に力点が置かれ、その理論的背景や応用例が紹介されてきた。本書は、これら両方の側面を実にバランス良く紹介している。前者については、配列全域にわたるアライメントを求める Needleman-Wunsch アルゴリズム、局所的なアライメントを求める Smith-Waterman アルゴリズムを紹介し、さらにヒューリスティックを導入した高速アルゴリズムや必要なメモリを節約したアルゴリズムなどが紹介されている。豊富に挿入されたこれらのアルゴリズムの概念図は、読者の理解を助けるであろう。後者については、アライメントのスコアリングに関する基本的な考え方とその拡張を紹介したあと、スコアリングの骨子となるアミノ酸間の類似性をまとめたマトリックス、Dayhoff マトリックスと BLOSUM マトリックスをその導出法も併せて紹介している。


3章 マルコフ連鎖と隠れマルコフモデル
2章では 2 本の生物配列から生じる生物学的な問いかけにまつわる話題が紹介されていた。3章では、1 本の配列から発せられる問いかけにまつわる話題が紹介されている。その問いかけとは、例えばそれがアミノ酸配列の場合、それはどのタンパク質ファミリーの仲間なのか、また、そのどの部分がヘリックス構造を形成し、どの部分がシート構造を形成するのか、といった類いのものである。これらの問いかけに対する答えとして、ここでは隠れマルコフモデル (HMM: hidden Markov model) を紹介している。

HMM は、もともと音声認識の分野で成功を納めた数理モデルでる。HMM はネットワーク構造をもち、そのノードやパスに確率論的なパラメータが付与されている。このネットワークとパラメータによって、音声情報の特徴が HMM でモデル化されている。それが 1990 年代のはじめ頃、HMM で生物配列の情報をモデル化しようとする研究が始まった。その後 HMM による配列情報のモデル化技術は大きく進展し、HMM はゲノム配列からの遺伝子の発見、アミノ酸配列におけるモチーフの同定、タンパク質の構造予測といった幅広い分野で成功を納めている。しかしながら、最近まで HMM の配列解析への適用を体系的に紹介した教科書は出版されていなかった。そのため、HMM による配列解析を試みる研究者は、門外漢の音声認識の教科書やその原論文をひもとかなければならなかった。本書は、体系的かつ網羅的に配列解析における HMM を論じたはじめての教科書である。ここでは、HMM の定義を行なったのち、HMM で生物配列の構造 (例えば、ゲノム配列におけるエキソン─イントロン構造やアミノ酸配列におけるヘリックス─シート構造など) を予測する Viterbi アルゴリズム、与えられた配列セットから最適なモデルパラメータを推定する Baum-Welch アルゴリズム、さらにそれらの変形アルゴリズムを紹介している。また、HMM による配列解析が成功するための秘訣であるにも関わらず、これまで類書では論じられることが少なかったネットワークトポロジーの設計についても解説が加えられている。


4章 HMMを用いたペアワイズアライメント
4章では、再びペアワイズアライメントに関する話題を紹介している。但し、ここでは、HMM の枠組みを用いてペアワイズアライメントを捕え直している。これにより、アライメントの精度や配列間の類似性などを理論的に計算できることが示されている。ここでは、まず、配列全域をアライメントする HMM や配列を局所的にアライメントする HMM を紹介し、それらを通して3章で取り上げた Viterbi アルゴリズムや Baum-Welch アルゴリズムとペアワイズアライメントとの関係を解説している。さらに、準最適なアライメントを見つけるためのアルゴリズムを紹介している。

HMM がペアワイズアライメントに与える理論的な背景は、体系的で非常に有用なものである。しかしながら、実際のアライメントにおいて、HMM はそれほど多くは利用されていない。残念ながら、本書はそのことについてほとんど触れていない。HMM によるアライメントのリファイン過程は、Baum-Welch アルゴリズムによって与えられる。ところが、Baum-Welch アルゴリズムは最尤法のひとつであるため、局所最適解に陥りやすく、また、そこから抜け出る手段を持たない。一方、古くから行なわれてきた動的計画法 (DP: dynamicprogramming) によるアライメントは、さまざまなヒューリスティックを導入することによって、より最適解に近いアライメントが得られるように工夫されている。Baum-Welch アルゴリズムにヒューリスティックを導入する試みも幾つか行なわれているが、最近報告されたアライメント手法の包括的なベンチマーク結果によると、その試みにはまだまだ改良の余地がありそうである (Thonpson, J.D. et al., Nucleic Acids Res., 27, 2682-2690 1999.)。


5章 プロファイルHMMによる配列の分類
例えば、1 本のアミノ酸配列が与えられたとき、それがこれまでに知られているタンパク質ファミリーやスーパーファミリーのどれに属するのかを知ることができれば、そのアミノ酸配列の働きを類推することができる。従来、この問題に対する標準的なアプローチは、(スーパー) ファミリーに属する配列を一度にアライメントし (マルチプルアライメント)、アライメントの各位置ごとに観察されるアミノ酸やギャップの頻度を表形式にまとめたプロファイルを利用することであった。

5章では、確率論的な視点でプロファイルを捕え直したプロファイル HMM を紹介している。プロファイル HMM は、HMM の枠組みでプロファイルを記述したものである。HMM をプロファイルに導入することによって、プロファイルに理論的な背景が与えられ、体系的なパラメータ推定やプロファイル検索が実現された。そのため、これまでプロファイルが活躍してきた配列解析の分野は、現在、プロファイル HMM の独壇場となっている。5章では、まず、プロファイル HMM のネットワークトポロジーの標準型とその変形型を紹介している。つづいて、与えられたマルチプルアライメントから最適なプロファイル HMM を構築するアルゴリズム、プロファイル HMM のパラメータを推定するアルゴリズム、プロファイル HMM による大域検索アルゴリズムと局所検索アルゴリズムが紹介されている。特に、パラメータの推定には十分な議論が展開されており、アライメントの配列数が少ない場合のパラメータ推定、アライメントに非常に良く似た配列が含まれている場合のパラメータ推定などが取り上げられている。


6章 マルチプルアライメント
6章ではマルチプルアライメントの計算手法を紹介している。マルチプルアラインメントとは、3本以上の配列が入力された時に、(進化的に)対応するアミノ酸文字ができるだけ同一のカラムに来るように、適切な位置にギャップ記号を挿入して各配列を並べたものであり、4章で説明したペアワイズアライメントを3本以上の配列に対するものに拡張したものである。本章では、タンパク質配列を対象としているが、説明されている方法はDNA配列にも適用可能である。なお、RNA配列のマルチプルアライメント法は10章で説明されている。

この章では、まず、マルチプルアライメントの意味について、特に進化や立体構造との関連において議論されている。次に、マルチプルアライメントのスコアづけの方法について、最小エントロピースコア、SP(Sum of Pairs)スコアの2種類が紹介され、さらに SPスコアには問題点があることが指摘されている。
次に、動的計画法にもとづくアルゴリズムと、それを分岐限定法を用いて改良したアルゴリズムが説明されている。これらの方法は常に最適スコアのアラインメントを計算することができるが、残念ながら計算時間の問題で小規模な入力に対してしか有効でない。そこで、多くの配列にも対応できる実用的マルチプルアラインメント法として木構造に沿って徐々にアライメントされる配列数を増やしていく、漸進的アライメント法が説明されている。具体的には、Feng-Doolitleによる古典的なアライメント法からはじめて、プロファイルを用いる方法、CLUSTALWプログラムで用いられている方法、逐次改善法などが紹介されている。
この後、HMMによるマルチプルアライメント法について詳細に解説されている。
4章でも議論されているように、HMMによる方法は局所最適解に陥りやすいため、局所最適解から脱出するためのシミレーテッドアニーリングにもとづく方法が紹介され、ギッブズサンプリングにもとづく方法と比較されている。最後に、入力配列に適用するようにHMMの形状を変更する方法が簡単に紹介されている。


7章 進化系統樹とその構成法
進化系統樹は、生物種がどのような順番で分化(枝分かれ)してきたのかを表現するものであり、グラフ理論などでいう木構造をしている。進化系統樹は種を分類するために重要であり、以前は形状の違いなどに着目して人手により構成されてきたが、現在では配列にもとづいてコンピュータの計算結果をもとに構成されるようになっている。また、6章で述べたマルチプルアライメントを計算するための漸進法でも、進化系統樹に相当するものを計算する必要がある。7章では、この進化系統樹のコンピュータによる構成方法が紹介されている。

7章では、まず進化系統樹がどのようなものであるかを説明した後、進化系統樹の取りうることのできるトポロジー(形状)の個数についての式が示されている。
次に進化系統樹を構成するための非常に単純なアルゴリズムであるUPGMA法が説明されている。UPGMA法は、配列の対ごとの距離(スコア)にもとづいて、配列をマージしていく方法で、クラスタリング手法の一種である。しかしながら、UPGMA法では進化系統樹が正しく構成されない例があることも指摘されている。次に、マージする際の距離の計算法についての改良を行ったNeighbour-joing法が紹介されている。この手法はCLUSTALWプログラムの一部として利用されているのをはじめとして広く利用されている。つぎに、進化系統樹全体での塩基置換(や残基置換)の回数などを最小化する木が最適の木であると定義する「けち」の原理にもとづく、いくつかの計算手法が説明されている。最適な木が複数あった場合などには、「どの木が最も良いのか?」をきめる必要があるが、「進化系統樹」の良さを評価するための方法としてブートストラップにもとづく方法が紹介されている。ところで、これまではアライメントと木は別々に計算されるものと仮定してきたが、同時に計算することが必要な場合もある。そこで、そのための計算法として、Sankoff-Cedergren法とHein法が紹介されている。なお、付録としてNeighbour-joining法において計算される「距離」の正当性の数学的証明が掲載されている。


8章 確率モデルにもとづく進化系統樹構成法
7章では配列間の距離などにもとづいた進化系統樹の構成方法を説明していたが、8章では配列進化の確率モデルと、最尤法とこの確率モデルにもとづく構成方法について説明している。

8章では、まず、配列進化の確率モデルがいくつか紹介された後、挿入削除が無い場合の進化系統樹の尤度の計算方法が説明されている。その後、尤度が最適となる進化系統樹を計算するための計算手法が紹介されている。さらに、ベイズの定理にもとづく方法、サンプリングを利用する方法、ブートストラップを利用する方法などが紹介されている。つぎに、挿入削除がある場合の確率モデルや、配列上の位置により置換の頻度が異なる場合の確率モデルについての議論がなされている。最後に8章で説明された確率モデルにもとづく方法と7章で説明された方法の比較がなされ、また、それらの間の関係が説明されている。まず、「けち」の原理にもとづく方法の確率的解釈が与えられ、つぎに、配列間距離にもとづく方法、特にNeighbour-joining法と最尤法との関係についての議論がなされ、Neighbour-joining法の有用性などが示されている。さらに、7章の後半で紹介されたSankoff-Cedergren法とHein法についての確率モデルによる解釈についても簡単に説明されている。


9章 変形文法
これまでの章では、生物配列は1次元の独立で相関のない記号列として扱われていた。この仮定は、計算するには扱いやすいが、配列の構造からは非現実的な仮定である。離れた位置のの相互作用を許し、同時にモデルの学習や配列の構文解析の計算が効率的にできる確率モデルは造れるのだろうか?

9章では、実際の配列の生物配列から少し離れて、Chomsky の変形文法の階層の立場から、より理論的な問題が扱われている。そして、以前の章で述べられた方法の多くが、実はこの一般的な概念に当てはまることが明らかとなる。

まず、変形文法の階層に従い、正規文法、文脈自由文法、文脈依存文法と、その構文解析のアルゴリズムが生物配列を例にとりながら解説されている。その後、確率文法についての解説がなされ、HMM が確率正規文法として位置づけられることが示されている。さらに、確率文脈自由文法とその構文解析アルゴリズムが、HMM のアルゴリズムと比較されながら説明されている。この章の説明により、RNAの構造解析のための理論的準備が整う。


第10章 RNA構造の解析
1本鎖のRNA は、相補的な塩基対の結合によって2次構造と呼ばれる構造をとる。多くの興味深いRNAにおいて、配列の並び自身よりも、塩基対の相互作用による2次構造が保存されている。このことが、RNA 配列の解析を、アミノ酸配列やDNA配列の解析よりも困難なものとしている。

RNA の2次構造の問題は、9章で紹介した確率文脈自由文法(SCFG)にもとづく確率モデルの自然な応用となっている。この章では、生物学的に興味のある2つのRNA解析の問題が調べられている。

第一の問題は、1本のRNA 配列に対する2次構造予測の問題である。この問題に対して、動的計画法にもとづくNussinovのアルゴリズムと、Zuker アルゴリズムが解説されている。さらに、Nussinovの確率化アルゴリズムのSCFGによる実装が述べられることにより、RNA2次構造予測がSCFGのRNA解析への応用問題として位置づけられることが示されている。

第二の問題は、複数のRNA のマルチプルアライメントについて解析する問題である。プロファイルHMM でマルチプルアライメントとデータベース検索を行なったのと同様に、共分散モデル(CM: Covariance Model)を用いてRNA のマルチプルアライメントとデータベースサーチを行なうための方法が説明されている。

SCFGにもとづくRNA 解析は、現状では必ずしも良く知られていない。計算量的に複雑なことも問題である。しかし、今後の改良でより実用的に認知されることが期待される。なお、HMMにおいて用いられた確率的な仕組みの多くはSCFGという別のクラスのモデルでも適用可能である。


11章 確率統計の基礎事項
Appendix的なこの11章では、この本全体で大雑把に扱っている確率統計的な手法について、より厳密な数学的定義や説明などが与えられている。

最初の節では、2項分布、ガウス分布、多項分布、Dirichlet 分布、ガンマ分布などの基本的な確率分布が解説され、2節では、エントロピー、相互情報量がDNA塩基配列を例にとりながら解説されている。3節では確率推定の問題における最尤推定、事後分布、確率変数の変換が解説され、4節では、一様分布、Dirichlet分布からのサンプリング、Metropolisアルゴリズムによるサンプリング、Gibbs サンプリングが解説されている。5節では、Dirichlet 混合分布を事前分布として使う場合の、頻度からの確率推定問題についての説明がなされている。そして、6節では確率モデルのパラメータ推定に広く用いられるEMアルゴリズムが解説されている。