今日、放送大学の生物情報学実習で習ってきたことを、復習してみる
(理解が間違っているところもあるかも・・)
DNAの並び方(シーケンス)は、
アメリカの場合、NCBI(GenBank)、
日本はDDBJ
ヨーロッパはEMBL
でデータベース化されている。
このシーケンスは、どーやって決めるか?という話。
最近は、Pyrosequence法などもあるらしいけど、今回は、サンガー法について。
この方法は、まず、調べようとするDNAを1本鎖にします。
で、そーすると、反対側のDNAを合成するわけですが、このとき、
・DNA合成酵素である、dATP,dGTP,dCTP,dTTPを一杯入れておきます。
→dはデオキシ、dNTPのNがA,G,C,T(アデニン、グアニン、シトシン、チミン)
・さらに、もうひとつ酸素をとった(デオキシ)ddATP,ddGTP,ddCTP,ddTTPも
一杯入れておきます→これをまとめて、ddNTPと書きます。
そうすると、dNTP(DNA合成酵素)が来ている間は合成をしていますが、ddNTPがくると、そこで、合成はとまります。(ddNTPがあると、酸素が取れているので結合できない)。
たとえば、300塩基の一本鎖がたくさんあったとすると、
・1番目のみがdNTPで2番目がddNTPで、2番目で止まる
・2番目までがdNTPで3番目がddNTPで、3番目で止まる
・3番目までがdNTPで4番目がddNTPで、4番目で止まる
:
とか、いろんなところでとまるものができる。(極論すれば、無限にあり、ランダムに止まるとすると、1塩基でとまるものから、300塩基で止まるものまですべてのものがあるはず)。
そして、最後のddNTPは、そのとまったところに対応する、DNAの塩基対(ATCP)に対応しているはずである。で、ここで、ddNTPは蛍光塗料でマークしておく。なので、1番目にとまったものの、止まった箇所のddNTPは、1番目のDNA塩基対に対応しているし、2番目の・・・
ってなかんじで、ddNTPは、そこのDNAに対応していて、1番目から300番目まで、すべての箇所のddNTPのものがあるはずである。
さてここで、上記の「いろんなところでとまった」ものを、電気泳動する。
そーすると、短いものから、長いものまで、順番に並ぶ。
ってことは、
1番目でとまったもの、2番目でとまったもの、3番目でとまったもの・・・300番目でとまったものというようにわかれる。
このとき、1番目でとまったものは、上記のことにより、1番目のDNAに対応したddNTPで終わっていて(ってことは1番目のDNAの塩基は同じだから、1番目のところはみんな同じddNTPでおわっているはずだ。理論上)、そのddNTPのNが、AかTかCかGかは、ddNTPに蛍光塗料をぬっておいてあるので、その蛍光塗料の量で、どのddNTPが多いかでわかるはずだ。。
ということで、それぞれの電気泳動でとまったところの、ddNTPの量を出してくれば良い。そのところのddNTPの量がおおいのが、そこに対応する塩基対。
ここまでの処理を行うのがDNAシーケンサー
で、そのddNTPの量から、DNAのシーケンスを決めるソフト(っていうか、画面でみれる)ソフトが、Chromas(シェアウエアのソフトって書いてある)
で、これで、1本分がきまった・・・
けど、実際には、こーいう塩基配列は、部分部分にきれているので、つなぎ合わせないといけない。この部分部分の塩基配列をつなぎ合わせるソフトが、bioedit(フリーソフト:ChromasみたいなddNTPの各量を表示したりする機能もある)。
今回の実習は、abiファイルとかいうのができていて(上記のChromasなんかでも使う各量を波で表示するグラフ)、それを、
1.1本目は、File→Openで、
2本目からは、File→Inport→Sequence alignment fileで読み込む
2.シーケンスが出てきたら、Back Colored View Modeというのにすると、
AGCT別々の色になるので見やすい。
このモードにするには、シーケンスが並んでいるところの、TCAGとかが4列になっている
アイコンのうち、全部背景に色が塗ってあるものをクリックする(ごめん、わかりにくい
説明で。いちばん左の南京錠からかぞえて、11番目。ちなみに、10番目はすでにON
になっている)
3.左端のラベル?(シーケンスが始まる前の部分)を2つ選択。
1つめはクリックでOK。2つめは、コントロールキーをおして、クリック
4.これから、どこが一致するか探す。
まず、Sequence→Dot plotを選択。ダイアログは、OKで答えていくと、
線がひかれた図がでてくる。
もし、一致していれば、斜め下とかにむかって、大きく線が出る。それが一致面。
そこの一番上のほうをクリックすると、上に座標が出る。X軸がその一致開始点
(=つながるところ)
5.シーケンスにもどって、シーケンスの上のいっぱいアイコンが並んでいるところに、
G/Dと書いてあるところがある(南京錠から数えて7つめ)ので、ここをクリックし、
2本目をドラッグすると動くから、4のつながるところまで持っていく。
6.できたら、南京錠をクリックすると、はずすまでプロテクトされる。
File→Save Asで保存できる。
なお、1本が3プライムから5プライムにしているのに、もう一本が5プライムから3プライムへと、逆方向にしてしまうと、当然一致しない。
この場合は、Sequence→Nucleic Acid→Reverse Complementを選ぶと、方向が逆になる。
この、シーケンスを一致させるのを、自動的にやるソフト(contig assembly program)がある。
CAPっていうやつで、起動すると、自動的に適当?にやってくれる。
bioeditの中に入っているのかな?
今回はここまで。
次回はタンパク質のグラフィック表示 RasMol(フリーソフト)について
(本当は今日、ちょとやったけど、中途半端なのと、ここできりがいいので、
今回はここまで)