2010/06/08 |
NGSコラムの初投稿です。
昨年度末に、本学にもNGSの1つであるSOLiDシステムが導入されました。
公開された情報から推測すると、昨年度は全国に40台から50台のNGSが新たに導入されたようです。
NGSのデータ処理では、ストレージ(ハードディスク)と計算機の新規導入が必要といわれていますが、さて、どの程度の規模のものが必要なのでしょか?
今回は、計算機に関して考えてみたいと思います。
予算があれば、いきなり大型のコンピュータを導入することも出来ますが、ほとんどの研究室では、限られた予算の中で試薬代や人件費をやりくりしているのが実情です。そんな状況にもかかわらず、不用意にIT業者に聞けば「次世代シーケンサのデータ解析には、大容量のコンピュータが必須だ!」と脅されてしまいます。
そこで、次世代シーケンサデータ解析スターター用に、スモールスタート構成を考えてみました。
まずは、計算機の用途です。
次世代シーケンサを導入した施設であれば、必ずと言って良いほど、同時に解析用の共用サーバーシステムを導入しているはずです。データ処理はその共用サーバーで行うということが基本的な考え方です。しかし、データをラボに持ち帰った後や、ゲノム解読を外注した場合などは、ラボである程度のコンピュータを用意しなければなりません。ゲノムへの再マッピングやパラメータを変えてのデータ処理が発生することが多いからです。手元に計算機を導入する場合は、メモリ容量とCPUコア数が選定のポイントです。ここでは、マッピング処理やRNA-SeqやChIP-Seqをこなすことが出来る、エントリレベルの計算機のスペックに関して考えて見ます。なお、哺乳類等大型ゲノムのアセンブルにはかなりの大きなメモリが必要となりますので、今回は割愛します。
【メモリ容量】
もちろん多ければ多いほど良いですが、多くのメーカーでは、96GB以上実装すると極端に高価格になるようです。これは、限られたメモリスロット数で容量を確保するために高密度のメモリモジュールが必要になるからです。
フリーソフトのBWAやbowtieでのマッピング処理ならば、ソフトウェア自体は10GB程度のメモリしか使いません。ただし、ディスクアクセスを速くするためのバッファキャッシュ領域や、一度に数個プログラムを動かしたい場面にも多く遭遇しますので、私の個人的推奨は以下の通りです。
・1名で計算機を占有できるなら→48GBメモリ
・2名程度で共有するなら →96GBメモリ(お勧め!)
・ちょっとだけ試してみたいなら→16GB〜24GBメモリ※
なお、※の構成は、ちょっと本格的に解析を始めたらすぐにメモリ不足に陥ると思いますので、本当のお試しレベルです。
【CPU】
クロック周波数は速ければ越したことはありませんが、現時点では2.5GHz前後がもっともコスト・パフォーマンスに優れているようです。
コア数ですが、現時点でのフリーソフトウェアを動かすならば合計8コア程度で十分だと思います。
フリーソフトウェアでもマルチコアに対応しているものが多いですが、あまりCPUコア数を多くしても速度は頭打ちになります。
【ディスク容量】
次世代シーケンサのraw dataを保管しないという条件付きですと、容量を食うのは、fastqファイル、ゲノムデータ、マッパー用のインデックスファイルおよび結果データです。条件を変えてソフトウェアを動かす場合、これらのコピーが何セットも発生します。1名当りの作業領域として2TBぐらい有れば半年から1年ぐらいは持つと思います。よって、有効容量として(2TB x 人数)がお勧め構成です。
【オペレーティングシステム】
次世代シーケンサ用のフリーソフトウェアを動かすにはLinuxが必要です。
個人的には、Ubuntuがお勧めですが、CentOSでもOKです(両方とも無料です)。
いかがでしょうか?
パソコンレベルでは少々無理ですが、この程度の構成であれば、DELLやHPのオンライン見積で価格を調べることが出来るレベルだと思います。
ご参考になれば幸いです。
(谷嶋)