Hatena::Grouplifesciencedb

ゲノム周辺 このページをアンテナに追加 RSSフィード

2010-05-26

Trackstar を試してみた

| 01:31 |  Trackstar を試してみた - ゲノム周辺 を含むブックマーク はてなブックマーク -  Trackstar を試してみた - ゲノム周辺  Trackstar を試してみた - ゲノム周辺 のブックマークコメント

Galaxy の最近の新機能のひとつ、UCSC ゲノムブラウザライクにゲノム座標データの可視化 Trackstar を試してみた。自分のデータを手軽に可視化できるのがポイント。

Trackstar はゲノム座標系データの可視化機能

ゲノム座標系データをそのゲノム配列のうえに表示する。表示する形は UCSC ゲノムブラウザのフィーチャーと似ている。表示範囲のスケールにあわせてうまく描画の粒度をかえている。

WIG 形式の数値データも表示できる。折れ線グラフ、ヒストグラム、密度表示の三種類の可視化の形をもっている。色の指定が可能。

ゲノム上の表示は、マウスでの左右上下ドラッグによるスクロール、ホイールによるスクロール、ダブルクリックによる拡大が可能。表示するデータは、ゲノム配列(dbkey)が一致すれば自動的に選択リストにはいるようになっている。このへんのデータのメタデータによるマッチングは Galaxy の得意なところ。

座標系データは、その特性にあわせたインデクス化がおこなわれているので、比較的高速に動作する。さらに、表示に必要なデータだけをとりだすように非同期通信を利用している。

表示は、HTML5 Canvas エレメントと Javascript を利用したブラウザサイドレンダリングで実装。データはJSONで交換されている。

screenshot

インストール

Trackstar の設定は galaxy / galaxy-central / wiki / Visualization — Bitbucket をなぞる。Galaxy のインストール galaxy / galaxy-central / wiki / GetGalaxy — Bitbucket を参照。

ソースの取得。

hg clone http://bitbucket.org/galaxy/galaxy-central

python 2.5 を使うように設定。ここでは Mac OS X 10.6 での場合。

ln -s /usr/bin/python2.5 python
export PATH=./:$PATH

セットアップ。

sh setup.sh

universe_wsgi.ini を編集。最低限必要なのは enable_tracks = True を有効にすること。

$ diff universe_wsgi.ini universe_wsgi.ini.sample
28c28
< enable_tracks = True
---
> # enable_tracks = True

トラック用のデータをUCSCから取得。hg18 などの buildの名前(dbkey)や長さが含まれる。

mkdir ./tool-data/shared/ucsc/chrom/
python ./cron/build_chrom_db.py ./tool-data/shared/ucsc/chrom/

起動確認。

sh run.sh

ブラウザhttp://localhost:8080/ を開いて、ヘッダに Visualization メニューが追加されていることを確認。


つかってみる

ブラウザの動作確認。

  1. ヘッダの Visualization → New Track Browser を選択。
  2. 出て来たダイアログの「Reference genome build (dbkey):」メニューで「Human Mar. 2006 (NCBI36/hg18) (hg18)」を選択。
  3. Continue ボタンをクリック。
  4. ゲノムブラウザが表示される。
  5. 下の染色体選択メニューで「chr1」を選択。
  6. データセットをたしてみる。Add Tracks ボタンをクリック。でもいまは選択できるデータがない。
  7. とりあえず、ここまでの状態を保存するために、右のConfigurationペインの Save ボタンをクリック。

データをとってくる。

  1. ヘッダの Analyze Data を選択。
  2. 左ペインの Tools → Get Data → UCSC Main を選択。
  3. NCBI36/hg18 アッセンブリのデータをなにか取得。たとえば group: Genes ... で table: knownGene
  4. output format: の Galaxy チェックボックスを有効にする。
  5. get output ボタンをクリック。つぎの画面で Send query to Galaxy ボタンをクリック。しばし待つ。
  6. UCSC Main on Human: knownGene (genome)」のようなタイトルのヒストリが追加される。

ブラウザにもどる。

  1. ヘッダの Visualization → Saved Visualizations を選択。
  2. さっき作ったもの(おそらく Unnamed)を選択。
  3. ゲノムブラウザが表示される。
  4. 下の染色体選択メニューで「chr1」を選択。
  5. データセットをたしてみる。Add Tracks ボタンをクリック。
  6. データセットを選択して、insert ボタンをクリック。
  7. インデクスがはじまる。しばし待つ。
  8. スクロールや縮小拡大をためしてみる。
  9. 最後にここまでの状態を保存するために、右のConfigurationペインの Save ボタンをクリック。

うごかないときには

  1. galaxy / galaxy-central / wiki / Visualization — Bitbucket を読み直す。
  2. ソースは正しくて、手順がまちがっていると信じてもう一度ソースから入れ直してみる。

まとめ

  1. Trackstar を有効にしてみた。
  2. gbrowse や UCSC ゲノムブラウザなどのローカルのセットアップ無しに、手前の座標系データを可視化するための新しい方法。わりと簡単。
  3. Trackstar はモダンな実装。
  4. テキストでGUIを説明するのは難しい。状態に名前が無いと特に難しい。
トラックバック - http://lifesciencedb.g.hatena.ne.jp/nakao_mitsuteru/20100526

2009-04-16

Galaxy DBCLS のβ公開はじめました

|  Galaxy DBCLS のβ公開はじめました - ゲノム周辺 を含むブックマーク はてなブックマーク -  Galaxy DBCLS のβ公開はじめました - ゲノム周辺  Galaxy DBCLS のβ公開はじめました - ゲノム周辺 のブックマークコメント

Galaxy DBCLS のβ公開がはじまりました。DBCLS で開発しているテキストマイニング関連などのツールが利用できます。

screenshot http://img.skitch.com/20090418-kh18wg9ucgr8y2ukhfbi6wimmp.jpg

BioHackathon 2009 の成果である Galaxy i18nApache mod_openid による認証をつかっています。DBCLS OpenID をつかってログインできます。

既知の不具合として、Safari の場合認証後に真っ白いページに遷移する場合が知られています。その場合はgalaxy.dbcls.jpドメインのクッキーを削除して再度アクセスしてください。


TogoWS ツール

http://img.skitch.com/20090418-8cseqh5an2b79pjaahqi76ca47.jpg

TogoWS REST API を利用するツールです。

Search は検索クエリを直接入力するツールです。検索対象名前空間はメニューから選択します。検索結果のリストが得られます。

Search with History は、ヒストリのデータをクエリにして検索することができます。たとえば、Get Data/Upload File で ABC という文字列データを入力し、データを登録します。それをクエリとして TogoWS を検索することができます。

Get Value of a Given Field は、ヒストリのデータをクエリにしてエントリのフィールド値を取得することができます。フィールド名は、対象データベース名や名前空間から調べることができます。例:ncbi-pubmed の利用可能なフィールド名:

$ curl http://togows.dbcls.jp/entry/ncbi-pubmed
abstract
au
authors
doi
mesh
so

Text Mining ツール

http://img.skitch.com/20090418-8tgaq4rty5bju3b2ry1rjt2293.jpg

DBCLS で開発されているテキストマイニングツールのツールです。

OReFiL Search は OReFIL を検索するためのツールです。

OReFiL Search with History は OReFIL の検索クエリをヒストリから与えるツールです。

MEDLINE search ツール

http://img.skitch.com/20090418-nqcya6n7prri49rfnwg4q4n2fs.jpg

全文検索エンジン Apache LUCUNE を使用して MEDLINE abstracts を検索するツールです。

rss ツール

http://img.skitch.com/20090418-f5nme3ycj73r88dxqq9585h7ih.jpg

ヒストリからRSSを生成するツールです。これは、定期的に更新するワークフローの最後でRSSを生成する目的を意図しています。

Data Viewer ツール

http://img.skitch.com/20090418-f5nme3ycj73r88dxqq9585h7ih.jpg

Galaxy はテキストデータを中心にあつかっていますが、PDB のエントリは立体構造で可視化してみてみたいし、データベースエントリIDはそのオリジナルサイトでの表示をみたくなります。それをブックマークレット技術を利用して、領域選択+ワンクリックでおこなえるようにするものを提供しています。PDBj jV 表示と Pfam 表示が提供されています。

これら以外の ID に対応したものは 502 Bad Gateway で提供されています。


まとめ

  1. Galaxy DBCLS を公開しました。
  2. 国際化対応、OpenID 認証済み。
  3. DBCLS で開発した各種ツールが利用できます。
トラックバック - http://lifesciencedb.g.hatena.ne.jp/nakao_mitsuteru/20090416