Hatena::Grouplifesciencedb

ゲノム周辺 このページをアンテナに追加 RSSフィード

2010-06-22

DDBJやPDBjやMEDLINEやUniProtのRDFのトリプル数

| 16:07 |  DDBJやPDBjやMEDLINEやUniProtのRDFのトリプル数 - ゲノム周辺 を含むブックマーク はてなブックマーク -  DDBJやPDBjやMEDLINEやUniProtのRDFのトリプル数 - ゲノム周辺  DDBJやPDBjやMEDLINEやUniProtのRDFのトリプル数 - ゲノム周辺 のブックマークコメント

最近扱っているデータのスケールを調べました。

規模感

トリプル数の計算は、rapper -c を利用した。

データベースファイル数ファイルサイズトリプル数
DDBJ 299 ~300GB 6.6G
PDBj 65378 ~133G 1.4G
MEDLINE 617 ~12G 0.7G
uniprot-rdf 12 133G 2.4G

まとめ

  1. メジャーな公共データベースではギガオーダーのトリプルが存在している。
  2. ファイルサイズは100G越えもあたりまえ。
  3. rapper -c の計算だけでも数時間かかる。(並列化で短縮は可能)
  4. 参考として、Bio2rdf にあるデータのトリプル数は http://sourceforge.net/apps/mediawiki/bio2rdf/index.php?title=Namespace にある。
トラックバック - http://lifesciencedb.g.hatena.ne.jp/nakao_mitsuteru/20100622