Hatena::Grouplifesciencedb

ゲノム周辺 このページをアンテナに追加 RSSフィード

2009-10-15

セミナーの個人的なまとめ

|  セミナーの個人的なまとめ - ゲノム周辺 を含むブックマーク はてなブックマーク -  セミナーの個人的なまとめ - ゲノム周辺  セミナーの個人的なまとめ - ゲノム周辺 のブックマークコメント

昨日おこなったProgramming the Semantic Web勉強会(1)はなかおが第一章と第二章をざっと解説して、そのあと議論という流れ。来週は3章から。

告知が直前だったので、参加者はセンター関係者で合計5名。参加者のなかには、Semantic Web 技術への期待感と疑いがいくつもあって、それにはいろいろな誤解によるものだったり、なかおが誤解していることだったりする。これは、まさにセミナーを進めていって相互に理解が深まり解決できればと。

RDF を中心に考えてしまうと、一面的には、RDF によるデータの公開があって、それには、既存のページに RDFa を埋め込むことや RDF/XMLURI を追加するというシナリオがあるけど、それだけだとデータ公開している人にとってのメリットが見えにくい。このようにメリットが見えにくいままだと、RDF 技術の寿命や普及という観点から Semantic Web 技術の導入を考えるという流れになってしまう。実際 RDF 技術は一部では普及しているけど、ほとんどはつかわれていない。だけど、いま RDF を使っているデータベース、たとえば、UniProt の場合は、内部でのデータ開発の要求から内部データを RDF 化していった事情があった。これは no title に詳しい。標準的な技術でデータを組むと、頻繁に起こりうるデータ構造の変更に対して、管理ツール側の修正コストを抑えることができることなどがデータベース管理の観点におけるメリット。

Semantics Web 技術はデータ統合のための技術であるので、データ統合を考えていない場合には、技術要素が多く、正論的で、難解で、参入コストが高いし,メリットが見えないので導入されることは難しい。この本を読んでとても可能性を感じた事は、(ローカルの)トリプルストアとウェブオブデータの関係。データ解析にこそデータ統合が必要になるので、データベースのファイル形式や所在をいちいち調べて理解しなくても良くなる将来を期待。自分の目的に特化したり自分のデータに対する Google SquaredWolfram|Alpha: Computational Knowledge Engine のような機能を実装するには、という見方が今後の方向性の一つ。

Programming the Semantic Web ではサンプルデータを Freebase.com から取り出している。Freebase のデータは CC-BY で公開されているので、このように利用に適している。Data Dumps  |  Freebase API (Deprecated)  |  Google Developers のように生物学データも入っている。分子データ以外もあるので、分子データベースになれている目でみると違和感がある。各レコードにはHTML表現にくわえてRDF表現もある。CC-BYで公開可能なデータをもっていて、ウェブで公開したいひとにとっては良い場であるといえる。TogoDB にセマンティックアノテーション機能をつけたいので参考にしたい。

トラックバック - http://lifesciencedb.g.hatena.ne.jp/nakao_mitsuteru/20091015