生物系特定産業技術研究支援センター

SIP

第2期 スマートバイオ産業・農業基盤技術

「食のサステナビリティ」実現のカタチ ~SIPバイオ農業の社会実装~

#05

「バイオ関連のバリューチェーンデータ基盤の構築」による業界横断データ共有のビジョン

五斗 進 情報・システム研究機構 データサイエンス共同利用基盤施設 ライフサイエンス統合データベースセンター(DBCLS) 教授 (副センター長)

五斗 進
情報・システム研究機構 データサイエンス共同利用基盤施設
ライフサイエンス統合データベースセンター(DBCLS) 教授 (副センター長)

1.何を研究しているのか

SIPスマートバイオ産業・農業基盤技術「バリューチェーンデータ基盤構築」コンソーシアムでは、民間企業によるビッグデータの利用を促進し製品開発を活性化するために、公的研究機関等が蓄積し保有するバイオ関連のデータベースや、SIPバイオ農業の研究開発によって生み出されている研究成果のデータベースを統合的に検索・利用できるようにする「バイオDB連携・統合利用システム」の仕組み作りやルール整備を行っています。これにあわせて企業が保有する秘匿性の高いデータや国の委託プロジェクトにおける公開前の研究データなどクローズドデータのセキュリティを確保しながら、公開済みのデータと融合して有効活用するためのオープン・クローズシステムの開発を行っています。

現在、世界には2万を超えるバイオ関連データベースがあり、その情報量は数ペタバイトにまでなると言われています。そのなかでも日本の国立研究機関が持つデータは高品質なものが多く、ゲノム、タンパク質、微生物、食品機能など多彩なデータベースが揃っています。一方で、こうしたデータベースはもっぱら研究のためにのみ使われており、民間企業からはあまり利用されて来ませんでした。

利用されていない主な理由として、データベースごとに独自のデータ構造を持っているため複数のデータベースを一度の操作で検索できない、データベースごとに操作方法が異なり煩雑でわかりにくい、といった課題があります。つまり、多くのデータベースが存在していても、それらが連携せずにバラバラの状態になっているため、利用する側にとっては使いにくいのです。

そこで、「バリューチェーンデータ基盤構築」コンソーシアムに参画する、情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS)と科学技術振興機構NBDC事業推進部(NBDC)が中心となって、RDF(Resource Description Framework)というデータ記述の枠組みを用いて、バイオ関連のデータベースの連携に取り組んでいます。これによって、連携した全てのデータベースに対して、横断的に検索しデータを取得できるようになります。

また、SIPバイオ農業において開発を進めているスマートフードチェーンプラットフォームであるukabisおよび農業データ連携基盤であるWAGRIと接続するためのAPIの開発も行っています。これにより、農業生産や流通など研究開発以外の目的にもバイオ関連データを利用することができます。

2.社会実装のビジョン

公的研究機関等が持つデータベース群を対象としたバイオ関連データのRDF化によって、それらのデータをシームレスに利用できるようになります。また、メタデータ、つまりデータに関する付帯情報もRDF化することによって、データの収集や検索、整理、分類などの操作を簡便にできるようなり、研究者や研究機関が活用できるデータの範囲と使い方が広がります。バリューチェーンデータ基盤の構築は、いわば「データベースの高速道路ネットワーク」というインフラを構築することであり、これ自体がひとつの社会実装なのです。

また、SIPバイオ農業において各コンソーシアムが進める研究から生み出されたデータも、データ連携基盤に接続されたデータベースのなかに格納され、一部のデータを除いてプロジェクト終了後にはオープンにされます。例えば、「食によるヘルスケア産業創出」コンソーシアムが実施した、健康な日本人における腸内細菌叢と食事や生活習慣との関連性の解明を目指した「すこやか健康調査」のデータは、プロジェクト終了後の2023年度から一般の企業にも公開される予定となっています。

また、民間企業による利用を目指し「危害微生物情報提供プラットフォーム」の構築も検討されています。これは、食中毒を引き起こすことがある「セレウス類縁菌」に関する情報を集約したデータベースです。セレウス類縁菌には、食中毒の原因となる種とそうでないものがあり、その判別は困難なため、情報を集約したプラットフォームには、食品製造業や食品業界、病院等からニーズがあると考えています。

3.実現することのメリット

バイオ分野では現在、大量のデータをコンピュータで取り扱うバイオインフォマティクスが急速に発展しています。例えばゲノム情報は、AGCTという4つの核酸の配列によって構成される情報であるため、コンピュータによる分析と非常に相性が良く、DNAを読み取る次世代DNAシーケンサーの発達も後押しして、ビッグデータやAIによる分析が広く行われるようになっています。

バイオデータは多様で複雑ですが、RDF化することによりデータをシームレスに扱えるようになるので、ゲノム情報と同様にビッグデータやAI分析も可能になります。また、RDF化が完了したデータベースの概要と内容をカタログ化することで、専門外の企業や研究者であってもデータを探しやすくなります。日本の国立研究機関が持つゲノム、タンパク質、微生物、食品機能など多彩で高品質なデータベースの利用が増大し、我が国のバイオ関連の研究がさらに促進するという好循環が生まれることが期待されます。

また、「危害微生物情報提供プラットフォーム」の実現は、前述のとおり食品製造業者や業界全体において、有害な微生物の発生状況や検出条件等の知見が深まり、より安全な食品の製造や開発につながります。なおかつ、企業が測定した危害微生物に関わるデータをプラットフォームに提供し、業界内で横断的に共有することができれば、より広範な前競争領域データを業界全体として活用することができ、これまでになく、効率的かつ早期に、安全な食品の製造・開発の実現が期待できます。

4.これまでの進捗とゴールまでのステップ

「バイオDB連携・統合利用システム」のシステム自体は、SIPバイオ農業の完了後も、DBCLS/NBDCが主体となって運営・開発が続けられていきます。また、データベースのRDF化は随時進められており、2022年度には本SIPのデータベースとクローズドデータのRDF化を含めて合計20のデータベースが、本システムの中で直接参照・連携できるようになる予定です。これらはすでに構築されているWAGRIやukabisなどの外部の巨大なRDFデータとも連携可能であり、そのために21のAPIが2022年度内に提供されます。

研究関連データベースのRDF化は海外でも行われており、日本も含めたグローバルな協力のもとで進んでいます。海外の主要なバイオデータベース開発機関である欧州バイオインフォマティクス研究所(EBI)、スイスバイオインフォマティクス研究所(SIB)、米国NIH傘下の国立バイオテクノロジー情報センター(NCBI)などと連携し、技術者の交流や共同開発が進んでいます。

「危害微生物情報提供プラットフォーム」に関しては、製品評価技術基盤機構(NITE)が中心となって、システムの設計および企業ニーズのヒアリングが進められており、その結果を踏まえ2023年度以降の始動に向け設計、構築を行っていきます。

連絡先
五斗 進(情報・システム研究機構 データサイエンス共同利用基盤施設 教授、ライフサイエンス統合データベースセンター(DBCLS) 副センター長)