生物系特定産業技術研究支援センター

SIP

第2期 スマートバイオ産業・農業基盤技術

Creative Reserchers - 研究者インタビュー

第4回

世界中のバイオ・農業データ連携を統合データベースで実現へ
適切なデータの取捨選択と解釈が今後の研究の鍵を握る

第4回 田中 剛 農業・食品産業技術総合研究機構

SIPスマートバイオ産業・農業基盤技術(以下SIPバイオ農業)が掲げる「スマートフードシステム」を支えるのが、バイオエコノミーの拡大、農業の成長産業化、「食」の循環経済化に資するバイオ・農業データ連携基盤です。さまざまなデータを一体化して扱える仕組みづくりに携わる、農業・食品産業技術総合研究機構(以下農研機構)の田中剛さんにお話をうかがいました。

データ連携には枠組みと語彙の統一が重要

――「バリューチェーンデータ基盤構築」については、2019年度に鎌形サブプログラムディレクターにもお話を伺いました。(インタビュー記事はこちら)RDF(Resource Description Framework)で記述されたデータベースを整備することで、さまざまなデータを網羅的に解析できるようになると伺ったのですが、もう少し具体的に、RDFとはどんなものなのか教えてください。

田中:RDFそのものは、主語、述語、目的語のような形で特定のリソースを記述するための枠組みの一つです。私達が取り組んでいるのは、RDFという統一された枠組みを使ってバイオ関連のデータベースをつなげた「バイオデータベース連携基盤」を構築することです。最終的に利用者が国内外の様々なデータやデータベースの構造を考えることなく利用できる仕組みを目指しています。

これまでは、私が現在所属している農研機構や、さまざまな研究機関が自身のデータ公開のためデータベース開発と運用を行ってきました。また、企業においても独自に必要なデータを集めて、使いやすいように社内で管理して研究成果を上げています。情報・システム研究機構ライフサイエンス統合データベースセンター(DBCLS)を代表機関とする「バリューチェーンデータ基盤構築」では、このようにバラバラに管理されていたデータを連携することで、新たなデータの利用法を生み出し、新しい知見を発見することが可能なデータ基盤構築を目的にしています。

データベース同士やデータそのものをつなげるには、相互のデータ作成方法が統一されていることが望ましいです。RDFという共通の枠組みを用いることで、データベース間の親和性を上げ、連携を向上させることができます。

データをつなげるために、もう一つ重要なのが語彙(オントロジー)の統一です。例えば「稲が植えられている場所」を「田んぼ」と言う人もいれば「水田」と言う人もいますが、このままではコンピューターは違うものとして扱ってしまいます。同じ意味の場合には共通の言葉を利用するように整理することで、よりデータ連携をスムーズに進めることが可能になります。例えば、植物のゲノム情報や遺伝子情報の場合、「ジーンオントロジー」「プラントオントロジー」「トレイトオントロジー」といった世界共通の語彙セットが整理されています。

外部のデータベースも含め一体化した検索が可能に

――バイオデータベース連携基盤では、どんなデータを扱うのですか。

田中:先ほどお話しした国立研究機関が扱っているデータもありますし、SIPバイオ・農業の各コンソーシアムの研究の中で出てくるデータも対象になります。さらに、これまで非公開だった企業が管理するデータも対象にしていきたいと考えています。

企業のデータは、当然他社に秘密にしている情報も含まれるため、全てを公開することは不可能です。私達は、「オープン・クローズシステム」というデータをセキュアな状態で管理し、公開できる情報だけを公開するシステムを開発しています。データ利用希望者は公開情報に基づきデータを検索し、そのデータの保有者と契約を結ぶことで有償もしくは無償で非公開データを利用することになります。

――オープン・クローズシステムの中で、公開できるデータを共通にRDF化するのは分かりますが、公開しないデータもRDF化することにはどんな意味があるのでしょうか。

田中:データの拡張性と、利便性があると考えます。まず、公開されているデータと自社内にある非公開のデータの形式が統一されていた方が連携しやすいです。公開されたデータを自社のデータベースの中に格納して、非公開のデータと紐づけて使うことも可能ですから、公開したいデータが無い場合でも、手持ちのデータをRDF化しておけば外部のデータと連携しやすくなります。また、現在は非公開のデータであっても、将来的には第三者の利用を可能とする場合、その際のデータ加工の手間は減ります。例えば、企業の非公開データの中には「利用目的が競合しない」など一定の条件を満たせば提供できる場合があると考えています。そんな時に、データ自体はRDF化しておいて、公開データとしては、そのデータの内容を説明する付加情報、いわゆる「メタデータ」を作っておくことが可能です。結果として、多くの方にデータの存在を知らせておくことができるようになり、データ利用の可能性を増やすことへ繋がります。

――SIPバイオ農業の中で、バイオデータベース連携基盤はどのような役割を果たすのでしょうか。

田中:SIPバイオ農業の各コンソーシアムから出てくるデータは、バイオデータベース連携基盤で統一して扱うことになっています。我々の課題が他の課題間の横串となって課題を超えたデータ利用、連携を促進することが期待されています。そのため現在は、それぞれのコンソーシアムからどのようなデータが出てくるか、またどんなデータ連携が期待されているのかヒアリングを進めつつ、データのRDF化も含めてデータベース構築に関わっている状況です

更にSIP第1期の成果であり、今期も更に開発が進んでいる農業データ連携基盤(WAGRI)用には、バイオデータベース連携基盤から必要なデータを取ってくるシステム(API)を開発し、WAGRI利用者であれば誰でも利用できることを目指していきます。

――既にSIPバイオ農業のコンソーシアムのデータは、バイオデータ連携基盤の中に入ってきているのですか。

田中:現在までにヒアリングを行い、データの扱い方やデータベースの開発を行っている状況です。一方、既に公開されており、当コンソでも利用されているゲノム情報や関連情報についてRDF化が進んできています。例えば、私自身はゲノム情報のRDF化をやっておりイネ、コムギ、オオムギ、ダイズ、カイコといった主に農研機構がゲノム解読に関わった農学上重要な生物種に関してRDF化を行っています。それぞれのゲノムデータベースは既に存在しておりデータも公開されていますが、データベースは個別に開発されているため、データ連携が難しい状況です。そこで、データのRDF化によって異種のゲノム情報を一体的に扱えるようにする作業をしながら、統合ゲノムデータベース開発を行っています。その際には、ジーンオントロジー情報を用いることで生物種間でデータ比較と外部データへの連携を可能としています。

――外部のデータベースにもアクセスできるのですか。

田中:RDF化されたデータベースを横断的に検索することができるシステムが存在しています。それを用いれば、我々が開発したデータベース以外にもアクセスが可能です。また、RDF化されたデータベースは互いにデータ連携されていますので、ネットサーフィンのようにデータベースを渡り歩くことができます。イメージとしては、Googleのような1つの検索によってRDFでつながっているデータベース全てを調べることが可能であり、その結果から様々な情報に行き着くことができます。フィルターをかけないと不要なデータも返ってきますが、農学や生物学でよく使われるデータベースに絞って必要なデータを新しい知見と共に得られるようなシステムの開発も同時に進めることで、利便性向上を図っています。

農研機構に設置されたデータベース群が格納されたサーバの一つ。RDFで記述されたゲノム情報や微生物情報などのデータが蓄積されている。情報公開サーバの他、合計3ペタバイトの大規模ストレージや、並列計算を高速に行う解析サーバを有する。

「研究者が知らないデータ」へのアクセスを可能にする

――田中先生はもともとゲノム解析がご専門ですよね。ゲノム解析で読んだゲノムのデータを格納するためにデータベースに携わるようになったのですか。

田中:もともとは進化に興味があって、博士課程で分子進化研究を行うために情報解析の分野に足を踏み入れました。遺伝研でポスドクだった2004年に旧農業生物資源研究所が中心となった国際コンソーシアムがイネゲノムを解読したのですが、このゲノム上の遺伝子情報を明らかにする国際プロジェクト(Rice Annotation Project)が、2004年12月に立ち上がりました。このプロジェクトに一期生として参加し、そのまま研究を続けるために、翌年から研究所に入所しました。

このプロジェクトにおいて、ゲノム配列情報や遺伝子情報を公開するためにデータベース開発に携わるようになったのが最初です。その後はオオムギやコムギのゲノム解読に関わりデータベース開発や、イネの別品種のデータ解析やデータベース開発を行いました。

――バイオデータベース連携基盤が完成して、研究機関だけでなく企業のデータも入ってくるようになったら、田中先生の研究はどのように変わりますか。

田中:自分の研究に厚みが増します。我々が解析に用いる実験データやゲノム情報は何らかの目的のためにとられたデータのため、どうしても質に偏りができます。そこから得られる解析結果が正しくても、実は特定の条件でのみ得られた現象かもしれません。企業が有するデータは特定の研究目的に特化しているかもしれませんが、自分が集めてきたデータとは異なった、貴重な新データになるはずです。自分が利用してきた範囲を超えるデータを用いた研究結果は、より一般化されている可能性が高くなります。これは、当初企業が目的としていたデータ利用とは異なるとともに、新たな知見に繋がる素晴らしいデータ活用法だと思います。また、データ連携によって、新たな研究の種(シーズ)を見つけることもできると思います。究極的に全てのデータが繋がると、自分のふと気になった情報から派生する関連情報が自由に取り出せるようになります。得られた検索結果の中には、自分が考えもしないような情報に繋がっていることも容易に想像でき、新たな発見も生み出されるでしょう。自分自身がGoogleなどを用いてネットサーフィンしていると思わぬ情報に行き着くことと同じです。

データを使って進化の過程を解明した経験

――Google検索で情報を上手く引き出すには、キーワードの選び方に工夫が必要ですが、ゲノムデータベースの検索にもそういうノウハウが必要になってくるのでしょうか。

田中:必要だと思います。データが繋がるということは、当然不要な情報を得ることにもなります。自分の目的をより明確にしておかないと、当然データに埋もれてしまいます。どういったキーワードで検索するのか、検索対象をどのように絞ればよいのか、といった経験則で解決していくしかないかもしれません。でも、最初のうちはそういったことができなくて当然ですので、とにかくデータに埋もれてみるのも大切だと思います。

思わぬ発見というのは、予想だにしないデータや結果に突き当たるから生じるのであって、事前に予測することは難しいです。何度もデータ検索やデータ利用を繰り返していくことで、自分の目的に対して必要なデータのとり方がわかってくるのだと思います。それが、次の研究へのステップアップにつながったり、他の研究者との違った研究につながっていくのだと思います。

――先生ご自身の研究でもそんな経験があったのですか。

田中:博士課程の研究の一つがそうだったなと思います。当時、研究テーマも決まっていない中で、先輩が行っていたプラナリアの遺伝子研究の情報を見せてもらいました。Excelファイルで約3,000個の遺伝子断片の機能情報を一つずつ見ていたところ、ビタミンB6合成に関わる酵素遺伝子という記載が2種類出てきました。動物ではビタミンB6の生合成はできないと学んでいたので、不思議に思い配列で検索したら植物の酵素遺伝子がヒットしました。

そこからビタミンB6生合成に関する情報を、代謝マップや100を超える動植物・微生物のゲノム情報などから網羅的に探索した結果、酵母や植物のビタミンB6合成経路が当時代謝マップの基礎情報となっていた大腸菌型のビタミンB6合成経路とは全く別の遺伝子で構成されていることがわかりました。また、プラナリアの遺伝子はカイメンでも見つかりましたが、ショウジョウバエや線虫、人、マウスのゲノム情報からは見つかりませんでした。その結果から、酵母・植物型のビタミンB6合成にかかわる遺伝子を動物の祖先種も持っていて、進化の過程で失われて我々はビタミンB6を作れなくなったという考察を行いました。それが博士論文の1つの内容です。

――まさに、遺伝子の解析で生物の進化の過程の一部を解き明かした成果ですね。その過程で、データが大きな役割を果たしています。

田中:当時はプラナリアの遺伝子のデータベースは無くて、Excelのデータを1行ずつ目で追いました。たまたまかもしれませんが、目についた遺伝子に関する研究が博士号取得につながったというのは、運命を感じました。また、その気づきから、疑問が生じ、問いを解決するために、既存のデータベースをいくつも利用しました。当時の体験があるからこそ、今もこの分野を深く掘り下げているのかもしれません。

バイオデータベース連携基盤ができれば、私が検索のためのキーワードをコピペしながら1つずつデータベースを探索して、手作業でデータを取り出していたことが、より簡便に「こういう情報もありますよ」ってデータベース側が返してくるようになります。そうなると、3年かけてやってきたことが1日でできてしまうかもしれません。謎を解き明かすための情報収集にかかる時間の短縮はとても重要ですので、この基盤が完成し、研究に役立っていくことを期待しています。

WAGRIとの連携で農家を支える技術や手法を提供するための活用を期待

――バイオデータベース連携基盤はWAGRIとも将来的には連携していきますが、どのようなことが期待できそうですか。

田中:様々なデータベースをWAGRI利用者が利用できるようになります。APIを組み合わせることで独自のデータ連携を実現できるようになるので、より実効性の高いデータ利用が期待できると考えます。現在は、農業やバイオにおいて、たくさんのデータが産出されるためになかなか使い切れていない状況があります。例えば植物を扱う場合、ゲノム情報や遺伝子情報などの植物そのものの情報の他、気候や、土壌細菌、肥料や化合物といった植物が生育する環境に関する情報も得ることができます。これらの情報は一見バラバラに見えますが、植物の生育に密接に関わってきます。データがRDF化されることによって、植物と環境の因果関係がわかってくるかもしれません。

そうすると、農業において今まで行われてきた手法とは異なる新たな技術や手法を導入することに繋がるかもしれません。そうすれば、農作物の収穫量がアップして、最終的に農家の方にとって最適な農業経営を提案できるようになるでしょう。そのために、農家の方がデータベースを直接利用する必要は必ずしもなくて、より良い農業のためにデータを使ったサービスを提供できる環境が広がることで最終的に農業に貢献できれば素晴らしいと思います。

他には、農業分野におけるAI活用の促進が期待できます。データがRDF化され共通オントロジーが利用されている状態は、AI学習にとっても最適なデータセット提供に繋がります。学習データでAI性能は相当変わりますので、バイオ・農業データ連携基盤において、より正しいデータ連携がなされており、より多くの種類のデータが含まれているデータを共通のデータセットとしてAI学習用に提供できるのであればより精度は向上するはずです。RDFは世界の主要な生物学データベースでも利用されていますので、精度と汎用性の高いAIの実現に貢献できると思っています。

――バイオ、農業分野でのデータ解析にかかわる研究の面白さ、やりがいを教えてください。

田中:現在は生命情報であるゲノム情報に加えて、様々な環境データを含む大量のデータが利用可能になっています。ゲノム情報解読技術やセンサー技術、データ解析のためのAI技術などの躍進がほぼ同時期に進んでいるからです。既存の考えや方法に縛られることなく、何かをしたいとか、こんなことやってみたいという思いに対する解決方法を膨大な情報や知見を元に考えることでできるタイミングです。農業であれば、農作物を良く知り、何年もかかって技術を身に着けて素晴らしい作物を作る農家の方々に加えて、情報をフル活用して新たな農業体系を生み出す農業経営者も老若男女問わず現れてきました。

例えば野菜作りにしても、畑に出て作物の状態を見て丹精に育てることで最上級の農作物を作る方法もあれば、植物工場のように環境を全て機械制御して安定して均一的に作る方法もあります。それぞれにあったニーズが存在するので、どちらも重要だと思います。ただ、後者については、ゲノム情報も含めて様々なデータの活用が効果的だと思います。たくさんのデータを使ってみたいというモチベーションがあれば、農学に踏み込むための敷居はすごく下がっていると思います。

データ利用に関して注意しなくてはいけないのは、データや解析結果の真偽や品質を自分で判断できなくてはいけない点だと思います。

データベースがつながっています、皆さんはお好きなデータを利用できます、こんな使い方もできます、と言われた時に、データベース利用者が本当に必要とする情報が得られているのか、という判断ができないと、誤った答えに導かれてしまいます。自分の置かれている環境を俯瞰できる思考を持つ人であれば、農学に限らずどの分野でも絶対やっていけると思いますし、それが研究において最も面白いことだと思えるのではないかと考えています。

田中 剛(たなか・つよし)

国立研究開発法人 農業・食品産業技術総合研究機構
本部 企画戦略本部 兼 次世代作物開発研究センター
基盤研究領域 情報解析ユニット 上級研究員
2004年 総合研究大学院大学遺伝学専攻博士課程修了。博士(理学)
2004年 (独)科学技術振興機構 バイオインフォマティクス推進事業技術員
2005年 (独)農業生物資源研究所 任期付研究員
2010年 (独)農業生物資源研究所 主任研究員
2011年 ヘルムホルツセンターミュンヘン 客員研究員
2016年 (国研)農業・食品産業技術総合研究機構 次世代作物開発研究センター 主任研究員
2020年 より現職
専門は、分子進化、バイオインフォマティクス。