社会的背景と経緯
政府が目標として掲げているSociety5.0実現のためのデータ駆動型農業の重要性の高まりや、農林水産省におけるスマート農業の促進などを受けて、農研機構でもAI研究およびデータ連携のための農業情報研究基盤の整備が求められています。それを受けて、2018年10月には農業情報研究センターを設立、1年半の準備を経て2020年度にAI研究用高性能コンピュータおよび大規模統合データベースを稼働開始しました。
内容・意義
近年、農業の分野においてもデータによる科学的裏付けに基づくデータ駆動型研究の推進、およびAI等を活用したスマート育種、スマート農業、スマートフードチェーンの研究が進められています。しかし、国内最大の農業研究機関である農研機構においては、これまで大規模な計算機資源が整備されていませんでした。そこで、産総研のスパコンABCI(AI橋渡しクラウド)等の事例を参考にするとともに、機構内部に試験的に構築した計算環境の利用状況を踏まえて、研究者100名が同時にAI用の計算を行うのに必要な計算機の能力・規模を算出し、1 PFLOPSの計算性能を有するAI研究用スーパーコンピューターと容量3 PBの大規模データベースによる農業情報研究基盤を構築・導入しました(図1)。
筑波山の別名である「紫峰」と名付けられた本スパコン(図2)は、AI計算において特に重要な行列演算性能に優れるNVIDIA社の最新のGPU(Tesla V100)を採用するとともに、1つの計算機内に高速なNVLink5) で相互に接続した8基のGPUを搭載しています(全16台の構成で計128基搭載、計算機間は高速 InfiniBand6)で接続、合計で1PFLOPSの計算性能)。複数のGPUを同時に利用して画像認識等を高速に実施したいAI研究者にも対応できる構成となっています。また、本スパコンの特徴として利用者にやさしいシステムを目指しており、従来のコマンド入力を主とする利用に加えて、Webブラウザから操作できるインターフェースや、利用者のパソコンから遠隔操作できるインターフェースを通して、Windowsのような操作でのスパコン利用を可能としています。さらに最新の機械学習用のプログラム群をあらかじめインストールした 仮想化技術7)を導入して、利用者がこれらをすぐに利用できるようにしています。
また、これまで農研機構内の個々の研究センター・部門で所有していた病害虫、気象、遺伝資源、ゲノム情報など各種の研究データについて、組織内での連携利用に向けた研究データベース運用ガイドラインを策定し、それに基づき、農研機構内全研究データの農研機構統合DBへの一元的な集約を開始しました。統合DBでは、全てのデータにメタデータ(著者、日付、ライセンス、内容など、データの属性を説明するためのデータ)を付与し、機構内全研究データの見える化・カタログ化を実現しました。さらに、データ間のフォーマットの違いなど異質性を解消し、AIによる分析を容易にすることで機構内での分野横断的な研究を加速します。農業データ連携基盤WAGRIとも連携し、統合DB内のデータを、WAGRIを介して安全に外部公開するシステムを設計・開発しました。
なお、AIスパコンおよび統合DBの導入は、富士通株式会社の協力により実現しました。双方の知見によるスーパーコンピューター向けのセキュリティ強化策や、新たな試みとしてリモートワークを活用した構築作業などを通してこれらの研究基盤が整備されました。
今後の予定・期待
今後、AIスパコンと統合DBによる農業情報研究基盤を活用し、データ駆動型農業研究を進めていきます。AIスパコン導入によって、例えば大量の画像処理が必要な画像からの病害虫の発生状況把握が従来よりもおよそ100倍(理論値:87倍)高速になることが想定されます。具体的には、1ヘクタールのジャガイモ畑の画像から、画像処理でウィルス病発病株の検出をするのに従来の計算機資源ではおよそ200時間(個人のパソコンでは 500日)かかりますが、「紫峰」では2時間で終わります。また、統合DBの活用によって過去の栽培記録や気象データなどから作物の生育や品質を予測する研究においても、貴重な学習データや開発した解析手法などを組織内で共有し、他地域、他の作目への適用を進めるなど、データ駆動型農業研究の推進に役立てることができます。さらに、農研機構内にてAIスパコンと統合DBを用いたAI技術に関する教育も進め、数年以内に機構内に400名のAI研究者を育成していく予定です。
用語の解説
- PFLOPS(ペタフロップス)
- FLOPSは1秒間に浮動小数点演算が何回できるかを示すコンピュータの性能指標です。P(ペタ)は10の15乗、G(ギガ)の100万倍です。
- PB(ペタバイト)
- 1 PBは、100万GB(ギガバイト)、朝刊(文字情報のみ)の800万年分に相当します。
- GPU(ジーピーユー)
- CPUを補助し、高度な画像処理を行うためのプロセッサです。近年はAI計算や超高速シミュレーション等の分野でもその高速性を活かして広く利用されています。
- NVIDIA社 Tesla V100(エヌビディア テスラ ヴイ100)
- 高性能なGPU。商品の概要は、以下をご参照ください。
https://www.nvidia.com/ja-jp/data-center/v100/
- NVLink(エヌヴイリンク)
- GPU間を接続する高速インターフェースで GPU1基あたり300Gバイト/秒の通信性能をもちます。
- InfiniBand(インフィニバンド)
- 計算ノード(演算を行う装置の一つの単位)間を接続する高速インターフェースで、100Gビット/秒の通信性能をもちます。
- 仮想化技術
- プログラム群やデータをパッケージ化し、簡単な操作で計算機の上でそのパッケージを利用できるようにする技術です。
発表論文
2020年度人工知能学会全国大会(第34回)(6月10日、オンライン開催)にて「農業研究データ基盤整備に向けた統合データベースの構築」として発表。
参考図