日本農業シソーラスは計算機による用語の認識精度を高める

※アーカイブの成果情報は、発表されてから年数が経っており、情報が古くなっております。
同一分野の研究については、なるべく新しい情報を検索ください。

要約

国際連合食糧農業機関が管理するAGROVOCに、日本固有の農林水産業・食品およびその関連分野の用語を追加した日本農業シソーラス(JAT)を開発した。JATを基に編修した形態素解析辞書は茶筌による用語の解析精度を高める。

  • キーワード:日本農業シソーラス、文献検索、形態素解析、AGROVOC
  • 担当:中央農研・データマイニング研究チーム
  • 代表連絡先:電話029-838-7176
  • 区分:共通基盤・情報研究
  • 分類:研究・参考

背景・ねらい

膨大な流通文書から、目的とする情報を効率的に入手するには、計算機による文章の解析能力を高める必要がある。その方策の一つとして、シソーラス等の言語知識を計算機に与えて、文章の理解や解析を支援することが考えられる。そこで、農林水産関連分野の情報検索向上に資する日本農業シソーラス(JAT)を開発する。また、文章解析の基盤技術である、文章を「形態素(意味のある最小単位)」へ分解する、形態素解析に着目し、JATから編集した形態素解析用辞書による解析精度の向上効果を検証した。

成果の内容・特徴

  • 国際連合食糧農業機関が管理する多言語シソーラス、AGROVOCに、日本固有の農林水産業・食品およびその関連分野の用語等を追加した日本農業シソーラス(JAT;Japan Agriculture Thesaurus)を開発した(図1)。JATは、約48,000語を日本語・英語で収録し、AGROVOCに準じて階層関係・等価関係の構造を有している(図2)。
  • 新たに編修した形態素解析辞書(改良JAT)は、JATに収録された日本語の用語、および品種登録ホームページ(http://www.hinsyu.maff.go.jp/)に掲載されている農林水産植物(作物・野菜・果樹・草花・観賞樹等)の登録品種名(約16,000語)を普通名詞として登録している。
  • 日本農業記事索引データベース(JASI)を形態解析器のひとつ茶筌を用いた解析で、改良JATを、一般用語を収録した形態素解析辞書(IPADIC)と共に利用すると、IPADICのみと比較して茶筌が認識できない用語(未知語)が少なくなる(図3)。
  • 未知語から抽出した新用語を改良JATに追加する作業を繰り返すと、後の解析における未知語率[(IPADIC+改良JATでの未知語数)/(IPADICでの未知語数)×100]は低下する(図4)。
  • JATを基に編修した形態素解析辞書を解析に利用すると、茶筌による用語の解析精度が向上する。また、未知語と判定された中から、新しい用語を追加することで、形態素解析辞書を効率的に充実させることができる。

成果の活用面・留意点

  • 形態素解析器「茶筌」を用いた検証結果であるが、他の形態素解析器でも原理的に同じ傾向になると思われる。
  • 改良JATは、現在JASIシステムへ実装し解析精度を検証している。
  • JATは検索語の拡張などに利用可能であるが、拡張後の精度向上については今後の検証が必要である。
  • JAT、および改良JATは研究目的での利用希望者に配布予定である。
  • JATに追加した用語は、AGROVOCへの収録を働きかける予定である。
  • 中央農研との協力のもと、筑波事務所が主体となって実施した成果である。

具体的データ

図1 JAT に追加した用語例

図2 JAT における階層関係の構築例 AGROVOC の用語(実線)の下層(左図)中間層(右図)に用語(点線)を追加

図3 改良JAT によって形態素解析の精度は向上する

図4 形態素解析に基づく用語追加は後の解析における未知語率を低下させる

その他

  • 研究課題名:多様かつ不斉一なデータの融合によるデータマイニング技術の開発
  • 課題ID:222-c
  • 予算区分:基盤
  • 研究期間:2006-2010年度
  • 研究担当者:法隆大輔・竹﨑あかね(技会・筑波事務所)・斉藤三行(技会・筑波事務所)・
                        岡辺明子(技会・筑波事務所)・木浦卓治
  • 発表論文等:1)竹﨑、斉藤、岡辺(2007)農業情報研究、17:42-49