自動抽出した語彙関係と既存シソーラスによるシソーラスの構築・更新支援

※アーカイブの成果情報は、発表されてから年数が経っており、情報が古くなっております。
同一分野の研究については、なるべく新しい情報を検索ください。

要約

大量のテキストの中から自動で抽出された単語間の上位下位関係の情報と、既存のシソーラスを関連づけることで、専門分野ごとの詳細なシソーラスの構築や、既存のシソーラスの更新を支援することができる。

  • キーワード:シソーラス、AGROVOC、自動抽出
  • 担当:中央農研・データマイニング研究チーム
  • 代表連絡先:電話029-838-7026
  • 区分:共通基盤・情報研究
  • 分類:研究・参考

背景・ねらい

シソーラスは、同義語、類義語や単語の上位下位関係などを体系化したもので、情報検索における基盤的な情報として利用される。農業分野の代表的なシソーラスとしては、FAOが中心となって整備するAGROVOCがある。しかしながら、シソーラスの構築には人手と多大な時間と労力を要するため、AGROVOCでは専門分野ごとの詳細なシソーラスの構築には至っていない。 一方、大量のテキストの中からシソーラスを構成する情報を自動抽出する技術がある。この自動抽出を利用すれば負担を軽減できると考えられるが、自動抽出した情報は断片的なものになるため、そのままでは体系的なシソーラスとして利用できない。 自動抽出によって得られた断片的な情報を既存のシソーラスと関連づけ、詳細なシソーラスが構築できれば、その体系の一部を専門シソーラスとして利用できる。また、既存のシソーラスにおいては、自動抽出した情報を新しい関係の候補として利用でき、シソーラスの更新が効率化できると期待される。

成果の内容・特徴

  • 自動抽出の方法として、主に定型表現を用いて語の上位下位関係を抽出する方法を用いた。定型表現を用いる方法は、文章中の「AなどのBが」という表現からBを上位語、Aを下位語として抽出するものである。テキストデータとしてインターネット上のファイルを約2万5千文字相当収集し、自動抽出を行ったところ237件の関係が抽出された。このうち96件が上位下位関係にある関係であることを確認した。ファイルは農業分野の専門的なテーマを設定して収集した。
  • 96件をAGROVOCと比較したところ、24件は既にAGROVOCに収録されている関係と一致した。残りの72件のうち、39件がAGROVOCと関連づけできる関係であった。39件の内訳は、上位語も下位語もAGROVOCにある場合(図1のa)が17件、上位語のみがAGROVOCにある場合(図1のb)が6件、下位語のみがAGROVOCにある場合(図1のc)が16件であった。
  • 今回の実験では抽出された上位下位関係の約半数をAGROVOCと関連づけることができ、自動抽出の結果とAGROVOCを関連づけることが現実的であることが示された。本手法を用いることで、専門シソーラスの構築や、既存シソーラスの更新が支援できる。

成果の活用面・留意点

  • AGROVOCの整備に関わる機関での利用を想定しているが、他のシソーラスを対象としている場合にも利用できる。
  • 特別なプログラムが無くても利用できるが、上位下位関係を抽出する際には、集計のためのプログラムや形態素解析、構文解析のソフトウェアがあれば作業が効率化できる。
  • 抽出対象のテキストは、抽出したい語の分野・専門性に合わせて収集する必要がある。

具体的データ

図1 抽出された組合せの例

その他

  • 研究課題名:多様かつ不斉一なデータの融合によるデータマイニング技術の開発
  • 中課題整理番号:222c
  • 予算区分:基盤
  • 研究期間:2007~2009年度
  • 研究担当者:竹﨑あかね、法隆大輔、木浦卓治、斉藤三行(農林水産研究情報総合センター)、倉嶋明子(農林水産研究情報総合センター)
  • 発表論文等:法隆ら(2009)農業情報研究、18(2):65~71