野菜商品レビューの内容を把握する概念抽出工程の提案

要約

農産物関連の代表的なテキストデータであるインターネット通販の野菜商品レビューを対象に、記述内容を把握するための概念抽出工程を提案した。

  • キーワード:野菜商品レビュー、形態素解析、構文解析、否定概念の欠落、同義語
  • 担当:IT高度生産システム・先進的統計モデリング
  • 代表連絡先:電話 029-838-8481
  • 研究所名:中央農業総合研究センター・情報利用研究領域
  • 分類:研究成果情報

背景・ねらい

テキストマイニングは農産物に対する消費者の多様な価値観を探る有効な手段である。テキストマイニング技術の一つ、テキストから記述内容を抽出する自然言語処理は、分野特有の言語表現による精度の低下が報告されている。農産物関連テキストについても「作物の名称」等の表現により自然言語処理精度は低いと予想されるが適応事例が少なく明らかでない。そこで、自然言語処理(形態素解析、構文解析)を農産物関連テキストへ適応した場合の問題点を明らかにし、記述内容を抽出する概念抽出工程を提案した。

成果の内容・特徴

  • 農産物関連の代表的なテキストデータであるインターネット通販の野菜商品レビューを対象とした場合、付属辞書を参照した形態素解析だけでは、語の分割精度が低いこと(例;"安納芋"は"安":"納":"芋"と分割)、具体的動作を示さない動詞"する"の出現頻度が高いこと、同義語が別の語と判定されること(例;同義関係にある"青梗菜";出現頻度1,262、"チンゲンサイ" ;450、"チンゲン菜";1,071が別の語と判定)、否定概念が欠落すること(例;出現頻度3,362の"無農薬"は、"無":"農薬"と分割され否定概念が欠落)、形容詞の対象が不明確であること("安い" は値段が対象だが"高い"は値段以外も対象)により、レビューからの概念抽出精度が低くなる。
  • 1.の問題を解決する、自然言語処理済みテキストからの概念抽出工程を提案する(図)。
    • 1)解析対象に合致した参照辞書を構築して形態素解析を行う。参照辞書には語の分割精度が低い品種名などを中心に収録する。
    • 2)構文解析後、動詞"する"は、その直前に出現する名詞と一語に集約し、具体的動作を 示す動詞に変換する。
    • 3)否定概念の欠落を防ぐため、助動詞"ぬ"、"無"などの接頭辞、接尾辞"ない"について語の変換、集約処理をする。特に接頭辞"無"は否定概念欠落の影響が大きいため(例;"農薬"の出現頻度は1,033、"無農薬"の出現頻度3,362)集約処理が重要である。
    • 4)同義語を正規化する。特に漢字・平仮名・カタカナ、およびそれらの混合で表記される作物の名称は、正規化が重要である。
    • 5)解析対象に合わせて係り受け関係の語を抽出する。

成果の活用面・留意点

  • インターネット通販大手楽天市場の3年間(2010年1月1日~2012年12月31日)の「野菜・キノコ」ジャンル商品レビュー293,586件を利用した結果である。
  • 意味を持つ最小単位:形態素列にテキストを分割する形態素解析器にはJUMANを、分割した単語を句や節にまとめ、それらの間の文法的関係を同定する構文解析器にはJUMANの出力を前提とするKNPを利用した。

具体的データ

図1

その他

  • 中課題名:先進的統計モデリング
  • 中課題整理番号:160c0
  • 予算区分:交付金、科研費
  • 研究期間:2011~2015年度
  • 研究担当者:竹崎あかね、木浦卓治、法隆大輔、林武司
  • 発表論文等:
    1)竹崎ら(2016)農業情報研究、25(1):47-58
    2)竹崎ら(2016)農業情報研究、25(3)、印刷中