汎用編集ツール利用による英文キーワードの簡便抽出法

※アーカイブの成果情報は、発表されてから年数が経っており、情報が古くなっております。
同一分野の研究については、なるべく新しい情報を検索ください。

要約

テキストエディタ、ソートプログラムなどの汎用編集ツールを利用して英文報告からキーワードを抽出する簡便な手順・方法を作成した。キーワード索引の作成作業が省力化できる。

  • 四国農業試験場・企画連絡室・研技情報科
  • 連絡先:0877-62-0800
  • 部会名:営農
  • 専門:情報処理
  • 対象:果樹類
  • 分類:研究

背景・ねらい

最近では英語論文に限らずキーワードを列拳することが論文作成者の義務となっている。しかしながらそのようにキーワードが指定されていない既往の英語論文をデータベース化するには、あらためてキーワードを抽出する必要がある。どの単語をキーワードとするかは、専門分野により異なるので、前置詞、接続詞や常用単語を抜き出して、それ以外の単語をキーワード候補とするような手順をとれば、分野の専門家でなくても抽出作業が可能となる。そこで誰でも入手可能で汎用的なストリームエディタ等を組み合わせて用いることによって、英語論文から常用単語等を除いたキーワード候補単語を抽出する作業を簡便化する手順・方法を開発し公開する。

成果の内容・特徴

  • 前処理1-空白の挿入
    対象ファイルの改行記号の直前・直後、+-;:/などの記号文字の前後に空白文字を挿入する。これには編集用のエディターの置き換え機能を用いる。
  • 前処理2-1行1単語のファイルを作成
    1)連続した空白文字列を、空白1文字とするようにエディタで処理する。
    2)空白文字を改行記号に置き換える。
    3)ピリオド、カンマを除去する。
    4)ソートツールで並べ変える。
  • 前処理3-重複する単語行を1行化し、併せて置き換え命令を作成する。
    フィルタープログラム(BACIKで作成)を用いて、複数行にまたがる同一単語を1行ずつに整理する。同じプログラムでSED(ストリームエディタ)用の置き換え命令スクリプトプログラムを作成する。
    このスクリプトには、キーワードとしない単語を対象のファイルから除去する命令が書かれていて、結果としてキーワードのみを含む結果ファイルを作成することができる。
  • キーワード候補以外の単語の選択
    3.で作成したスクリプトプログラムから、抽出すべきキーワード候補単語を含むプログラム行を削除する。残された常用語リストは別な論文にも適用できる。
  • キーワード抽出
    1)1.で作成したファイルのカンマ、ピリオドの直後に、改行記号を挿入する。
    2)3.で作成したSEDファイルのスクリプトプログラムを用いて、キーワード候補とな る単語を抽出する。
  • 抽出単語の整理
    キーワード抽出結果ファイルについて、2.と同様の前処理を行い、さらに、3.で用いたと同様のフィルタープログラムとソートプログラムを用いて、キーワード候補単語の出現頻度をカウントするとともに、重複単語を整理し、ABC順に並べ替える。
  • 抽出単語リストの修正
    抽出結果ファイル、またはスクリプトプログラムを点検して、キーワードに加えるべき単語、キーワードとしない単語を加除してスクリプトプログラムを修正することで、抽出するキーワード単語を変更することができる。
    削除リストにない単語は、結果ファイルに残るが、それをさらに編集することによってキーワード候補単語を選択できる。

成果の活用面・留意点

本簡便法では、エデイタを使用する作業、特にキーワード候補単語の選択作業では、分野の専門家による手作業がのこる。常用語リストは繰り返し使用できる。ソートプログラムの仕様には、大文字・小文字の並べ替えについて、仕様が異なるものがあり実際の使用に当たり注意する必要がある。

具体的データ

(図) キーワード抽出手順

 

その他

  • 研究課題名:四国農業研究技術情報データベースシステムの開発
  • 予算区分:経常
  • 研究期間:平成7~9年
  • 研究担当者:外山隆夫
  • 発表論文等:農林水産情報研究会