多言語地名検索サーバGeoWiki

※アーカイブの成果情報は、発表されてから年数が経っており、情報が古くなっております。
同一分野の研究については、なるべく新しい情報を検索ください。

要約

公開されているGeoNamesとWikipediaのデータを利用して多言語で地名を検索できるGeoWikiを作成した。 GeoWikiは行政区に関する階層構造を有しており、上位の行政区も検索でき、将来的には多言語対応した地名オントロジーの生成ツールとして利用でき る。

  • キーワード:地名検索、位置検索、多言語対応地名データベース
  • 担当:中央農研・データマイニング研究チーム
  • 連絡先:電話029-838-7026、電子メールkiura@affrc.go.jp
  • 区分:共通基盤・情報研究
  • 分類:研究・参考

背景・ねらい

農業情報は主に土地に関連しており地域性が大きく、農業に関するテキスト情報は現地語で書かれていることが多い。地名は行政区な どのように他の地名との関係を有しており、タイのタラーン郡に関する情報はプーケット県に関する情報でもある。また、現地で作成されたデータには現地語で 地名が入っていることが多く、これらのデータの位置を知り他のデータと連携させるためには、多言語で地名を取り扱う必要がある。
   GeoNames(http://www.geonames.org/) は、クリエイティブコモンズによる地名データベースであり、主に英語での地名・位置情報・履歴などの情報を有している。Wikipediaはクリエイティ ブコモンズによるインターネット百科事典を構築している壮大なプロジェクトであり、各言語で作られている。そこには地名に関する情報もあり、各言語版への リンクを持っている。これらの情報を利用して、多言語対応の地名データベースを作り、多言語地名オントロジーの構築環境の基盤整備を行う。

成果の内容・特徴

  • GeoWikiは、GeoNamesのデータに定期的にアクセスして、ローカルな地名データベースを最新に保つ。
  • GeoWikiは定期的にデータベース内の地名データを利用して各言語版のWikipediaのページにアクセスする。ページ内に緯度経度情報があるGeoNamesのデータと異なっている場合には、新たに位置情報を追加して、Wikipediaとの同期を取る。
  • GeoWikiは地名の行政区に関する階層構造をWikipediaから自動的に抽出を試みデータベースに格納する。
  • これらの情報を利用してGeoWikiでは多言語で地名を検索することができるとともに、行政区の階層を示すことができ(表1)、Google Mapsに位置情報を表示することができる(図1)。
  • 行政区以外の関係も地名間に定義することができる。例えば、ある山は複数の地域に属している可能性があるが、これらも取り扱うことができる。

成果の活用面・留意点

  • 他のサービスから利用することで、地名を各言語に展開して検索する、緯度経度から地名を検索するサービスの多言語化などに応用可能である。
  • 新しい地名の関連は手動で入力するか、生成する手法を開発する必要がある。
  • 現在のところ面的データとの関連は持っていない。将来的には、地名やポイントデータを利用して、面的データと関連づけることが可能である。
  • 多言語対応の地名オントロジーの構築環境として利用可能である。

具体的データ

図1 GeoWikiで■■■■■(タラーン郡)を検索して結果をGoogle Mapsに表示該当するデータが複数あるため複数の地点が表示されている

表1 タラーン郡がもつ地名の階層データ

その他

  • 研究課題名:多様かつ不斉一なデータの融合によるデータマイニング技術の開発
  • 課題ID:222-c
  • 予算区分:基盤
  • 研究期間:2006~2007年度
  • 研究担当者:木浦卓治、孟紅岩、法隆大輔、岩田洋佳
  • 発表論文等:GeoWiki http://pc110.narc.affrc.go.jp/geowiki/