遺伝子発現プロファイルの類似度としての相互情報量の有効性

要約

遺伝子の機能や関与する代謝プロセスの類似性という観点から評価すると、多細胞生物のデータを対象とした場合には、遺伝子の発現プロファイルの類似度を示す尺度として相互情報量が有効であり、相関係数に代わる尺度として提案できる。

  • キーワード:遺伝子発現、類似度、相関係数、相互情報量、ジーンオントロジー
  • 担当:IT高度生産システム・先進的統計モデリング
  • 代表連絡先:電話 029-838-8481
  • 研究所名:中央農業総合研究センター・情報利用研究領域
  • 分類:研究成果情報

背景・ねらい

マイクロアレイやRNA-seqなどの技術を利用することによって、ゲノム全体にわたる遺伝子発現の情報が大量に得られる状況になった。こうしたトランスクリプトームの情報を解析する主要な手段として、遺伝子のクラスタリングや遺伝子ネットワークの推定が行われることが多い。そのような解析を行うためには、初めに遺伝子同士での発現プロファイルの類似度を評価する必要がある。発現プロファイルとは、複数の条件のもとでの遺伝子の発現量のパターンであり、これが似ている遺伝子どうしは類似していると判断される。
このような場面で類似度の尺度として多く用いられているのは積率相関係数であるが、他の尺度を利用することでクラスタリングや遺伝子ネットワークの推定の結果を改善できる可能性がある。そうした可能性のある尺度として相互情報量に注目し、その有効性を検討する。

成果の内容・特徴

  • 相互情報量は、図1に示したように線形な関係以外も検出できる尺度である。相互情報量の計算方法は複数提案されているが、それらの中から、等幅のbinningによる方法とk-近傍法(Kraskov et al. 2004)の2種類を用いた。
  • 類似度の尺度として適切かどうかを評価のための手段として、遺伝子に付与されたアノテーション(遺伝子の機能や関与する代謝プロセスについての説明)を利用した。アノテーションはジーンオントロジーという概念の体系に従って付与されており、体系の中での位置付けの近さという観点からアノテーションの類似度を評価できる。
  • アノテーション間の類似度と発現プロファイル間の類似度の整合性を知るために両者の間での順位相関係数を計算した。両者に整合性があれば、順位相関係数が高くなる(図2)。これによって、遺伝子間の機能や関与する代謝プロセスの類似性という観点から、発現プロファイルの尺度が妥当かどうかを評価することができる。
  • 12件の発現データを対象に積率相関係数と相互情報量を尺度として用いて、どちらが順位相関係数が高くなるかを比較した。結果は表1に示す通りで、多細胞生物のデータでは相互情報量が積率相関係数よりも良いという傾向がある。このことから、多細胞生物のデータを対象とした場合には、遺伝子の発現プロファイルの類似度を示す尺度として相互情報量が有効であり、相関係数に代わる尺度として提案できる。

成果の活用面・留意点

  • マイクロアレイやRNA-seqによる実験結果を元に遺伝子のクラスタリングや遺伝子ネットワークの推定を行う際、積率相関係数と置き換える形で相互情報量を利用することを想定している。
  • 相互情報量の計算は統計パッケージのライブラリなどにも用意されているが、k-近傍法は実装されていないことが多いため、要請に応じてプログラムを提供できる。
  • 相互情報量は0から1までの範囲の値をとる積率相関係数と異なり、1より大きい値をとることもあるので取り扱いに留意する必要がある。

具体的データ

図1~2,表1

その他

  • 中課題名:農業生産性向上に寄与する先進的統計モデリング手法の開発
  • 中課題整理番号:160c0
  • 予算区分:交付金
  • 研究期間:2011~2014年度
  • 研究担当者:法隆大輔、林武司
  • 発表論文等:法隆、林(2013)計量生物学、33(2):125-143