分散の推定量は最尤分散と不偏分散だけではない。もう一つある。

要約

AIC(赤池の情報量基準)のうち、誤差が正規分布に従う場合のためのものとして広く利用されているものは、分散の最適化が行われていないため、正確な結果を与えない。そこで、分散を可変にして最適化すると、得られるAICは従来のものとは異なる。これを「究極のAIC」と呼ぶ。このときの分散は、最尤分散とも不偏分散とも異なる。これを「第三の分散」と名付ける。

  • キーワード:AIC、正規分布、第三の分散、分散、モデル選択
  • 担当:IT高度生産システム・先進的統計モデリング
  • 代表連絡先:電話 029-838-8481
  • 研究所名:中央農業総合研究センター・情報利用研究領域
  • 分類:研究成果情報

背景・ねらい

優れた回帰式や数理モデルを作成するために、モデル選択基準が重要な役割を果たす。そうしたモデル選択基準の一つにAIC(赤池の情報量基準)がある。誤差が正規分布をしているときは、AICcAICよりも精度の高い統計量になる。誤差が正規分布をしているときのAICAICc は誤差分散として最尤分散を用いる。しかし、誤差分散としてその他のものを用いることも考えるべきである。

成果の内容・特徴

  • 従来のAICc (将来のデータに照らした対数尤度の(-2)倍の期待値)は以下である
    数式(a)
    ここで、nはデータ数で、qは重回帰式の予測変数の数であり、y*は将来のデータを意味する。RSS は残差2乗和である。AICcは、分散として以下の最尤分散を使うことで得られる。
    数式(b)
    分散として他の値を使うことが考えられるので、分散の推定量を以下のように可変にする。
    数式(c)
    すると、AICcが以下の式に替わる。
    数式(d)
  • この式をαについて微分すると、以下のときに最小になる。
    数式(e)
    この値を式(c)に代入して得られる分散は最尤分散とも不偏分散とも異なるので「第三の分散」と名付ける。分散の推定量の発見は不偏分散が発見されて以来のことなので、約百年ぶりである。
  • データ数(n)の値が大きく、0次式のあてはめ(q=0、正規分布のあてはめ)のとき、以下が得られる。
    数式(f)
  • 式(e)を式(d)に代入すると、以下の「究極のAIC」が得られる。
    数式(g)
  • 0次式のあてはめ(q=0、正規分布のあてはめ)において、αの値と将来のデータに照らした対数尤度の(-2)倍の関係を調べた結果(図1)、αが4の付近が最小になっている。目的変数が2個の予測変数の関数になっているシミュレーション・データ(10個)を使い、目的変数の値には寄与しない1個の予測変数を予測変数として加えたときの変数選択を、AICAICc「究極のAIC」の何れかを用いて、500回行った結果が、図2である。「究極のAIC」がAICAICcの中間の特性を持ち、「究極のAIC」が正しい結果を与えることが一番多いことが分かる。

成果の活用面・留意点

  • 害虫の発生予察、リモートセンシング画像の解析などでもAICAICcが広く使われているので、今後は徐々に「究極のAIC」に置き換わると予想される。
  • 不偏分散は検定を中心にする統計計算において利用され、「第三の分散」は予測モデルを中心とする統計計算に利用されると考えられる。
  • RやSASなどの統計計算ソフトウエアにおいても、徐々に「究極のAIC」と「第三の分散」が浸透することが見込まれる。

具体的データ

図1 正規分布のあてはめにおけるαとAICcaの関係図2 シミュレーション・データによる予測変数の数の選択の結果

(竹澤邦夫)

その他

  • 中課題名:農業生産性向上に寄与する先進的統計モデリング手法の開発
  • 中課題番号:160c0
  • 予算区分:交付金
  • 研究期間:2011年度
  • 研究担当者:竹澤邦夫
  • 発表論文等:竹澤邦夫(2011)応用統計学、40(2): 81-86