SGCライブラリ - 37
情報理論の基礎
情報と学習の直観的理解のために
村田昇 著
2005年1月25日 初版発行
情報理論の基礎事項
ある事象の情報量は、その事象の起こる確率 の関数
であるとする。
情報量の持つべき性質:
- 非負性:
- 単調減少性:
- 加法性:
- 連続性:
は連続な関数
情報幾何の考え方
確率変数 の確率法則の候補となるあらゆる確率分布
を集めた空間を
と書く。
- パラメトリックモデル:空間
の中でパラメタ
で記述される確率分布
- モデル多様体
:集合
が構成する
の部分空間
観測データから計算された統計量に基づいて、そのデータを発生する尤もらしい分布を空間 の中の一点と対応づける。(経験分布)
KL-情報量
最も近い点を求めるために、空間内にある二点間の距離を定義する:
- 離散分布の場合:
- 連続分布の場合:
三つの分布 に関する KL-情報量:
- 離散分布の場合:
- 連続分布の場合:
ピタゴラスの定理
- 離散分布の場合:
と
- 連続分布の場合:
と
をそれぞれ
の中のベクトルと考える。
二つのベクトルが直行しているとき、以下が成り立つ:
- m-表現(混合表現):
あるいは
- e-表現(指数表現):
あるいは
「曲がった」空間 の中の「まっすぐ」な線を考える。
m-測地線は二つの分布 と
の内分点の集合:
e-測地線は二つの確率分布 と
の対数の意味での内分点の集合:
- 離散分布の場合:
- 連続分布の場合:
同様に「平らな」面を考える。
「平ら」な部分集合をそれぞれ m-平坦、e-平坦な部分空間と呼ぶ。
直交葉層化
平坦な部分空間を用いて、空間 を細かく分割する。
- e-平坦である適当な部分空間
を取る。
の中に一点
を取り、
を通る m-平坦な部分空間
を考える。
の中で
を通る任意の e-測地線と、
の中で
を通る任意の m-測地線が直交するように、部分空間
を取る。
は、沢山の m-平坦の薄い板を、e-平坦な棒で串刺しにしたような形で
を覆い尽くす。
を通る m-平坦な集合と
との交わりを
とする。
- m-射影:空間
の一点
から降ろした m-測地線が、e-平坦な部分空間と直交するように射影の足
を決める。
- e-射影:空間
の一点
から降ろした e-測地線が、m-平坦な部分空間と直交するように射影の足
を決める。
最尤推定は、経験分布 とモデル
の間の KL-情報量
を
に関して最小にしているので、m-射影である。