情報理論の基礎
SGCライブラリ - 37
情報理論の基礎
情報と学習の直観的理解のために
村田昇 著
2005年1月25日 初版発行
情報理論の基礎事項
ある事象の情報量は、その事象の起こる確率 の関数 であるとする。
情報量の持つべき性質:
- 非負性:
- 単調減少性:
- 加法性:
- 連続性: は連続な関数
情報幾何の考え方
確率変数 の確率法則の候補となるあらゆる確率分布 を集めた空間を と書く。
- パラメトリックモデル:空間 の中でパラメタ で記述される確率分布
- モデル多様体 :集合 が構成する の部分空間
観測データから計算された統計量に基づいて、そのデータを発生する尤もらしい分布を空間 の中の一点と対応づける。(経験分布)
KL-情報量
最も近い点を求めるために、空間内にある二点間の距離を定義する:
- 離散分布の場合:
- 連続分布の場合:
三つの分布 に関する KL-情報量:
- 離散分布の場合:
- 連続分布の場合:
ピタゴラスの定理
- 離散分布の場合: と
- 連続分布の場合: と
をそれぞれ の中のベクトルと考える。
二つのベクトルが直行しているとき、以下が成り立つ:
- m-表現(混合表現): あるいは
- e-表現(指数表現): あるいは
「曲がった」空間 の中の「まっすぐ」な線を考える。
m-測地線は二つの分布 と の内分点の集合:
e-測地線は二つの確率分布 と の対数の意味での内分点の集合:
- 離散分布の場合:
- 連続分布の場合:
同様に「平らな」面を考える。
「平ら」な部分集合をそれぞれ m-平坦、e-平坦な部分空間と呼ぶ。
直交葉層化
平坦な部分空間を用いて、空間 を細かく分割する。
- e-平坦である適当な部分空間 を取る。
- の中に一点 を取り、 を通る m-平坦な部分空間 を考える。
- の中で を通る任意の e-測地線と、 の中で を通る任意の m-測地線が直交するように、部分空間 を取る。
- は、沢山の m-平坦の薄い板を、e-平坦な棒で串刺しにしたような形で を覆い尽くす。
を通る m-平坦な集合と との交わりを とする。
- m-射影:空間 の一点 から降ろした m-測地線が、e-平坦な部分空間と直交するように射影の足 を決める。
- e-射影:空間 の一点 から降ろした e-測地線が、m-平坦な部分空間と直交するように射影の足 を決める。
最尤推定は、経験分布 とモデル の間の KL-情報量 を に関して最小にしているので、m-射影である。