SGCライブラリ - 37

情報理論の基礎

情報と学習の直観的理解のために

村田昇　著

2005年1月25日　初版発行

情報理論の基礎事項

ある事象の情報量は、その事象の起こる確率 ${p}$ の関数 ${f(p)}$ であるとする。

情報量の持つべき性質：

非負性： ${f(p) \ge 0}$
単調減少性： ${\partial f(p)/\partial p \lt 0}$
加法性： ${f(pq) = f(p) + f(q)}$
連続性： ${f(p)}$ は連続な関数

${f(p) = a\log(p)\quad (a \lt 0)}$

情報幾何の考え方

確率変数 ${X}$ の確率法則の候補となるあらゆる確率分布 ${P}$ を集めた空間を ${\mathcal{S}}$ と書く。

パラメトリックモデル：空間 ${\mathcal{S}}$ の中でパラメタ ${\theta}$ で記述される確率分布 ${P_{\theta}}$
モデル多様体 ${\mathcal{M}}$ ：集合 ${\{P_{\theta}\}}$ が構成する ${\mathcal{S}}$ の部分空間

観測データから計算された統計量に基づいて、そのデータを発生する尤もらしい分布を空間 ${\mathcal{S}}$ の中の一点と対応づける。（経験分布）

KL-情報量

最も近い点を求めるために、空間内にある二点間の距離を定義する：

離散分布の場合： $D(P,Q) = \sum_{i=1}^kP_i\log\frac{P_i}{Q_i}$
連続分布の場合： $D(P,Q) = \int p(x)\log\frac{p(x)}{q(x)}d\mu(x)$

三つの分布 ${P,\,Q,\,R}$ に関する KL-情報量：

離散分布の場合： $D(P,Q) - D(P,R) - D(R,Q) = \sum_{i=1}^k(P_i - R_i)(\log R_i - \log Q_i)$
連続分布の場合： $D(P,Q) - D(P,R) - D(R,Q) = \int(p(x) - r(x))(\log r(x) - \log q(x))d\mu(x)$

ピタゴラスの定理

離散分布の場合： ${P - R}$ と ${\log R - \log Q}$

連続分布の場合： ${p(x) - r(x)}$ と ${\log r(x) - \log q(x)}$

をそれぞれ ${\mathcal{S}}$ の中のベクトルと考える。

二つのベクトルが直行しているとき、以下が成り立つ：

${D(P,Q) = D(P,R) + D(R,Q)}$

m-表現（混合表現）： ${P}$ あるいは ${p(x)}$
e-表現（指数表現）： ${\log P}$ あるいは ${\log p(x)}$

「曲がった」空間 ${\mathcal{S}}$ の中の「まっすぐ」な線を考える。

m-測地線は二つの分布 ${P}$ と ${Q}$ の内分点の集合：

${\{R(t)\,|\,R(X;t) = (1 - t) \cdot P(X) + t \cdot Q(X),\quad 0 \le t \le t\}}$

e-測地線は二つの確率分布 ${P}$ と ${Q}$ の対数の意味での内分点の集合：

${\{R(t)\,|\,\log R(X;t) = (1 - t) \cdot \log P(X) + t \cdot \log Q(X) - \phi(t),\quad 0 \le t \le t\}}$

離散分布の場合： $\phi(t) = \log\sum_iP(X = i)^{1 - t}Q(X = i)^t$
連続分布の場合： $\phi(t) = \log\int p(x)^{1 - t}q(x)^tdx$

同様に「平らな」面を考える。

$\mathcal{M}_m = \left\{R(\mathbf{t}) \,\middle|\, R(X;\mathbf{t}) = \sum_{i=1}^nt_iP_i(X),\quad t_i \ge 0,\quad \sum_{i=1}^nt_i = 1\right\}$

$\mathcal{M}_e = \left\{R(\mathbf{t}) \,\middle|\, \log R(X;\mathbf{t}) = \sum_{i=1}^nt_i\log P_i(X) - \phi(\mathbf{t}),\quad t_i \ge 0,\quad \sum_{i=1}^nt_i = 1\right\}$

「平ら」な部分集合をそれぞれ m-平坦、e-平坦な部分空間と呼ぶ。

直交葉層化

平坦な部分空間を用いて、空間 ${\mathcal{S}}$ を細かく分割する。

e-平坦である適当な部分空間 ${\mathcal{M}_e}$ を取る。
${\mathcal{M}_e}$ の中に一点 ${Q}$ を取り、 ${Q}$ を通る m-平坦な部分空間 ${\mathcal{F}(Q)}$ を考える。
${\mathcal{M}_e}$ の中で ${Q}$ を通る任意の e-測地線と、 ${\mathcal{F}(Q)}$ の中で ${Q}$ を通る任意の m-測地線が直交するように、部分空間 ${\mathcal{F}(Q)}$ を取る。
${\{\mathcal{F}(Q);\,Q \in \mathcal{M}_e\}}$ は、沢山の m-平坦の薄い板を、e-平坦な棒で串刺しにしたような形で ${\mathcal{S}}$ を覆い尽くす。

${P}$ を通る m-平坦な集合と ${\mathcal{M}_e}$ との交わりを ${R}$ とする。

${D(P,Q) = D(P,R) + D(R,Q) \ge D(P,R),\quad \forall Q \in \mathcal{M}_e}$

m-射影：空間の一点から降ろした m-測地線が、e-平坦な部分空間と直交するように射影の足を決める。
- $R = \arg\min_{Q \in \mathcal{M}}D(P,Q)$
e-射影：空間の一点から降ろした e-測地線が、m-平坦な部分空間と直交するように射影の足を決める。
- $R = \arg\min_{Q \in \mathcal{M}}D(Q,P)$

最尤推定は、経験分布 ${P}$ とモデル ${Q}$ の間の KL-情報量 ${D(P,Q)}$ を ${Q}$ に関して最小にしているので、m-射影である。

物理ノート

サイエンス社「数理科学」SGCライブラリの読書メモ

情報理論の基礎

情報理論の基礎事項

情報幾何の考え方

符号化と種々の情報量

モデル選択

混合モデルとアルゴリズムの幾何学的理解