物理ノート

サイエンス社「数理科学」SGCライブラリの読書メモ

情報理論の基礎

SGCライブラリ - 37

情報理論の基礎

情報と学習の直観的理解のために

村田昇 著

2005年1月25日 初版発行

情報理論の基礎事項

ある事象の情報量は、その事象の起こる確率  {p} の関数  {f(p)} であるとする。

情報量の持つべき性質:

  • 非負性: {f(p) \ge 0}
  • 単調減少性: {\partial f(p)/\partial p \lt 0}
  • 加法性: {f(pq) = f(p) + f(q)}
  • 連続性: {f(p)} は連続な関数

 {f(p) = a\log(p)\quad (a \lt 0)}

情報幾何の考え方

確率変数  {X} の確率法則の候補となるあらゆる確率分布  {P} を集めた空間を  {\mathcal{S}} と書く。

  • パラメトリックモデル:空間  {\mathcal{S}} の中でパラメタ  {\theta} で記述される確率分布  {P_{\theta}}
  • モデル多様体  {\mathcal{M}}:集合  {\{P_{\theta}\}} が構成する  {\mathcal{S}} の部分空間

観測データから計算された統計量に基づいて、そのデータを発生する尤もらしい分布を空間  {\mathcal{S}} の中の一点と対応づける。(経験分布)

KL-情報量

最も近い点を求めるために、空間内にある二点間の距離を定義する:

  • 離散分布の場合: {\displaystyle D(P,Q) = \sum_{i=1}^kP_i\log\frac{P_i}{Q_i}}
  • 連続分布の場合: {\displaystyle D(P,Q) = \int p(x)\log\frac{p(x)}{q(x)}d\mu(x)}

三つの分布  {P,\,Q,\,R} に関する KL-情報量:

  • 離散分布の場合: {\displaystyle D(P,Q) - D(P,R) - D(R,Q) = \sum_{i=1}^k(P_i - R_i)(\log R_i - \log Q_i)}
  • 連続分布の場合: {\displaystyle D(P,Q) - D(P,R) - D(R,Q) = \int(p(x) - r(x))(\log r(x) - \log q(x))d\mu(x)}

ピタゴラスの定理

  • 離散分布の場合: {P - R} {\log R - \log Q}
  • 連続分布の場合: {p(x) - r(x)} {\log r(x) - \log q(x)}

をそれぞれ  {\mathcal{S}} の中のベクトルと考える。

二つのベクトルが直行しているとき、以下が成り立つ:

 {D(P,Q) = D(P,R) + D(R,Q)}

  • m-表現(混合表現): {P} あるいは  {p(x)}
  • e-表現(指数表現): {\log P} あるいは  {\log p(x)}

「曲がった」空間  {\mathcal{S}} の中の「まっすぐ」な線を考える。

m-測地線は二つの分布  {P} {Q} の内分点の集合:

 {\{R(t)\,|\,R(X;t) = (1 - t) \cdot P(X) + t \cdot Q(X),\quad 0 \le t \le t\}}

e-測地線は二つの確率分布  {P} {Q} の対数の意味での内分点の集合:

 {\{R(t)\,|\,\log R(X;t) = (1 - t) \cdot \log P(X) + t \cdot \log Q(X) - \phi(t),\quad 0 \le t \le t\}}

  • 離散分布の場合: {\displaystyle \phi(t) = \log\sum_iP(X = i)^{1 - t}Q(X = i)^t}
  • 連続分布の場合: {\displaystyle \phi(t) = \log\int p(x)^{1 - t}q(x)^tdx}

同様に「平らな」面を考える。

 {\displaystyle \mathcal{M}_m = \left\{R(\mathbf{t}) \,\middle|\, R(X;\mathbf{t}) = \sum_{i=1}^nt_iP_i(X),\quad t_i \ge 0,\quad \sum_{i=1}^nt_i = 1\right\}}

 {\displaystyle \mathcal{M}_e = \left\{R(\mathbf{t}) \,\middle|\, \log R(X;\mathbf{t}) = \sum_{i=1}^nt_i\log P_i(X) - \phi(\mathbf{t}),\quad t_i \ge 0,\quad \sum_{i=1}^nt_i = 1\right\}}

「平ら」な部分集合をそれぞれ m-平坦、e-平坦な部分空間と呼ぶ。

直交葉層化

平坦な部分空間を用いて、空間  {\mathcal{S}} を細かく分割する。

  • e-平坦である適当な部分空間  {\mathcal{M}_e} を取る。
  •  {\mathcal{M}_e} の中に一点  {Q} を取り、 {Q} を通る m-平坦な部分空間  {\mathcal{F}(Q)} を考える。
  •  {\mathcal{M}_e} の中で  {Q} を通る任意の e-測地線と、 {\mathcal{F}(Q)} の中で  {Q} を通る任意の m-測地線が直交するように、部分空間  {\mathcal{F}(Q)} を取る。
  •  {\{\mathcal{F}(Q);\,Q \in \mathcal{M}_e\}} は、沢山の m-平坦の薄い板を、e-平坦な棒で串刺しにしたような形で  {\mathcal{S}} を覆い尽くす。

 {P} を通る m-平坦な集合と  {\mathcal{M}_e} との交わりを  {R} とする。

 {D(P,Q) = D(P,R) + D(R,Q) \ge D(P,R),\quad \forall Q \in \mathcal{M}_e}

  • m-射影:空間  {\mathcal{S}} の一点  {P} から降ろした m-測地線が、e-平坦な部分空間と直交するように射影の足  {R} を決める。
    •  {\displaystyle R = \arg\min_{Q \in \mathcal{M}}D(P,Q)}
  • e-射影:空間  {\mathcal{S}} の一点  {P} から降ろした e-測地線が、m-平坦な部分空間と直交するように射影の足  {R} を決める。
    •  {\displaystyle R = \arg\min_{Q \in \mathcal{M}}D(Q,P)}

最尤推定は、経験分布  {P} とモデル  {Q} の間の KL-情報量  {D(P,Q)} {Q} に関して最小にしているので、m-射影である。

符号化と種々の情報量

モデル選択

混合モデルとアルゴリズムの幾何学的理解