物理ノート

サイエンス社「数理科学」SGCライブラリの読書メモ

新版 情報幾何学の新展開

SGCライブラリ - 154

新版 情報幾何学の新展開

甘利俊一 著

2019年11月25日 新版発行

多様体とダイバージェンス関数

 {n} 次元多様体  {S = \{p(x,\xi)\}}

  • 確率変数  {x}
  • 確率密度関数  {p(x,\xi)}
  •  {n} 次元パラメータ  {\xi}

ダイバージェンス: {D[P:Q]}

  •  {D[P:Q] \ge 0}
  •  {P = Q} のとき、このときに限り、 {D[P:Q] = 0}
  •  {D[\xi:\xi + d\xi]} のテイラー展開:
    •  {\displaystyle D[\xi:\xi + d\xi] = \frac{1}{2}\sum g_{ijj}(\xi)d\xi_id\xi_j}
    •  {G(\xi) = (g_{ij}(\xi))} は正定値行列

凸関数の導くダイバージェンスと双対平坦構造

多様体  {M} 上に微分可能な凸関数  {\psi(\xi)} が与えられたとする。

 {\xi^{\prime}} 点で  {z = \psi(\xi^{\prime})} に接する接超平面の方程式:

 {z = \psi(\xi^{\prime}) + \nabla\psi(\xi^{\prime})\cdot(\xi - \xi^{\prime})}

関数  {\psi(\xi)} {\xi} 点で接平面のどのくらい上にあるかを計る。

 {D[\xi:\xi^{\prime}] = \psi(\xi) - \psi(\xi^{\prime}) - \nabla\psi(\xi^{\prime})\cdot(\xi - \xi^{\prime})}

 {D[\xi:\xi^{\prime}]} {\xi} から  {\xi^{\prime}} へのダイバージェンスと呼ぶ。

Legendre 変換:

  •  {\xi^{\ast} = \nabla\psi(\xi)}
  •  {\displaystyle \psi^{\ast}(\xi^{\ast}) = \max_{\xi}\{\xi\cdot\xi^{\ast} - \psi(\xi)\}}

双対ダイバージェンス:

 {D^{\ast}[\xi^{\ast}:\xi^{\prime\ast}] = \psi^{\ast}(\xi^{\ast}) - \psi^{\ast}(\xi^{\prime\ast}) - \nabla\psi^{\ast}(\xi^{\prime\ast})\cdot(\xi^{\ast} - \xi^{\prime\ast}) = D[\xi^{\prime}:\xi]}

 {\xi^{\ast}} および  {\psi^{\ast}} {\xi} および  {\psi} と双対的な関係にある。

 {D[P:Q] = \psi(\theta_P) + \psi^{\ast}(\theta_Q^{\ast}) - \theta_P\cdot\theta_Q^{\ast}}

  •  {\psi(\theta)} が凸となるようなアファイン座標  {\theta}
  • 2点  {P,\,Q} のアファイン座標  {\theta_P,\,\theta_Q}
  • 双対アファイン座標  {\theta_P^{\ast},\,\theta_Q^{\ast}}

双対平坦多様体

  • アファイン座標
    • 測地線  {\theta(t) = \mathbf{a}t + \mathbf{b}}
    •  {\theta = (\theta^1,\dots,\theta^n)}
    • 平坦な部分空間: {M} の部分空間  {S} {A\theta + \mathbf{b} = 0} で定義される。
    • アファイン座標系  {\theta} を用いた自然基底  {\mathbf{e}_i}
  • 双対アファイン座標
    • 双対測地線  {\theta^{\ast}(t) = \mathbf{a}t + \mathbf{b}}
    •  {\theta^{\ast} = (\theta_1^{\ast},\dots,\theta_n^{\ast})}
    •  {\nabla\psi\{\theta(t)\} = \mathbf{a}t + \mathbf{b}}
    • 双対平坦な部分空間:部分空間  {S^{\ast}} {A\theta^{\ast} + \mathbf{b} = 0} で定義される。
    • 双対座標系  {\theta^{\ast}} の自然基底  {\mathbf{e}^{\ast i}}

2つの双対基底系は双直交系である:

 {\langle e_i,e_j^{\ast}\rangle = \delta_{ij}}

拡張ピタゴラスの定理

3点  {P,\,Q,\,R} を考える。

  • 拡張ピタゴラスの定理
    •  {P} {Q} を結ぶ双対測地線が  {Q} {R} を結ぶ測地線と直交するとき  {D[P:R] = D[P:Q] + D[Q:R]}
  • 双対ピタゴラスの定理
    •  {P} {Q} を結ぶ測地線が  {Q} {R} を結ぶ双対測地線と直交するとき  {D^{\ast}[P:R] = D^{\ast}[P:Q] + D^{\ast}[Q:R]}

拡張射影定理

双対平坦空間で、一点  {P} とそれを含まない曲面  {S} を考える。

  •  {P} {S} への射影  {P_S} {P} {P_S} を結ぶ測地線が曲面と直交する。
  •  {P} {S} への双対射影  {P_S^{\ast}} {P_S^{\ast}} {P} を結ぶ双対測地線が曲面と直交する。

射影定理

曲面  {S} が与えられたとき、 {P} から  {S} へのダイバージェンス  {D[P:S] = \min_{R \in S}D[P:R]} を最小にする  {S} の点  {P_S} は、 {P} {S} への双対射影  {P_S^{\ast}} である。

一方、 {P} {S} への双対ダイバージェンス  {D^{\ast}[P:S] = \min_{R \in S}D[P:R]} を最小にする点  {P_S^{\ast}} は、 {P} {S} への射影  {P_S} である。

指数型分布族の双対平坦構造

指数型分布族:

 {\displaystyle p(x,\theta) = \exp\left\{\sum\theta^ik_i(x) + r(x) - \psi(\theta)\right\}}

新しいベクトル確率変数  {\mathbf{x} = (x_1,\dots,x_n)} を導入する。

 {p(\mathbf{x},\theta)d\mu(\mathbf{x}) = \exp\{\theta\cdot\mathbf{x} - \psi(\theta)\}d\mu(\mathbf{x})}

  •  {x_i = k_i(x)}
  •  {\mathbf{x}} の測度: {d\mu(\mathbf{x}) = \exp\{r(x)\}dx}

 {\theta} は分布族のなす多様体の座標系で、自然パラメータと呼ぶ。

 {\psi(\theta)} は規格化定数に対応する関数

 {\displaystyle\psi(\theta) = \log\int\exp(\theta\cdot\mathbf{x})d\mu(\mathbf{x})}

  •  {\psi(\theta)} はキュムラント生成関数(自由エネルギー)
  •  {\psi(\theta)} は凸関数

指数型分布族に伴う凸関数  {\psi(\theta)} に対応して、Legendre 変換による双対凸関数が存在する。

 {\displaystyle \varphi(\eta) = \max_{\theta}\{\theta\cdot\eta - \psi(\theta)\}}

確率分布族における不変なダイバージェンス

確率分布族、正測度族、正定値行列空間に導入する非不変な双対平坦構造

アファイン接続、共変微分、測地線

曲率と捩率

双対接続の幾何

階層構造を持つ双対平坦空間

統計的推論と情報幾何:曲指数型分布族を用いて

Neyman-Scott 問題:局外母数とセミパラメトリック統計モデル

隠れ変数のあるモデル:em と EM アルゴリズム、非忠実なモデル、Bayes 統計

機械学習の情報幾何

学習の力学と特異点:多層パーセプトロンと自然勾配学習法

深層学習の発展と統計神経力学

Wasserstein 距離の情報幾何

信号処理と最適化の情報幾何