LDAでは何故ディリクレ分布を仮定するのか

LDAについて勉強してみた結果の雑記。間違っている可能性もあるので注意されたし。

LDAにおける文書モデル

LDA(Latent Dirichlet Allocation)では文書は次のようにして生成されると考える

準備
  • 文書dは高々K個のトピックzから成る
    • K面のトピックサイコロを作る
      • 各面のでかたの分布を\thetaで表す
  • V個の単語wがある
    • トピックごとに語サイコロを作る(V面サイコロをK個作る)
      • 例えば「スポーツ」トピックのサイコロでは「経済」トピックのサイコロに比べて「サッカー」の面が出やすい、などの違いがある
文書生成
  1. トピックサイコロをふってトピックを決定する
  2. 出たトピックの語サイコロを振って語を決定する
    • 文書ごとにふるサイコロの割合は違う(なぜなら\thetaが文書ごとに異なるから)
      • 例えば「スポーツ」トピックが高めの文書では「スポーツ」トピックのサイコロを多めにふる
  3. 1, 2を繰り返す
  4. 文書完成!

ディリクレ分布はどこに出てくるか?

各文書は複数のトピックから成るので、これの事前分布としてトピックの分布\thetaがディリクレ分布Dir(\alpha)に従っていると仮定する。
つまり\theta \sim Dir(\alpha)
ディリクレ分布については後述する

なぜ、ディリクレ分布なのか?

結論は「単語やトピックの選び方に対して多項分布を仮定できるから」

じゃあ、多項分布って何よ?

  • Mult(m_1,...,m_J|\bf{\mu}, \bf{N})=\left(\begin{array}N \\ m_1...m_j\end{array}\right)\prod_{j=1}^J\mu_j^m_j
  • \bf{\mu}=(\mu_1, ..., \mu_J)^T

互いに独立でJ個の状態をとれる確率変数XをN個観測したとき、jがm_j回出たとする。このとき、jが出る確率が\mu_jとするときの尤度関数は多項分布と等しい。
つまり、jの面が\mu_jの確率で出るJ面サイコロをN回ふるのと同じ。
トピックや単語はサイコロを振った結果得られる。つまり、尤度関数が多項分布になると仮定できる。

ベイズの定理

二つの確率変数 \bf{w}, \bf{D}
 P(\bf{w}|\bf{D}) = \frac{P(\bf{D}|\bf{w})P(\bf{w})}{P(\bf{D})}
ここで\bf{w}をパラメータ、\bf{D}を観測データとすると、P(\bf{w})は事前確率、P(\bf{w}|\bf{D})は事後確率と見なせる。
そして、P(\bf{D}|\bf{w})はデータ\bf{D}に対する評価であり、パラメータ\bf{w}の関数と見なせ、尤度関数と呼ばれる。

つまり
事後分布 ∝ 尤度関数 × 事前分布

それで?

先ほど述べたように、トピックサイコロや語サイコロによる選択は尤度関数が多項分布。
尤度関数と似た事前分布を選択すれば、事後分布も似た形になる。
特に、ある尤度関数に対して、事後分布の形が事前分布と同じになる場合、このような事前分布は共役性を持つという。
共役性を持つ事前分布のことを共役事前分布という。

共役事前分布がディリクレ分布とどう関係してくるの?

ディリクレ分布は多項分布に対する共役性を持っている。

ディリクレ分布

  • Dir(\bf{\mu}|\bf{\alpha})=\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)...\Gamma(\alpha_J)}\prod_{j=1}^J\mu_j^{\alpha_j-1}
  • \bf{\alpha} = (\alpha_1, ..., \alpha_J)^T,  \alpha_0 = \sum_{j=1}^J\alpha_j

αはこの分布のパラメータを与える。

事前分布をディリクレ分布とおくと

事後分布P(\bf{\mu}|\bf{D}, \bf{\alpha})
P(\bf{\mu}|\bf{D}, \bf{\alpha}) \propto Mult(\bf{m}|\bf{\mu}, \bf{N}) \times Dir(\bf{\mu}|\bf{\alpha}) \propto \prod_{j=1}^J\mu_j^{\alpha_j+m_j-1}
確率分布にするために正規化すると(ディリクレ分布の式と比較してみれば正規化は簡単にできる)
 P(\bf{\mu}|\bf{D}, \bf{\alpha})=Dir(\bf{\mu}|\bf{\alpha}+\bf{m})=\frac{\Gamma(\alpha_0+N)}{\Gamma(\alpha_1+m_1)...\Gamma(\alpha_J+m_J)}\prod_{j=1}^J\mu_j^{\alpha_j-1}
ただし、\bf{m} = (m_0, ..., m_J)^T
結局、事前分布をディリクレ分布にすると、事後分布がディリクレ分布になって簡単に表せることになる。

LDAではどうなってんの?

  1. トピックサイコロの目の出方がディリクレ分布(事前分布)
    • サイコロの試行は尤度関数が多項分布になる
    • つまり事後分布がディリクレ分布になる
  2. トピックサイコロの目の出方によって使われる語サイコロが変わるので、語サイコロの事前分布は1の事後分布に比例
    • サイコロの試行は尤度関数が多項分布
    • またまた事後分布がディリクレ分布になる
  3. 結局、全体の事後分布もディリクレ分布になる

というわけで、θがディリクレ分布に従うと仮定すると、このようなモデルが比較的簡単に数式化できる、ということなのだろうと思います。