統計モデリング6章 7章メモ

統計モデリング6章 7章 メモ

下記の書籍を参考にメモしていきます。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

 

一般化線形混合モデル(GLMM)

一般化線形混合モデル(GLMM)とは、複数の確率分布を扱うことができるモデルです。
もっと言えば、GLMに個体差や場所差の効果を組み込んだ統計モデルとも言えます。

現実のデータ解析では、シンプルなモデルを使って解析する事ができるのはまれです。
その際に、使用されるのが一般化線形混合モデル(GLMM)です。

例えば、データに個体差があて、過分散が生じると、GLMでは対応できなくなる場合などです。

一般化線形混合モデル(GLMM)の最尤推定

GLMでは、β1やβ2を最尤推定しました。
しかしGLMMでは、riを最尤推定したいのですが、そのまま行ってしまうと、フルモデルになってしまい、意味がありません。
また個体差は、下記パラメータで表現しています。
$$r_{i}$$

そこでこのような時、一つの方法として積分しちゃう方法があります。
本書で書かれている式は下記のようになります。
$$L_{i} = \int_{\infty}^{-\infty}p(y_{i}|\beta_{1},\beta_{2},r_{1}) p(r_{i}|s)dr_{i}$$

上記が行っていることは、下記で言い換えることができます。
2種類の分布を積分 = 2種類の分布を混ぜる(混合)
この積分をすることで、「重み付け」をおこなうことができているのです。

一般化線形混合モデル(GLMM)は必要なのか?

上記では、過分散かどうかを調べて、GLMMを適用する判断をしましたが、本当に確認すべき事項は、他にあります。

【確認すべきこと】
①同じ個体・場所などから何度もサンプリングしているか
②個体差や場所差が識別できてしまうようなデータのとり方をしているか

例を使って、取るべき対応をまとめてみます。
①個体(個体)が反復で、場所(植木鉢)も反復 → GLM
②個体(個体)が疑似反復で、場所(植木鉢)が反復 → GLMM
③個体(個体)が反復で、場所(植木鉢)が疑似反復 → GLMM
④個体(個体)が疑似反復で、場所(植木鉢)も疑似反復 → 階層ベイズモデルとMCMC

つまりデータをどのように集めるかも重要になってくるのです。

参考になった記事

統計モデリング入門 筑波大 (大塚) 集中講義 [07] 一般化線形混合モデル (GLMM)
データ解析のための勉強会第7章