統計モデリング3章 4章 5章メモ

統計モデリング3章 4章 5章メモ

下記の書籍を参考にメモしていきます。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)

 

そもそも統計モデルとは?

統計モデリング

観測データを統計学の手法を使って、理解しようとする枠組みです。

【目的】
自然の裏側にある仕組みを理解したい

【流れ】
①「自然が持つ情報」から野外調査などを経て観測データを取得する
統計モデリングを使用し、推定結果を得る

 

確率分布の選び方

①データのばらつきに対して、何かしらのモデルをあてはめる(仮定)
②パラメータの値を求める(推定)

上記の流れの中で①を決定するためには、どのように決定すればよいのでしょうか?
下記の質問を行い、その答えによってモデルを選択します。

①説明したい量は、離散?連続? 
②説明したい量の範囲?
③説明したい量の標本分散と標本平均の関係?

ポアソン分布

・離散値
・ゼロ以上の範囲、上限特になし
・平均≒分散

二項分布

・離散値
・ゼロ以上で有限の範囲(0, 1, 2, …N)
・分散は平均の関数

正規分布

・連続地
・無限(-∞, +∞)
・分散と平均は無関係

ガンマ分布

・連続地
・0, +∞
・分散は平均の関数

 

なんでも正規分布でよいの?

結論、よくない。

【理由】
もし本書に書かれているカウントデータを正規分布に当てはめた場合、
平均値がマイナスになったり、連続的な値になっていなかったりといろいろおかしなところが出てきます。

 

モデル選択

モデル選択とは、複数の統計モデルから、なんらかの意味で「良い」モデルを選ぶことを言います。

じゃあどうやってモデルを選ぶんだろうという話になる。
一般的にモデル選択する際は、「モデルの当てはまりの良さ」を重視しがちです。
しかし、複雑なモデルになるほど、モデルは当てはめることができるので、これはあまり良い傾向とは言えません。

そこで登場するのが、「AICモデル」です。
これを使用するメリットとしては、予測の良さを重視することができます。
※AICモデルは、「当てはまりの良いモデル」を選ぶわけではなく、「良い予測を行うモデル」であることを忘れてはいけません。

 

用語の確認

応答変数

現象の結果として観察されるデータのこと。

説明変数

原因のデータのこと。
1-5. 説明変数と目的変数

確率分布

データの「ばらつき」を表現するもの。

最尤推定

パラメータ推定の方法の一つ。