Youtube 慶應大学講義 応用確率論 第四回 平均,分散の公式 多次元確率分布


前回までの講義
統計の特徴量である平均や分散についての解説。
平均と分散はチェビシフの不等式によって本質的な特徴を持つことが証明される。

今回の講義

今回の講義は次の講義のための準備のような講義で少し内容が薄い感じ。
前半は平均と分散の公式の説明。
後半は周辺分布による計算量の低下概念が大事なようです。




平均と分散の公式

式1 E(ax+b)
増幅して下駄を履かせた量についての場合。
これはaE(x)+bと同じ。
全体が等しくb大きくなるので平均がb増加でbが分離。
後は全値がa倍される。
平均の定義からいって当然。


V(ax+b)はVが平均からのずれの2乗。
bは等しく足されるだけなので分散に影響しない。
aは平均からのずれがa倍され、これが分散の式でa^2されるので
V(ax+b)=a^2V(x)

厳密な式は
V(ax+b)=E[(ax+b-E(ax+b))^2]
=E[(ax+b-aE(x)-b)^2]=E[a^2(x-E(x))^2]
=a^2*E[(x-E(x))^2]
=a^2V(x)



V(x)=E(x^2)-E(x)^2








多次元確率変数

ここまでは一つの変数にしか興味がなかった。
株価データでいえばある株価の100日後どうなるかしか考えてない。

ここからは30日後や60日後など多数の日のデータを考える。
株価データでいえば。

50日目の平均と100日目の平均。
50日目の分散と100日目の分散のように注目する変数を増やす。

また2種類以上の株価に興味を持つ場合。
100個の銘柄に興味を持てば多次元の確率変数となる。


時系列データを扱う手法はまだ準備が出来てないのでさいころのような簡単な例で示す。
さいころを一つ振る場合AさんとBさんの興味を
Fa={偶数、奇数}
Fb={3以下、4以上}
と根源事象を考える。
一つの対象に複数の興味を持つ場合を考える。

この場合、偶数∧3以下のような組み合わせによる確率を考えることが出来る。
FaとFbの組み合わせ表を考えることが出来る。

二つの興味による分類は興味の全ての組み合わせの表を書くことで書き表すことが出来る。
P(Ai∧Bj)を同時分布という。


これを計算する場合全ての情報がわかってることが必要。
nΣmΣP(Ai∧Bj)=1でもある。

さいころを振る場合
P({偶数}∧{3以下})+P({偶数}∧{4以上})
は背反で
=Pab({偶数∧3以下}∨({偶数∧4以上}))
これは偶数が起こる確率にしか興味がないのと同じ。
=Pab({偶数})
=Pa({偶数})
これを周辺分布と呼ぶ。

Pab(Ai∧B1)+P(Ai∧B2)+,,,+P(Ai∧Bm)
=Pab({Ai∧B1}∨,,,∨(Ai∧Bm))
=Pab(Ai)=Pa(Ai)
となりこれを周辺分布と呼ぶ。

天候の場合からみる周辺分布の意味

本来であれば全世界の天候から算出できる。
しかし東京の天気に市加興味がない時にこの計算は無駄。
表が巨大になり同時分布を全部知ることはできない。
分からない部分については無視するしかない。
上記のようにBを消すのが周辺分布の作業。
これが周辺分布の重要な性質。
一部について計算するのが周辺分布。
これ難しそう。
独立性がない場合上手くデータを無視することで成り立つ?


独立性

事象AとBに関係がない場合を独立性とする。
事象が独立ならAのイベントn通り+Bのイベントm通りの情報から
AとBの全同時分布の情報n*m通りの組み合わせを再現できる。
これは当たり前。

独立でないなら
P(Ai∧Bj)≠P(Ai)*P(Bj)となる場合が普通。

タグ:

+ タグ編集
  • タグ:

このサイトはreCAPTCHAによって保護されており、Googleの プライバシーポリシー利用規約 が適用されます。

最終更新:2012年08月23日 18:12