21世紀はベイズの時代
21世紀の幕開けとなる2001年、マイクロソフト社のビル・ゲイツ氏は「21世紀のマイクロソフトの基本戦略はベイズテクノロジーにある」と明言した。
ベイズ統計は、18世紀後半のスコットランドの長老派教会の牧師、トーマス・ベイズ氏が考案。
200年も前の一人の牧師の着想に端を発するが、長い間、異端とされてきた。
何故ならベイズ統計は、「主観的な確率」を扱うからである。
「厳密な科学に主観が入ってはいけない」と言うのである。
そりゃそうやわな。
我々が考える確率って普通、客観的なもの。
振ったさいころの目が3となる確率は1/6のように、誰が計算しても同じ結果になってもらわないと困る。
これは頻度主義というもので、この考え方に基づいてネイマン、ピアソン、フィッシャーらによって(統計学者の御三家)、伝統的統計学の理論を構築してきた。
ただ、私たちの社会で起きる事象は多種多様で複雑、必ずしもサイコロの目のように明確な出来事ばかりではなく、常に流動的に変化している。
こういう事象に、ベイズ統計は威力を発揮する。
特に、ベイズ統計は機械学習と相性が良く、主観的な確率が追加データによってドンドン更新され、更新される度に精度が向上していく(学習して賢くなっていく)。
ベイズの定理について
P(Y|X) = P(X|Y)*P(Y) / P(X)
Yは原因で、Xは結果( 時間の流れは、Y(原因)⇒X(結果) )
P(Y):原因がYである確率
P(X):結果がXである確率
P(Y|X)=結果がXという前提をつけたときに、原因がYである確率
これが、ベイズの定理の一つの特徴で、結果から原因確率を推定するという発想。
「結果」という情報を踏まえて、原因確率を推定するので、事後確率とも呼ばれる。
結果X⇒原因Yと、時間の流れに逆行しているため、逆確率とも呼ばれる。
P(X|Y):原因がYという条件を付けたときに結果がXとなる確率であり、条件付き確率または尤度(ゆうど)とも呼ばれる。
ベイズの定理のもう一つの特徴は右辺のP(Y)。
これはP(Y|X)と異なり、結果情報を踏まえる前の確率なので、事前確率と呼ばれる。
先程、ベイズ統計は主観確率を適用する点が異端であると言ったが、主観確率はこの事前確率に対して適用される。
主観確率を適用しているのにかかわらず、何故ベイズ統計は威力を発揮できるのか?
①最初は「適当に(主観的に)」事前確率を置いたとしても上記の算式にしたがって一度 事後確率が求まると、その「事後確率」を「事前確率」に置き換えていく(事前確率をアップデイトする)。
データ(結果)がどんどん増えるにつれて、事前確率のアップデイトが何度も繰り返されて精度が高まっていく(機械学習のアルゴリズムを適用できる)。
②事前確率についての知識が全くない訳ではない。
確率分布を適用すれば良い。正規分布、二項分布、ベータ分布、ガンマ分布など。
⇒マルコフ連鎖モンテカルロ法(MCMC法)。
ベイズ統計の適用例⇒迷惑メールの判定
結果データ(メールに含まれている言葉。例えば「投資指南」とか「完全無料」とか)に基づいて、原因確率(そのメールが迷惑メールである確率)を推定する。
つまり事後確率を推定するに際して、ベイズの定理が用いられる。
そして事後確率が(例えば)0.98以上であれば、そのメールは迷惑フォルダに格納される。
結果データが充実すればするほど(迷惑メールにありがちな言葉についての情報が増えれば増えるほど)、事後確率の精度が高まっていくのである。
ではまた、ごきげんよう