情報量
情報量
情報量とは
情報量は次の式で定義する。
I(A)=-logP(A)
情報量とは何なのか、どうしてこの定義式になるのかを順次説明しよう。
今まで、未知だったことが分かったとき「情報を得た」という。
サイコロの目は、投げてみなくては分からない。
そのサイコロを投げて「1」が出れば、情報を得たことになる。
コインの表裏も、投げてみなくては分からない。
コインを投げて「表」が出れば、情報を得たことになる。
「知らなかったこと」を知ったからだ。
「サイコロで1」が出る確率は「1/6」であるが、「コインで表」の確率は「1/2」だ。
このことから、「サイコロで1」は「コインで表」よりも、確率が低いのでより実現しにくいし、実現すれば「より意外である」と言える。
当たり前の情報と、意外な情報では、情報の大きさに差があって当然だ。
情報の大きさや程度を情報量という。
より意外な情報を得たとき、その情報量は大きいと考える。
上記の例では、「コインで表」より「サイコロで1」の方が、より情報量は大きい。
情報量は確率に基づいて定義された量なのだ。
サイコロとコインを同時に投げたとする。
このときに「出る目」と「表裏」は、お互いに無関係である。
だから、同時に投げて「1」と「表」が同時に実現したときの情報量は、サイコロとコインを個別に投げた場合の情報量の和になるはずである。
ある事象Aの起こる確率をP(A)とする。
事象とは「出来事」のことだ。
例えば「サイコロを投げて1が出る」という事象(これがA)があって、その起こる確率は「1/6」である。P(A)=1/6ということだ。
「コインを投げて表が出る」という事象がBだとすれば、P(B)=1/2になる。
冒頭に書いた定義に従って、情報量を求めてみよう。
ここでは対数の底を「2」とする。
事象 | 事象A サイコロを投げて1が出る | 事象B コインを投げて表が出る |
確率(生起確率) | P(A)=1/6 Bに比べて意外性が大きい | P(B)=1/2 Aに比べて意外性が小さい |
情報量 | I(A)=-logP(A) I(A)=-log(1/6) I(A)=2.585 | I(B)=-logP(B) I(B)=-log(1/2) I(B)=1 |
この計算結果から分から、意外性が大きいと、情報量が大きくなることが確認できる。
サイコロとコインを同時に投げて「1」と「表」が同時に実現する事象をCとすると、確率P(C)は「1/12」(1/6×1/2=1/12)だ。
この場合の情報量I(C)は
I(C)=-log (1/12)=3.585
となる。
P(A) 、P(B)の値と比べると
I(C)=P(A) +P(B)
の関係にあることが分かる。
全体の情報量は、個別に投げた場合の情報量の和になるのだ。
ここまで来ると、情報量の定義が何故「I(A)=-logP(A)」となるのかが見えてくる。
情報が持つ以下の二つの性質を表現するのに、このように定義すると都合がいいからなのだ。
・意外性が大きいと、情報量が大きくなる
・全体の情報量は、個別の事象の情報量の和になる
情報量の単位:ビット
ここでは、対数の底に「2」を用いた。
他の底を利用するケースもあるが、実用面では「2」が最も一般的だ。
対数の底に「2」を用いた場合の情報量の単位を「bit(ビット)」という。
1bit(ビット)の情報量とは、二つの出来事が同じ確率で起こる場合、そのうちの一つが実現したときの情報量である。
「コインを投げたときの情報量が1ビット」と知れば理解しやすい。
「表が出る」「裏が出る」といった二つの出来事は、同じ確率で起こるからだ。
「bit(ビット)」が情報量の単位であることは、広く知られているが、「対数の底に「2」を用いた場合」であるということを忘れてはならない。
bitとは「binary digit(二元の指)」の略である。
■次のページ:平均情報量
スポンサーリンク
2006/07/01