シャノンエントロピーとは?
シャノンエントロピーは、ある確率変数に含まれる「不確実性」「意外性」「情報量」の平均的な大きさを表す指標です。1948年にクロード・シャノンによって提唱され、情報理論の礎となりました。対数の底に2を用いると、その単位はビットになります。エントロピーが1ビットであるとは、ちょうど公平なコインを1回投げたときの不確実性に相当します。
計算機の使い方
起こりうる各結果の確率を、カンマまたはスペースで区切って入力してください(例:0.5, 0.25, 0.25)。確率の代わりに度数や件数といった生の数値(例:10, 5, 5)を入力してもかまいません。その場合、各値を合計で割って確率へと自動的に正規化します。ゼロや負の値は無視されます。本ツールは、ビット単位のエントロピー、理論上の最大エントロピー、そして分布の効率を出力します。
計算式の解説
エントロピーは、すべての結果 \(i\) について和をとる $$H = -\sum_{i=1}^{n} p_i \log_2 p_i \qquad p_i = \frac{x_i}{\sum_{j=1}^{n} x_j}$$ という式で求めます。各項は、その結果がもつ情報量 \(-\log_2 p_i\) を、出現確率 \(p_i\) で重み付けしたものです。めったに起こらない事象ほど大きな情報量をもち、確実に起こる事象(\(p_i = 1\))は情報量を一切もちません。\(n\) 個の結果に対する最大エントロピーは \(\log_2(n)\) であり、すべての結果が等確率のときに達成されます。効率とは、このエントロピー \(H\) を最大値に対する割合(パーセント)として表したものです。
計算例
分布 \(\{0.5, 0.25, 0.25\}\) を考えてみましょう。エントロピーは次のように計算できます:$$-[0.5\cdot\log_2(0.5) + 0.25\cdot\log_2(0.25) + 0.25\cdot\log_2(0.25)] = -[0.5\cdot(-1) + 0.25\cdot(-2) + 0.25\cdot(-2)] = 0.5 + 0.5 + 0.5 = 1.5 \text{ ビット}$$。結果が3通りある場合の最大エントロピーは \(\log_2(3) \approx 1.585\) ビットなので、効率は約94.64%となります。
よくある質問
なぜ単位が「ビット」なのですか? 対数の底に2を使うと、エントロピーはビット単位で求まります。これはデジタル情報を扱ううえで最も自然な単位です。底に \(e\) を使えば「ナット(nat)」、底に10を使えば「ハートレー(hartley)」という単位になります。
確率の合計は必ず1にする必要がありますか? いいえ。本計算機は正の値を自動的に正規化するため、生の度数データをそのまま貼り付けてもかまいません。
最大エントロピーとは何ですか? \(n\) 個の結果が等確率である場合の値で、\(\log_2(n)\) に等しくなります。公平なコイン(\(n=2\))の最大エントロピーは1ビット、公平なサイコロ(\(n=6\))では約2.585ビットです。