各文字を表すビット数とその出現確率をかけたものを足し合わせて平均ビット数を求めます。
- A → 1ビット×0.5=0.5ビット
- B → 2ビット×0.3=0.6ビット
- C → 3ビット×0.1=0.3ビット
- D → 4ビット×0.05=0.2ビット
- E → 4ビット×0.05=0.2ビット
すべてを足し合わせると、
0.5+0.6+0.3+0.2+0.2=1.8ビット
したがって、平均ビット数は
1.8ビットになります。
このように情報の出現確率が高いデータには短い符号を、低いデータには長い符号を与えることで圧縮を効率よく行う方法を
ハフマン符号といいます。