エントロピーは常に増大してるとか?

まじめな考察は下のほうに奥ゆかしく書いてます。
そういった理論を出すまでもなく、雑多な情報が多いと1つの情報にたどり着くまでのコストがかかるって話ですね。

ノイズも増えたけれど、それをフィルタリングする仕組みも進化していると思うし、情報の種類によっては精度が上がっているものもある。もともとノイズの山に埋もれてしまうような情報は、初めからウェブ上に結構あったように思えるし、それを検索するテクニックが必要だった。今は、関連サイトを検索し、そこから辿るというような、少し捻れば行き着くかもしれないという期待による手法よりも、検索サイトで一発で辿り付く事をが重視されている

H(P) = - \sum_{A\in\Omega} P(A) \log P(A)
なんて数式出すとちょっと学術的? ちなみにHは平均情報量です。
情報量からみたエントロピーってのは物理学のエントロピー同様わかりづらいものでして、非常に砕けた言い方をしますと「情報のあいまいさ、つまり規則性からの隔たりを測る尺度」をさします。
対象とする情報源のエントロピーが小さい場合という場合、その出力される情報が規則性があるため我々はその情報源から有益な(この場合の有益というのは利益とかじゃなくて単に「大きな情報を得られない」という意味合いです)情報を得ることができません。
ちょうど、ちょっとボケの入ったおじいちゃんを思い浮かべてください。大体いつも同じ繰言を繰り返してるような人は得られる情報の量は少ないですね、でもいきなり正気に戻ってとても重要なためになる話をすることがあります。つまり、エントロピーは単純に確立の問題なわけですよ。
情報量を考えたのがシャロンって人なんですが、「主観性を徹底的に排除」したのでエントロピーは「主観的に重要や主観的に無駄な情報」ということは入っていないのです。
たとえば、そのおじいちゃんが正気なことを言い出す可能性というのを数式にすると、S=-\log Pと表現できます。これを自己情報量といいます。
おじいちゃんと8回ほど話をしていて正気なことを言い出したのが1回でした。この場合、おじいちゃんが全うなことを言い出す確立は1/8ですので、おじいちゃんの自己情報量は-\log_2 \frac{1}{8}=3なので、情報量は3ビットということになるんです。

おじいちゃんの行動 確率 -\log_{2} P -P \log_{2} P
ぼけぼけー \frac{7}{8}=0.875 0.1926 0.1686
まっとー \frac{1}{8}=0.125 3.0000 0.3750

0.1686+0.3750=0.5436
この0.5436という数値がおじいちゃんが真っ当なことを言う「期待値」です。これを「情報エントロピー」言うねん!(なぜか関西弁)
ちなみに、この情報エントロピーが最大になるには「ぼけぼけー」と「まっとー」の確率がそれぞれ同じ確率になるときに最大になるんですよ。
自然界ではエントロピーは増大するんですが、情報量についてはエントロピーが増大するかしないかってのが明記されてないのでなんともいえませんが、情報量はエントロピー増大しないんじゃないかと予想。
 
雑多な情報があふれるネットの中で、自分が本当にほしい情報を手に入れる確率が下がるってのは、つまり「主観的には情報エントロピーが下がっている状態」かもしれんけど主観を交えない情報工学では意味ないねってことだったりして。

えーっと、もう少し数学的に

最初二つのページがあった場合で開かれる確率が同じだった場合は、1/2と1/2なので、エントロピーは0.5+0.5=1.0ですね。
次に、3つのページがあった場合で同じく開かれる確率が等しい場合、1/3と1/3と1/3で、エントロピーは1.5849。
さらに、4つのページだとエントロピーは2.0
(略)
100ページだと6.644
200ページだと7.644
おー、やっぱエントロピーはページ数が増えると増大するのねー(ん?

琴子のサイトの自己情報量

正確に数えたことないし、600ページくらいでしょう(適当)、Webのページ数っていくつなんだろ?
googolがあるんだから10^10^100位?
google:600/googol*log(2)(600/googol)
わお。
レアっすよ?
0.の後に0が195個も付くんだって!
ちょーすくな!

少しまじめに考えよう。

トラバを送ってしまったようなので、少しまじめに考察。
「情報」が増えるってのは「一つ一つの情報の価値が低くなる」とは「等価」ではないって事は重要です。
「情報」が増えることで、「1つの情報にたどり着ける確率が減る」ってのが問題。
ただ、気をつけてほしいのが、「情報が増える」というのが「シノニム」な情報も増えるって事。
経験的に「シノニム」な情報がブログのように相互リンクされた形で提供されるってのは辿り易くていいよなとは思います。
なので、検索で必要な情報にたどり着けないってのは経験的に疑問があるかな。
ま、間違った情報もそれだけ自己増殖というかシノニムな情報となって流通するから結果的には「何を信じなければならないか?」ってのは常に付きまとうよね。
でも、これってネットの黎明期からあったことだし別段問題に感じないんだよな。
あと、間違った情報なんてネットだけじゃなくてさまざまな情報伝達手段に入り込んでる毒ですから。
卑近な例を挙げるなら「水は何でも知ってる」とかさ、「TBSの納豆健康法」とかさ、、結局は与えられた情報を取捨選択する能力ってのは必要なわけで、ネットの人口とか情報量とかに帰属するような問題じゃないなと思ったり……。