メモリとソフトの発達でBig Dataが流行語になった。でっかいデータとは何Tera Bytes以上かなどと考えたくなるが、それは本質ではない。米調査会社Gartner社はVolume、Velocity=更新速度大、Varietyの3つのVが本質だと言ったが、IBMがVeracity=実際に起こったこと を追加して4つのVになった。それらを認めつつも私の定義は「情報量の密度が希薄な大量のデータを濃縮して有用な情報を取り出す」仕組みだと思っている。
JR東日本がSuicaの生データから氏名を特定できる情報を抜いて日立情報に売ったという報道で市民に猛反対が起こり、JRはOpt-Out=除外希望者の除外 の手段を追加したという。Suicaのデータベースは、私が何日の何時何分に八王子駅で乗車し新宿駅で下車したことを把握している。それ自体は例え氏名付きで公表されても私は全く痛痒を感じないし、その情報だけなら何の価値も無い。ただアリバイ偽装にはSuicaは使用しない方がよい。探偵役が時刻表と首っ引きで犯人のアリバイを崩して行くミステリードラマがあるが、警察が捜査権を行使してSuicaを調べれば一発だ。
しかしそんな情報密度が希薄なデータを大量に集めて「75-79歳のSuica所持者が11月の紅葉の京都に出掛ける確率はxx%」という形に濃縮すればその情報は売れる。同様に、Facebookのサービスは無料だが、実は対価は提供している。Facebookを使うには生年月日から学歴・職歴などをかなり詳細に登録する。勿論いいかげんに入力してもバレまいが、詐称は自分に対して恥ずかしい。登録しても閲覧を禁止することはできる。私の場合はそんな情報はWebで5分も探せばどうせ判ってしまう内容だから正直に登録してあるし、公表を許容している。私にとっては何でもない希薄な情報だ。しかし「留学経験者xx万人に広告を送れます」という形に整理すればその情報は売れる。個々にはほぼ無価値な情報も濃縮すれば売れる。
米CIAが世界中で盗聴したことが問題にされているが、これは究極のBig Dataだ。大部分は他愛ない会話で濃縮しない限り何の役にも立つまい。
念のためだが、データ量(単位はビット)の意味でも「情報量」という言葉を使うが、上記の希薄とか濃縮とか言っている情報量は情報理論上の用語で、Entropy=Shanon's Entropyとも言う。単位はやはりビットだ。「確率Pの事象が起こったよ」という情報の情報量
情報量=ln(1/P) (lnは底=2の対数)
「コイン投げで2回続けて表が出たよ」という情報のデータ量は16文字=128ビットだが、P=1/4 1/P=4 だから情報量は ln 4 = 2 ビットだ。高校の新聞部の先輩から「犬が人に噛みついてもニュースにならないが、人が犬に噛みついたらニュースだ」と教わった。読者が驚くような情報量の大きなニュースを集めて来いという教訓だった。
Big Dataの個々の情報は、データ量が大きい割に情報量は小さい。しかしそれらを大量に集めて整理濃縮すれば、データ量を抑えつつ情報量を格段に大きくできる。だから売れる。それがBig Dataの特長だ。
Venture Capitalをやっていた2002年だったと思うが、某Venture企業に接触した。店の入口で電波発信機を客に渡し、客がどの商品棚で何秒立ち止ったかを整理すれば「A商品は即刻買われるが、B商品は手に取っては貰えるが買われない」などという情報が集まり、拡販にもなるし上手くすれば情報が販売できる、と某社は主張した。今でいうBig Data整理ソフトだがそんなソフトは当時は無かった。しかし私にはソフトの難しさは推察できたので、この会社で開発は無理と判断して投資はしなかった。
情報源は購買履歴、ポイント履歴、クレーム内容、Blog、SNS、センサ記録、通過記録、走行記録、GPS情報、ネット検索履歴、気象データなど属人的な内容から機械同志の対話記録まで多種多様だ。選挙に関するTweetからキーワードを引き出すと、選挙民が関心を持っているテーマと関心度合が判る。政党名と、文章認識で好き嫌いを引き出すと、政党の人気度合とその消長が判る。前回の衆院選と参院選の各投票直前のデータで見ると、共産党の躍進と民主党・維新の会の退潮がデジタルに判る。
しょっぱいだけの海水を濃縮して美味しい塩を採るようなものだ。以上