2020/05/03

ビッグデータの正体

2013年発行の「ビッグデータの正体」を読み返す。
冒頭で、疾病予防管理センター(CDC)のインフルエンザ流行データと、インターネット上の検索行動の相関関係から、2009年のH1N1インフルエンザを予測したグーグルを取り上げ、「大量データを活用すれば、新たな知見や価値ある製品・サービスを生み出すことができる。次のパンデミックが襲来するころには、我々は発生予測に役立つもっと有効なツールを手にしているはずで、流行は食い止められるだろう。」と予見している。

#Todo 修正
2020年現在、残念ながら次のパンデミックとなった新型コロナウイルスの流行を食い止める予測は外れてしまったが、データ利用に対する意識の変化は今後も様々な分野に波及していくことが想定され、大量データの扱いに長けた企業やエンジニアの需要は当面高い状況が続くと思われる。

ビッグデータの正体 ビクター・マイヤー=ショーンベルガー (著)

記憶しておきたい点

・google「MapReduce」や、そのオープンソース版「Hadoop」といった情報処理技術の登場で、整理された表や従来型データベースに入りきらない大量データでも管理できるようになった。階層構造や均一性のないデータでも処理できる技術も現れている。

・特に顕著なのは、相関関係が単純になる結果、社会が因果関係を求めなくなる点だ。
 「結論」さえわかれば「理由」がいらなくなる。

<3つの大変化>
  1. すべてのデータを扱う。(標本でない)
  2. 精度は重要ではない。(量が質を凌駕)
  3. 因果から相関の世界へ。(データが物語る)

1.すべてのデータを扱う

 推定の精度
 精度低い ーーーーーーーーーーーーーーーーーーーーー> 精度高い
 恣意的に抽出した標本 < 無作為抽出した標本 < すべてのデータ

  • 無作為抽出の難題は無作為性の確保。
  • 無作為標本では、集団内の特定の小集団の動向までは推定できない。
  • 標本抽出は、「小」から「大」を生み出す発想。
  • 標本では、特定の下位集団をクローズアップできないが、「N=全部」なら可能。
  • 無作為標本のような簡便法でなく、データ全体を利用することがビッグデータの条件。

2.精度は重要ではない

 機械翻訳の精度
 精度低い ーーーーーーーーーーーーーーー> 精度高い
 文法ルールと2ヵ国語辞書の組合せ < 統計的機械翻訳

  • 辞書とルールを教え込むのでなく、ある言語の単語やフレーズが別の言語のどの単語やフレーズに最も合致するかを統計的確率を計算して決定する。
  • 統計機械翻訳の登場で翻訳という難題は、数学的な問題へと置き換えられた。
  • 精度が高いのはアルゴリズムが賢いからでなく、データ量が多いから。(賢い<多い)
  • 確率を計算するうえでは乱雑なデータも欠かせない。

 正確さから乱雑さへシフト
 メリット低い ーーーーーーーーーーー> メリット高い
 乱雑さを取り除く    <    乱雑さを受け入れる

  • 正確さに執着する行為は、情報量の乏しいアナログ世界の遺物。
  • 量が増えると精度が落ちて乱雑になる < 量が多いほど全体の精度は上がる。
  • かつて統計学者が標本サイズの拡大に見切りをつけ、無作為性を高める方向に舵を切った。今度は、不正確さを受け入れる代わりに、データの大量化に舵を切る。
  • 乱雑な分類が標準に。(事前のカテゴリー分け<タグ付け)
  • データベースの世界も変わる。(従来のRDBMSからの脱却(NoSQL)、Hadoop)

3.因果から相関の世界へ

 主役となった相関分析
 メリット低い ーーーーーーーーーーー> メリット高い
 仮説主導型       <       データ主導型

  • スモールデータの時代には、仮説を立ててからデータを収集・分析して仮説を検証する。これを繰り返してきた。
  • ビッグデータ時代には、仮説がなくてもいい。ビッグデータを相関分析にかければ、データが答えを語り出す。
  • 相関に基づく予測がビッグデータの根幹。

・あらゆるものをデータ化する

 情報の再利用性
 再利用性なし ー ーーーーーーーーーー> 再利用性あり
 原本   <    デジタル化   <    データ化

 本 ⇒ スキャナでデジタル化 ⇒ OCRソフトでデータ化
 Google Ngram Viewer記事 因果関係と相関関係の使用頻度

 位置情報 ⇒ GPS、携帯電話基地局や無線LANスポットの信号強度の三角測量。
 人間関係 ⇒ SNS(Facebook)
 つぶやき ⇒ SNS(Twitter)
 職歴 ⇒ SNS(Linkedln)
 動き ⇒ モーションセンサー
 モノのネットワーク化。データ化。
これからの世代は「ビッグデータ意識」が高くなるはずで、あらゆる行動には数値化できる要素があり、社会が成長するためにはデータが不可欠と考えるようになる。

・データが持つオプション価値

 データの価値は、データから引き出せるオプション(選択肢)の総計。

<オプション価値を引き出す方法>
  1. 基本的な再利用
  2. データ集合の結合や組み替え
  3. 一挙両得

<ビッグデータ企業の3タイプ>
  1. データ型(データ保有者)
  2. スキル型(データスペシャリスト)
  3. アイデア型(ビッグデータ思考)
1.データ型
 データを自ら分析して販売するか、他社へライセンス提供するか。
 他社への提供では、データの2次利用による価値の大半は放棄することになる。

2.スキル型
 データを管理できる立場になく、分析ツールとなるソフトウェアを提供する。
 報酬は手にできるが、掘り出したダイヤモンドはデータの持ち主のもの。

3.アイデア型
 ビッグデータ思考の起業家は、最初の時点ではデータを持っていないことが多い。
 それ故、既得権益がなければ資金的にブレーキもかからず、アイデアを思う存分発揮できた。

<ビッグデータのマイナス面>
  • プライバシーの麻痺。プライバシーのリスクが高まるかどうかよりも、リスクの性格が変わってしまう恐れ。
  • 従来のプライバシー保護の3大対策(「告知に基づく同意」「データ利用拒否を本人が通告できる精度」「匿名化」)の効果が薄れる。
  • 予測だけで人を判断する行為。(プロファイリング(偏見)的な使用)
  • 因果関係を見る道具に濫用される可能性。
ビッグデータが相関関係を前提としている以上、因果関係を判定する道具としての使用は不適当だということ。
 
ビッグデータから得られるのは相関関係に基づくグッドイナフなレベルの答え。因果関係については何一つ教えてくれない。




0 件のコメント:

コメントを投稿

人気の投稿