足ることを知らず

Data Science, global business, management and MBA

データ分析というビジネスを考えてみる。

データ分析ビジネスとは?

ビッグデータビッグデータと大量データ処理が持て囃されて久しく、ちょっとここいらで、データ分析領域で起こっていることを整理しようと思いました。

これだけビッグデータビッグデータ言うからには、独立の事業体として成立するものばかりではないとしても、何らかの利益貢献がないと、お話になりません。

というわけで、データ分析をビジネスとして捉えた時に、データ分析による収益を表現してみましょう。

そもそもデータ分析事業とは、ファクトを元に、そのファクトに何らかの知的処理や演算を加えて、価値あるインフォメーションへと加工する事業だと定義する。

データ分析による利益=([1処理当たりのバリュー]-[1処理当たりのコスト])×処理数

処理というのは、PCの演算処理と考えてみましょう。
例えば、1+1=2とすることを5回繰り返して1+1+1+1+1=5の場合、処理数は5です。
ま、ここらへんの定義はアバウトで良いと思います。

さて、そもそも処理当たりのバリューとコストとはなんでしょうか。

・バリュー:分析結果の施策活用による売上貢献、または分析自体の提供による売上。

・コスト:処理当たりにかかる人件費、設備投資費、処理を始めるのに必要なデータ蓄積費、収集費全てを含んだもの。

上記は、かなり荒い整理ですが、少し話を進めましょう。

データ分析事業とは

さて、データ分析行っている産業は山ほどあります。
WEB関連産業は、特にデータ分析が盛んです。
しかし、WEBに限らず、経営コンサルタントだって、
代表的なデータ分析ビジネスだし、プロ野球のスコアラーもデータ分析事業です。

しかし、同じデータ分析事業でも、上記の数式に当てはめれば、その構造が全く異なることがわかります。

近年、大流行しているビッグデータは、1処理当たりのコストが大変安くなって、たくさんの処理数をこなせるようになったということにほかなりません。
収集のしやすい(自動的に蓄積される)ログデータ系を大量に処理する薄利多"処理"型ビジネスである。

対照的に、経営コンサルティング会社が主に扱う財務・会計データや業界動向データは、最も「収集コスト」がかかっています。
更に、その貴重なデータを「何故その分析をするのか」という一点を考えぬくことで、尋常ではない人件費を一処理にかけているのです。
処理のコスト自体はかからないものの、その前処理(下ごしらえ)に極めてたくさんの時間をかけるため、高いバリューを出す分析が出てくるのである。これは少処理高利ビジネスと言えるでしょう。

例えば、アマゾンのレコメンドは、ユーザーの何万という行動、購買データを処理して出されています。
レコメンドを通した売上はAmazonの約40%だが、レコメンドの中でも売上に貢献するのはほんの一部です。
即ち、何億、何兆回の計算が、Amazonの莫大なインフラ投資、人件費から形成され、あの巨大な売上を生んでいるのです。

それに対し、例えばマッキンゼーのスライドは1枚うん百万円〜うん千万円するでしょう。(細かいことは知りませんし、スライドが商品でないことも理解していますが)
ただし、そのスライドで行われている処理数は明らかに少ないのです。
それだけ、コンサルタントは「何故その処理をするのか」「その処理で生まれる何が顧客にとって価値なのか」考えぬいていると思われる。


データ分析ビジネスの未来

恐らく将来的には、hadoopやredshiftのようなインフラは、オープンソースの華麗なGUIによって制御されるようになり、
万人にとっての処理コストが低下すると考えられます。
スピードやストレージは今後も進化し続けるが、それが競争の決定的な差別化にはならないのです。
即ち、ビッグデータ処理自体は、確実にコモディティ化していきます

ただし、ビッグデータ分析は、きっとコモディティ化しない
そのとき、恐らく価値を生むのは、大量のデータを濃縮して知見にするための”正しい”統計の使い方と、精緻な機械学習によるシミュレーションである。
そう、処理自体ではなく、「どう処理するか」に確実に論点は移っていく。それはビッグデータ分析でも例外ではない。
大量のデータをどうさばくかだけでなく、どっちの方向に、どの仮説を持ってさばくかで、データ分析のバリューが決定されると思う。
そして、コストあたりのバリューを高める行為こそ、データ分析における生産性を高めることに他ならない。

ちきりんさんのブログ(「生産性の概念の欠如」がたぶんもっとも深刻 - Chikirinの日記)に私がいたく共感したのは、ここに理由がある気がする。
どうも、データ分析界隈では、大量のデータを処理することに気を取られ過ぎて、その結果生まれるバリューだったり、かかっているコストに目を向けている人が少なすぎやしないか。
処理数は目的の変数ではない。
もう一度、バリューとコストに立ち戻り、データ分析のプロフィットを考える時期に来ていると感じます。