データサイエンティスト給与論

友達がシェアしてたのを見て、ちょっと思うところがあり、こっそり書いてみた。3月の記事だから結構今更だろうか。
今データサイエンティストを目指してる人の7割が5年後に年収350万にしかなれない - データエンジニアの日記

上記記事の論旨を説明すると、今後データサイエンティスト人材にも昔のIT業界と同じようなことが起こり、人材紹介会社がデータサイエンティストの名の下に低スキル人材を売り払った結果、低単価で扱われるデータサイエンティストが増えるので、ちゃんと機械学習の深いスキルを身に着けておくか、広範囲のバリューが出せるスキルがないと食っていけなくなるというものだった。

ブログの作者の方とは面識もないし、今から批判するからというわけでもないが、他の記事の内容はミスリードを意図的に起こそうというものも含めて、とても切れ味が鋭くて好きだなぁと思いました。RSSフィード（今やオサーンのツールか）に加えさせていただきました。

賛成できる点としては、現在のデータサイエンティストがビッグデータの文脈とともに見せかけの需給バブルが起きていて、供給も需要も著しい質の低下が見られるという事象について。要するに、曖昧若しくは間抜けなデータサイエンティスト募集と低スキルのデータサイエンティスト（笑）人材が爆発的に増えて、妥協のもとにマッチングし始めてるってことでしょう。

それについてはもう仰る通り。というか英国で採用をかけた際、もっと酷いデータサイエンティスト詐欺にあっていた。データサイエンティストのジョブタイトルで、「pythonは今学習中」とか「統計モデリングはやったが、機械学習は勉強中」とかザラ。「AccuracyとRecallとPrecisionの定義を説明してください」というクソみたいな質問すらクリア出来ない人が多い。極端に偏ったサンプル数のClassificationみたいなビジネス・ケースの質問まで進まない。俺の英語の発音が悪いのかと思って、一度紙に書いて、ホワイトボードで説明してもらったけどそれでもちゃんと答えられるのは2人に1人くらい。職務要件で明確に「ROCカーブ読める人」って書いたろうかと思ったくらい。あとはConvolution、Recurrent Network、LSTMについて大枠を理解してるかとかBays DDみたいな話に興味を持ってくれているかとかを見て、データサイエンス力を測っている。こんなベーシックなものでも、ちゃんとした人を見つけるのはとても難しい。勿論一部のリーディングカンパニーはめちゃ簡単に採用できるのかもしれんが。

ただし、私見として、エントリの下記部分は完全に同意しかねている。

大学初等の数学もできない。確率統計も入門書1冊読んだ程度。TensolFlowやscikit-learnでモデル組めました、程度のノリでデータサイエンティストにでもなろうもんなら、どういう未来が待ってるかはお察しの通り。

週に10時間以上かけて数学と統計と機械学習の基礎的な学習を継続して本や論文の数式からプログラム起こせるレベルになって、かつ高度なスキルを証明できるような成果物や実績を作る

そもそも給与は需要と供給のバランスで決まるのであって、PoCが一段落して焼け野原になった日本市場で、一体何社が「本や論文の数式から起こされたプログラム」に飲ませるだけの「適切なクリーンで十分なデータ」を持ち、「そのアウトプットを活用する業務プロセス」を設計できるのだろうか。何が言いたいかというと、機械学習の最先端論文を潜って給料が上がっていくトレンドはあまり期待できないという話。そもそも、機械学習、データ系の論文は多すぎて、全部を追うことはとてもじゃないが出来ない。
ただでさえ、機械学習アルゴリズムがコモディティ化しており、インタフェースもモジュールも増えてきた。Numpyでフロムスクラッチで実装しました！ドヤされても、TFで実装してもらったほうがこちらとしては速い安いうまいでありがたい。（でもディープラーニングNumpy実装はまじで勉強になるので一度やったほうがいい）加えて、既製ライブラリに比べてその高レベルな方々が作るフロムスクラッチのコードがどの程度ハイパフォーマンスなのかは見ものである。Spark系のライブラリは僕も触ったことないので、もしかするとフロムスクラッチコーディングなのかもしれないが、知らないので何とも言えない。加えて、たとえ、素晴らしい物ができたとして、それはGithubにあげてください、でなければ誰かがもっとええのあげます。という潮流なわけで。。。論文で使われたアルゴも結構な割合でGithubあがってたりする。（それパクりまくってるのは内緒な！）

もっと言うと、TensorflowとScikitlearnのポテンシャルをちゃんと限界まで引き出せる人だったらむしろ喉から手が出るほど欲しいんだが。僕なんかKeras使っちゃってるくらい情弱だし。

勿論、Googleに買収されたDeep Mind社みたいなところが採用する人間は、最新の論文を読み漁ってるんだろう。インフラ面はGoogleの馬鹿力インフラと超優秀なインフラエンジニアに支えられて、恐らくAlphaGoのような人類史を揺るがすようなAIができるのだろうが、あれは人類史でいう、アポロ計画みたいなもんである。他多くの会社、及びGoogleの中でさえ、大多数は恐らくシャトルを月に飛ばすことよりも大量の顧客を載せた飛行機を日本からアメリカに飛ばせばいいかみたいなチャレンジをしているはず。それはいわゆる多少コモディティ化した技術をビジネス活用することであって、もっと人を載せて飛べる飛行機の開発だったり、効率的な飛行機の飛ばし方みたいなことなんじゃないだろうか。シャトルの先端技術をわかっている必要はない。
ただ、ど勘違いしている経営クラスのおっさんの中にはなぜか自社に飛行機のパーツすらないのにアポロ計画のシャトルのエンジンが作りたいみたいな話をする。大丈夫、おっさんの会社にはあと３０年くらいいらないからな！加えて、人的コストがAIによって大きく削減されるみたいな夢物語を語る。おっさん、コンサルティング会社×RPAから始めてみよう、な。データサイエンティスト雇ってる場合じゃないよ。
あと、個人的にはそもそも飛行機を飛ばす話をしているのに、若手データサイエンティストに「アポロ計画に使われてた技術の論文見たっすけど、このエンジン詰めませんか？」って言われたらよっぽどRelevantじゃない限り「Intersting」と返して放置するわ。
そもそもの諸悪の根源は全く目標感も課題感もない中（月に行きたいとかない）、アポロアポロとつぶやくAI・ビッグデータブームにあるわけだが。

最近の潮流を見ていて思うのは、博士経歴を持つデータサイエンティストの方々からすると、似非データサイエンティストが増えたことによりとんでもないタスクを背負わされることが多くなった若しくは多くなるのではという危惧や危機感が強いのだと思う。「これだから日本のデータサイエンスは伸びない」と不満をこぼされるのも当然と思う。しかし、私も広告代理店というそもそも技術サイドのバックグラウンドはどうしても弱いデータサイエンティストなので、技術のことを何もわかっていないと言われても仕方ないし、ある意味データサイエンティストの役割をいい意味でも悪い意味でも曖昧にしてきてしまったと思っている。

ただ、一言言いたいのは、データサイエンティストが職務タイトルとして定義されるというのはビジネス課題をデータサイエンスで解決するからであって、専門知識を持っているからではないということだ。そして、そのビジネス課題をデータサイエンスで解決するためには、必ずしもデータサイエンスだけでなく、他の部分（ある意味でのリーダーシップやビジネススキル）が変数として効いてくることが頻繁にある。多分僕がデータサイエンスだけを専門として他のSoWは何も受け付けなかったら、日本ではもちろん、英国でもバリューはほとんど出なかっただろう。このジョブタイトルでグーグルアナリティクスのタグ実装とかデータ設計やったり、DMPのルール設定しこしこやったり、CRMツールの設定しこしこやって管理画面見たり、もっと言えば、買収した海外ツールの導入で営業がクソみたいな要件定義ていうか要件定義と呼ばない謎のメモを持ってくるからこっちでフォーマット作って導入プロセス標準化したり、いろんなことをやってきた。その経験が、時に自分のしょっぱいかもしれないデータサイエンス力をビジネス課題解決力のてことして最大限に高めるときがある。だから不用意に職務領域を狭めるのもまぁ自分の首を締めるのではと思った次第。

結局、原点に戻ると、自分の手持ちのスキルによって、誰かが喜ぶ成果物や成果自体が導けるかということであって、その積み重ねが長期的な給与水準を支えるのだと思う。データサイエンティストだから儲かるということではなく。そもそも士業じゃないんだし、ジョブタイトルに給与水準を期待すること自体が、昔のマッキンゼーのミスリードにみんながおぼれてるよね。

人に喜んでもらうための手持ちスキルを常に磨き、仕入れ、使ってみることが本質的なんじゃないだろうか。勿論そこに戦略性や本人の適性のファクターも必要だけど、まぁそれは自己分析・業界分析してください。特にフリーランスになっていく人が多いこの世の中、キャリアデザインってそういうことでしょう、と切に思っております。

足ることを知らず

Data Science, global business, management and MBA

データサイエンティスト給与論