足ることを知らず

Data Science, global business, management and MBA

統計学と機械学習は実際、何が違うのか?

The Actual Difference Between Statistics and Machine Learning

 

Mediumの古いネタを引っ張り出してきた。

英語読める人は、本文を見てほしい。

 

“The major difference between machine learning and statistics is their purpose. Machine learning models are designed to make the most accurate predictions possible. Statistical models are designed for inference about the relationships between variables.” 

 上記は、文章中でも紹介されている、よくある説明。確かに間違ってはいないと思うが、芯を食った説明かと言われると疑問に思う。

 

自分が最初に思いついたのは「説明可用性」というか、人間に解釈の余地を残すのが統計、そうではなく、スコア至上主義でブラックボックスというのが機械学習というものだった。しかし、これには反論の余地がある。

これは文章中でも書かれているが、機械学習の中でもいくつか説明可用性が高いものも存在するし、モデルの複雑性を落とすことによって、Interpretableなモデルですと主張するdowngrade バージョンが幅を効かせようとしているのも現実である。

Likewise, machine learning models provide various degrees of interpretability, from the highly interpretable lasso regression to impenetrable neural networks, but they generally sacrifice interpretability for predictive power.

 

さて、引用先ではどう定義しているかというと、そもそもの「違い」を明記する前に、①統計学と統計モデルは違うこと、②統計モデルと機械学習は比較対象ではないことを取り上げている。

 

そして、機械学習が、パフォーマンスに寄与する部分の変数にのみ注力をするのに対し、統計モデルが、変数間の関係性やそれらの関係性の重要度すべてを見ようとするという違いがあると述べている。

 Machine learning is all about results, it is likely working in a company where your worth is characterized solely by your performance. Whereas, statistical modeling is more about finding relationships between variables and the significance of those relationships, whilst also catering for prediction.

 

 

その上でglorify(賛美する/美化する)という言葉を使って下記のような言葉が使われている。

In actuality, physics is built upon mathematics, it is the application of mathematics to understand physical phenomena present in reality. Physics also includes aspects of statistics, and the modern form of statistics is typically built from a framework consisting of Zermelo-Frankel set theory combined with measure theory to produce probability spaces. 

 

Physics is just glorified mathematics.

Zoology is just glorified stamp collection.

Architecture is just glorified sand-castle construction.

すなわち、そもそも機械学習モデルというジャンル自体が、データに対する統計学の解釈をはめた上で、成立しているモデルであるということ。Accuracyなどで比較するのはアンフェアだというわけだ。工学はglorifiedされた理学とも言えるかもしれない。

 

加えて、この分野はあまりにも不透明な定義の言葉が多すぎる。AIは機械学習の一部だろうか?逆だ。

Similarly, machine learning is not the same as artificial intelligence. In fact, machine learning is a subset of AI. This is pretty obvious since we are teaching (‘training’) a machine to make generalizable inferences about some type of data based on previous data.

人工知能機械学習、データサイエンスなど、ふわふわとしたバズワードになりがちであるが、正しい定義なんてそもそもなかったりするので、自分なりの定義を持った上で、色んな人と議論して、ブラッシュアップしていくしかないなぁと思っている。