機械学習の前処理"スケール変換"まとめ - 重箱の隅つっこみエンジニアのひとりごと

機械学習の前処理"スケール変換"についてまとめました。

以下を参考にしました。

3.3 前処理とスケール変換

すべての特徴量を、ほぼ同じスケール（目盛り）に変換すること。

データの特徴量（説明変数）が複数ある場合、それらのスケールが異なると、スケールが大きい特徴量が強く効いてしまうため。

例えば、住宅価格を決める特徴量として、周辺の犯罪率(0.0 ~ 1.0)と、築年数(0～100年)がある場合、2つの特徴量を同列に扱うと、築年数の方がスケールが大きいため、強く効いてしまう。

以下に4つのスケール変換を示す。

変換方法は、⇒の右側に記載。

sklearnのload_breast_cancerデータを用いて、SVCに対して、

の3種類で計算しています。

結果としては、MinMaxScaler > StandardScaler > 前処理なし

の順番で精度が良かったです。前処理なしが圧倒的に精度が低く、何らかの前処理はやった方が良さそうですね！