thumpx3.hatenablog.jp
続き。
分類、回帰両方使える手法
アンサンブル手法*2
用語 |
解説 |
バギング |
弱学習器を並列学習させる。過学習を抑えられるが、可視性は低い。代表的なのはランダムフォレスト |
ブースティング |
弱学習器を直列学習させる。バギングと比べて精度は良いが、時間がかかる。例えばAdaBoost、GradientBoosting、XGboost、LightGBM、CatBoost |
スタッキング |
複数のモデル(ニューラルネットワーク、ロジスティック回帰、ランダムフォレスト、kNN法、etc....)を学習させ、それらの出力を組み合わせて新しい学習器を作る。 |
損失関数
用語 |
解説 |
MAE(平均絶対誤差) |
|実測値 - 推定値| ÷ 標本の大きさ |
MSE(平均二乗誤差) |
(実測値 - 推定値)2 ÷ 標本の大きさ |
RMSE(平均二乗誤差) |
√MSE |
データスケーリング
用語 |
解説 |
標準化 |
平均0、標準偏差1 |
正規化 |
データを0~1に収める |
※正則化:過学習を抑制するための手法。L1正則化やL2正則化
ハイパーパラメータ最適化
用語 |
解説 |
グリッドサーチ |
格子状のように網羅的に、最良のパラメータを探す。正確だが時間がかかる |
ランダムサーチ |
ランダムに選択してテストする。グリッドサーチに比べて正確性に欠けるが、短時間。 |
ベイズ最適化 |
既に持っている情報から、より効果的なパラメータを予想する。グリッドサーチとランダムサーチの欠点を補うことができる。 |
教師なし学習の代表的なものが「クラスタリング」と「次元削減」
用語 |
解説 |
階層的クラスタリング |
距離の近い2つのデータを組み合わせて1つのまとまりを作る |
非階層的クラスタリング |
基準点からの距離でデータをクラスタ分け。その重心を新たな基準点として設定〜を繰り返す。代表的なのがk-means手法 |
t-SNE |
高次元データを2次元又は3次元に変換して可視化するための次元削減アルゴリズム*3 |
時系列モデル*4
用語 |
解説 |
ARモデル |
前の値を用いて現時点での値を推論 |
MAモデル |
前の誤差を用いて現時点での値を推論 |
ARMAモデル |
ARとMAを組み合わせたもの |
ARIMAモデル |
ARMAを拡張。トレンド性(株価,GDP)を持つ時系列データを取り入れた |
SARIMAモデル |
ARIMAを拡張。季節成分を取り入れた |
レコメンデーション
用語 |
解説 |
コンテンツベースフィルタリング |
過去に購買した商品に似た商品をレコメンデーション |
協調型フィルタリング |
似ている顧客の購買履歴からレコメンデーション |
過学習を検知する手法
用語 |
解説 |
ホールドアウト法 |
教師データを訓練データ(7~8割)、検証データ(2~3割)に分ける手法 |
交差検証(cross validation) |
代表的な手法にk-分割交差検証法。k個に分割した中で1つを検証用、残りを訓練用に使う。k回じゅんぐり回す。 |
AIモデルの解釈性(XAI)
用語 |
解説 |
LIME |
近傍の線形近似を用いてブラックボックスモデル を局所的に説明する |
SHAP |
いくつかのツールを組み合わせたもの(LIME,DeepLift,QII)。機械学習モデルをより分かりやすく説明するための可視化ツール |
(XAIが全然イメージできない。。)
モデルの予測精度を高めるには、汎化誤差を最小にする必要がある。