いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

G検定学習記録_機械学習の具体的手法

thumpx3.hatenablog.jp

続き。

分類、回帰両方使える手法

用語 解説
kNN法(k近傍法) 新たなデータが与えられた時、近くにあるk個のデータから推定を行う ※kNN法は機械学習アルゴリズムの一つで、k-meansはクラスタリングアルゴリズム*1

アンサンブル手法*2

用語 解説
バギング 弱学習器を並列学習させる。過学習を抑えられるが、可視性は低い。代表的なのはランダムフォレスト
ブースティング 弱学習器を直列学習させる。バギングと比べて精度は良いが、時間がかかる。例えばAdaBoost、GradientBoosting、XGboost、LightGBM、CatBoost
スタッキング 複数のモデル(ニューラルネットワーク、ロジスティック回帰、ランダムフォレスト、kNN法、etc....)を学習させ、それらの出力を組み合わせて新しい学習器を作る。

損失関数

用語 解説
MAE(平均絶対誤差) |実測値 - 推定値| ÷ 標本の大きさ
MSE(平均二乗誤差) (実測値 - 推定値)2 ÷ 標本の大きさ
RMSE(平均二乗誤差) √MSE

データスケーリング

用語 解説
標準化 平均0、標準偏差1
正規化 データを0~1に収める

正則化過学習を抑制するための手法。L1正則化やL2正則化

ハイパーパラメータ最適化

用語 解説
グリッドサーチ 格子状のように網羅的に、最良のパラメータを探す。正確だが時間がかかる
ランダムサーチ ランダムに選択してテストする。グリッドサーチに比べて正確性に欠けるが、短時間。
ベイズ最適化 既に持っている情報から、より効果的なパラメータを予想する。グリッドサーチとランダムサーチの欠点を補うことができる。

教師なし学習

教師なし学習の代表的なものが「クラスタリング」と「次元削減」

用語 解説
階層的クラスタリング 距離の近い2つのデータを組み合わせて1つのまとまりを作る
非階層的クラスタリング 基準点からの距離でデータをクラスタ分け。その重心を新たな基準点として設定〜を繰り返す。代表的なのがk-means手法
t-SNE 高次元データを2次元又は3次元に変換して可視化するための次元削減アルゴリズム*3

時系列モデル*4

用語 解説
ARモデル 前の値を用いて現時点での値を推論
MAモデル 前の誤差を用いて現時点での値を推論
ARMAモデル ARとMAを組み合わせたもの
ARIMAモデル ARMAを拡張。トレンド性(株価,GDP)を持つ時系列データを取り入れた
SARIMAモデル ARIMAを拡張。季節成分を取り入れた

レコメンデーション

用語 解説
コンテンツベースフィルタリング 過去に購買した商品に似た商品をレコメンデーション
協調型フィルタリング 似ている顧客の購買履歴からレコメンデーション

過学習を検知する手法

用語 解説
ホールドアウト法 教師データを訓練データ(7~8割)、検証データ(2~3割)に分ける手法
交差検証(cross validation) 代表的な手法にk-分割交差検証法。k個に分割した中で1つを検証用、残りを訓練用に使う。k回じゅんぐり回す。

AIモデルの解釈性(XAI)

用語 解説
LIME 近傍の線形近似を用いてブラックボックスモデル を局所的に説明する
SHAP いくつかのツールを組み合わせたもの(LIME,DeepLift,QII)。機械学習モデルをより分かりやすく説明するための可視化ツール

(XAIが全然イメージできない。。)

汎化誤差*5

モデルの予測精度を高めるには、汎化誤差を最小にする必要がある。

  • バイアス:偏り誤差。バイアスが大きいと、そのモデルは入力と出力の関係性を正確に表現できていないことになる(学習不足)

  • バリアンス:ばらつき誤差。バリアンスが大きいと、そのモデルは訓練データのノイズまで学習してしまっていることになる(過学習