いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

G検定学習記録_畳み込みニューラルネットワーク

G検定

thumpx3.hatenablog.jp

続き。

畳み込みニューラルネットワーク(CNN)の構造

用語	解説
畳み込み層	フィルタを用いて入力画像から線やエッジ、物体などの特徴を抽出する
プーリング層	画像のサイズを縮小することで情報量を圧縮する処理を行う
全結合層	出力層の手前の層。分類の結果を出す

モデルの軽量化

用語	解説
プルーニング	重要ではない重みを削除
量子化	重みなどの値を圧縮して小さなビット数に変換
蒸留	学習済みのモデルからの予想結果を学習データとして、小さなモデルを学習させる

※アフィン変換：拡大・縮小、平行移動、回転、せん断を行う

物体検出タスク

用語	解説
2段階モデル	物体の位置を特定した後に種類を判別するモデル。R-CNN、FPN
1段階モデル	位置特定と種類判別を両方同時に行うモデル

セグメンテーションタスク

用語	解説
セマンティックセグメンテーション	画像を画素レベルで切り取り、画素ごとに分類する
インスタンスセグメンテーション	物体検出後に領域を切り分け、画素レベルで抽出する

CNN様々なモデル

用語	解説
AlexNet	2012年にILSVRCのコンペで優勝。8層で構成されている
GoogLeNet	2014年にILSVRCで優勝
VGG	2014年にILSVRCで準優勝。16層で構成されている
ResNet	2015年にILSVRCで優勝。152層で構成されている
EfficientNet	従来のモデルよりもパラメータ数を削減
MobileNet	メモリが少ない環境でも使えるモデル
FCN	セマンティックセグメンテーションのモデル。畳み込み層だけで構成されたもの
SegNet,U-Net,PSPNet	エンコーダとデコーダで構成されたCNNモデル
DeepLab	間隔を空けて畳み込みする
OpenPose	姿勢推定タスク。複数の人の動きを認識できる
YOLO,SSD	マルチタスク学習。物体分類と検出が可能
Mask R-CNN	マルチタスク学習。物体検出とセグメンテーションを行う

CNNはタスクとモデルがこんがらがる。。。