いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

G検定学習記録_畳み込みニューラルネットワーク

thumpx3.hatenablog.jp

続き。

畳み込みニューラルネットワーク(CNN)の構造

用語 解説
畳み込み層 フィルタを用いて入力画像から線やエッジ、物体などの特徴を抽出する
プーリング層 画像のサイズを縮小することで情報量を圧縮する処理を行う
全結合層 出力層の手前の層。分類の結果を出す

モデルの軽量化

用語 解説
プルーニング 重要ではない重みを削除
量子化 重みなどの値を圧縮して小さなビット数に変換
蒸留 学習済みのモデルからの予想結果を学習データとして、小さなモデルを学習させる

※アフィン変換:拡大・縮小、平行移動、回転、せん断を行う

物体検出タスク

用語 解説
2段階モデル 物体の位置を特定した後に種類を判別するモデル。R-CNN、FPN
1段階モデル 位置特定と種類判別を両方同時に行うモデル

セグメンテーションタスク

用語 解説
セマンティックセグメンテーション 画像を画素レベルで切り取り、画素ごとに分類する
インスタンスセグメンテーション 物体検出後に領域を切り分け、画素レベルで抽出する

CNN様々なモデル

用語 解説
AlexNet 2012年にILSVRCのコンペで優勝。8層で構成されている
GoogLeNet 2014年にILSVRCで優勝
VGG 2014年にILSVRCで準優勝。16層で構成されている
ResNet 2015年にILSVRCで優勝。152層で構成されている
EfficientNet 従来のモデルよりもパラメータ数を削減
MobileNet メモリが少ない環境でも使えるモデル
FCN セマンティックセグメンテーションのモデル。畳み込み層だけで構成されたもの
SegNet,U-Net,PSPNet エンコーダとデコーダで構成されたCNNモデル
DeepLab 間隔を空けて畳み込みする
OpenPose 姿勢推定タスク。複数の人の動きを認識できる
YOLO,SSD マルチタスク学習。物体分類と検出が可能
Mask R-CNN マルチタスク学習。物体検出とセグメンテーションを行う

CNNはタスクとモデルがこんがらがる。。。