いかおくら自習室のブログ

普段の学習内容などのアウトプット用のブログです

G検定学習記録_自然言語処理

thumpx3.hatenablog.jp

続き。

自然言語処理の前処理

用語 解説
形態素解析 文章を形態素(文章の最小単位)に分割し、それぞれの品詞と活用体系を決定する処理。MeCAb,kuromojiのツールがある。
ストップワードの除去 情報の少ない冠詞、前置詞、代名詞、接続詞などの単語を除くこと
トークン化 文章を適切な単語に分割すること。ツールをトークナイザーと呼ぶ
単語のベクトル化 単語や文章を数値で表現する手法
コサイン類似度 2つのベクトル間の類似度の指標で、-1~1の範囲をとる

単語のベクトル化の手法例

用語 解説
ワンホットエンコーディング 対応する単語を1、それ以外を0
Bag-of-Words 各単語が文書中に何回現れるか数える
TF-IDF 文書中の各単語の重要度を表す尺度
分散表現 単語を低次元の実数値ベクトルとして表現
Word2Vec 分散表現の一つ。単語をベクトル空間に埋め込む
FastText Word2Vecをベースにして、テキストの分類と単語の特徴表現の学習を行うライブラリ

様々なモデル

用語 解説
統計的言語モデル 先行する単語から次の単語を予測する確率的なモデル。N-gram言語モデルなど
ニューラル言語モデル ニューラルネットワークをベースにしたモデル。統計的言語モデルよりも汎化能力が高い。ex.ELMO(2層の双方向LSTMを用いて埋め込み表現を学習)、BERT(双方向トランスフォーマーエンコードとして用いる。Googleによって開発)、GPT(OPenAIが開発した文生成モデル。トランスフォーマーをベースにしている)

沼沼沼