G検定学習記録_自然言語処理
続き。
自然言語処理の前処理
用語 | 解説 |
---|---|
形態素解析 | 文章を形態素(文章の最小単位)に分割し、それぞれの品詞と活用体系を決定する処理。MeCAb,kuromojiのツールがある。 |
ストップワードの除去 | 情報の少ない冠詞、前置詞、代名詞、接続詞などの単語を除くこと |
トークン化 | 文章を適切な単語に分割すること。ツールをトークナイザーと呼ぶ |
単語のベクトル化 | 単語や文章を数値で表現する手法 |
コサイン類似度 | 2つのベクトル間の類似度の指標で、-1~1の範囲をとる |
単語のベクトル化の手法例
用語 | 解説 |
---|---|
ワンホットエンコーディング | 対応する単語を1、それ以外を0 |
Bag-of-Words | 各単語が文書中に何回現れるか数える |
TF-IDF | 文書中の各単語の重要度を表す尺度 |
分散表現 | 単語を低次元の実数値ベクトルとして表現 |
Word2Vec | 分散表現の一つ。単語をベクトル空間に埋め込む |
FastText | Word2Vecをベースにして、テキストの分類と単語の特徴表現の学習を行うライブラリ |
様々なモデル
用語 | 解説 |
---|---|
統計的言語モデル | 先行する単語から次の単語を予測する確率的なモデル。N-gram言語モデルなど |
ニューラル言語モデル | ニューラルネットワークをベースにしたモデル。統計的言語モデルよりも汎化能力が高い。ex.ELMO(2層の双方向LSTMを用いて埋め込み表現を学習)、BERT(双方向トランスフォーマーをエンコードとして用いる。Googleによって開発)、GPT(OPenAIが開発した文生成モデル。トランスフォーマーをベースにしている) |
沼沼沼