G検定学習記録_自然言語処理 - いかおくら自習室のブログ

続き。

用語	解説
形態素解析	文章を形態素（文章の最小単位）に分割し、それぞれの品詞と活用体系を決定する処理。MeCAb,kuromojiのツールがある。
ストップワードの除去	情報の少ない冠詞、前置詞、代名詞、接続詞などの単語を除くこと
トークン化	文章を適切な単語に分割すること。ツールをトークナイザーと呼ぶ
単語のベクトル化	単語や文章を数値で表現する手法
コサイン類似度	2つのベクトル間の類似度の指標で、-1~1の範囲をとる

用語	解説
ワンホットエンコーディング	対応する単語を1、それ以外を0
Bag-of-Words	各単語が文書中に何回現れるか数える
TF-IDF	文書中の各単語の重要度を表す尺度
分散表現	単語を低次元の実数値ベクトルとして表現
Word2Vec	分散表現の一つ。単語をベクトル空間に埋め込む
FastText	Word2Vecをベースにして、テキストの分類と単語の特徴表現の学習を行うライブラリ

用語	解説
統計的言語モデル	先行する単語から次の単語を予測する確率的なモデル。N-gram 言語モデルなど
ニューラル言語モデル	ニューラルネットワークをベースにしたモデル。統計的言語モデルよりも汎化能力が高い。ex.ELMO(2層の双方向LSTMを用いて埋め込み表現を学習)、BERT(双方向トランスフォーマーをエンコードとして用いる。Googleによって開発)、GPT(OPenAIが開発した文生成モデル。トランスフォーマーをベースにしている)

用語

解説

先行する単語から次の単語を予測する確率的なモデル。N-gram 言語モデルなど

ニューラル言語モデル

ニューラルネットワークをベースにしたモデル。統計的言語モデルよりも汎化能力が高い。ex.ELMO(2層の双方向LSTMを用いて埋め込み表現を学習)、BERT(双方向トランスフォーマーをエンコードとして用いる。Googleによって開発)、GPT(OPenAIが開発した文生成モデル。トランスフォーマーをベースにしている)

沼沼沼