G検定学習記録_音声処理
続き。
音声データのデジタル形式で一般的な変換方法をパルス符号変調(PCM)と呼ぶ。
PCMのプロセス
用語 | 解説 |
---|---|
サンプリング | サンプルを集める技術。44.1kHz = 44,100個のサンプル。 |
量子化 | 過剰なビットを減らして値を圧縮、計算しやすくする。 |
符号化 | 量子化の各レベルに異なるバイナリコードを割り当ててデータのデジタル化を行う。 |
特徴抽出
生の音声に含まれるノイズや無関係な情報をフィルタリングする手法
用語 | 解説 |
---|---|
フーリエ変換 | 時間軸のデータ→周波数を軸としたデータに変換 |
メル尺度 | ヘルツを人間の聴覚に基づいた尺度に変換 |
メルスペクトログラム | スペクトログラムが周波数を時間と共に視覚的に表現する手法。メルスペクトログラムはスペクトログラムにおいて周波数をメル尺度に変換したもの |
メル周波数ケプストラム係数 | ケプストラムとは、フーリエ変換を逆にした計算結果。メル周波数ケプストラム係数は、音声からノイズを分離し、音声記号から音素を抽出し、機械学習の性能を向上させるために使用されている。 |
・HMM:統計的手法によって大量のデータを集める
・WaveNet:2016年にDeepMind社によって発表されたニューラルネットワーク。従来に比べて圧倒的に質の高い音声合成が可能となった。
使っている教材、他にも色々単語が出ていたけどまとめるのが難しかった。。