CELP方式の原理
前項で音声コーデックの原理を簡単に説明しましたが, ハイブリッド方式の中でもVoIPで使用される事が多いCELP(Code-Excited Linear Prediction:符号励振線形予測)方式ついてもう少し詳しい説明をします。 ITU-T G.723.1(5.3kbit/s)やG.729はCELP方式です。 最初にデコーダと符号データについて説明します。(図4) デコーダは音声を生成するためのメカニズムそのものであり,符号データはデコーダの各コンポーネントへの情報源と捉える事ができます。 デコーダにおいて最も良い音声が再生出来るような符号データを選択する事がエンコーダの役目になります。
(図4)CELPデコーダ
(クリックすると大きい画像を開きます。)
デコーダと符号データ
励振信号は適応コードブックと固定コードブックの信号にそれぞれゲインを掛けて加算する事により得られます。 励振信号を合成フィルタに通すと音声が再生されます。
適応コードブック
適応コードブックの実体は過去に生成した励振信号そのものです。 音声信号は周期性が強いので過去に生成した励振信号を保存しておき,ピッチ周期情報に基づいて再利用します。
固定コードブック
固定コードブックは予め決められた複数の波形データの集まりです。そのインデックスが符号データになります。 特にACELPの場合は固定コードブックとして振幅が一定のパルス(振幅情報が無い)を使用するため,パルスの位置情報だけで励振信号が表現できます。 そのためコードブックのためのメモリが必要ありません。またエンコーダにおいては代数的な特徴を利用して, 少ない演算処理でコードブックの探索を行う事ができます。
ゲイン・コードブック
ゲイン・コードブックには適応コードブックと固定コードブックのゲイン情報が両方とも含まれています。 2種類のゲイン情報を組にしたものが複数用意されており,そのインデックスが符号データになります。
合成フィルタ
通常,合成フィルタには線形予測フィルタが用いられます。 合成フィルタの情報として線形予測係数と相互変換が可能で,かつ符号化に適したLSPパラメータが使用されます。 複数のLSPパラメータがコードブックに用意されており,そのインデックスが符号データになります。
ポスト・フィルタ
聴感上の品質を改善するためのフィルタです。ピッチやフォルマントを強調する事により合成した音声のザラザラ感が低減されます。
エンコーダ
(図5)にエンコーダの符号化手順を示します。 最初に入力音声信号の線形予測分析を行い,線形予測係数を求めます。これをLSPパラメータに変換し,最も近いものをLSPコードブックの中から選びます。 さらに後のコードブック探索のために,選んだLSPパラメータを再び線形予測係数に変換しておきます。 次にピッチ分析,固定コードブック,ゲイン・コードブックの探索を順に行い, 量子化された予測係数で合成した音声が最も入力信号に近くなるようなインデックスを求めます。
(図2)人間の発声構造
(クリックすると大きい画像を開きます。)