ドイツのAccentize社のマシンラーニングテクニックにより、スピーチやボーカルレコーディングで発生する様々な種類のノイズをリアルタイムで分析し、より精密かつ迅速に除去することができる。


Screen Shot 2020-03-20 at 16.42.35
 ボイスゲート(VoiceGate)のメイン画面



マシンラーニング(machine learning)分野の最近の発展は、我々がデータを扱い、理解し、処理する方式を変化させた。 新たな理論的洞察力、自由に使えるプログラミングライブラリの増加、コンピューティングリソースへのアクセス増加により、データ処理問題を異なる角度から解決できる新たな可能性が台頭してきた。 Accentize社は最先端マシンラーニング理論をオーディオ信号処理領域に適用することに重点を置き、最先端研究とその生産実装間の格差を解消してきた。 新しく発売されたAccentize社の”VoiceGate"プラグインを使えば、スピーチやボーカル録音で発生可能なほぼ全てのノイズを簡単かつ自動化された方式で処理することができる。



"VoiceGate"は人間のスピーチ(speech)を分析する特殊訓練された人工神経網(artificial neural network)の下で作動するリアルタイムノイズ除去器(real-time noise reducer)です。 人工神経網のようなマシンラーニング技術の助けにより、"VoiceGate"アルゴリズムは音声信号構成要素のうち必要な部分と必要でないノイズを簡単に区別して処理できます。 "VoiceGate"に適用された人工神経網は、100時間を超えるオーディオデータを通じて人間のスピーチ特性を学習するように訓練されてきました。




VoiceGateエンジンの概要

"VoiceGate""Steady Noise""Impulsive Noise"2つのタイプで、一般的なノイズを感知するように設計されました。 このようなノイズ検出概念の下で、Steady Noiseはホワイトあるいはピンクノイズのように時間が経ってもその音量値が大きく変動しない固定的かつ一定の騒音を意味します。 反面、Impulsive Noiseはクリック(click)やポップ(pop)ノイズのように時間によって予期せぬ発生の一時的かつ即時の騒音を示します。 一旦検出されたノイズが、この2つのタイプのうちの1つに分類されると、”VoiceGate"は、ユーザーが指定した周波数領域内でそのノイズに対する減衰処理を開始します。 






ノイズ·コントロール

"VoiceGate"がマシンラーニングアルゴリズムをベースに実行されていることを忘れないでください。 したがって、ユーザーは"VoiceGate"がノイズに対する制御をほぼ自動で実現するため、パラメータの設定に心血を注ぐ必要はありません。 しかし、ノイズを制御するマシンラーニングメカニズムを通じてより良い結果を得るためには、”VoiceGate"の機能とコントロールを簡単に知っておく必要があります。



Screen Shot 2020-03-21 at 17.32.14

Mode: Broadband Mode Spectral Focus Mode


プラグインの上段には、"Broadband Mode""Spectral Focus Mode"2つのモード選択ボタンがあります。 基本設定はBroadband Modeに設定されており、このモードで”VoiceGate"を使用すると、"VoiceGate"がカバーできる全周波数の範囲(概ね50Hz~10000Hz)でノイズを制御することができます。



Screen Shot 2020-03-21 at 18.21.28

上段のウィンドウではフィルターが反応する現在の周波数応答を見せてくれる。


インタフェースの中央には、二つのウィンドウが表示されます。 上段のウインドウには、"VoiceGate"がカバーできる全体周波数範囲で、フィルターの現在の周波数応答が表示されます。 ーザーはこのウィンドウを通じてフィルターによって減衰(attenuation)されるノイズの周波数領域とその減衰の程度を直接モニタリングすることができます。



Screen Shot 2020-03-21 at 18.51.54
下段のウィンドウではプラグインを通過する全体シグナルの量とフィルタリングされたノイズの量が確認できる。

下段のウインドウには、出力波形とともに灰色の入力波形が表示されます。 ここからプラグインを通過する全信号の量とリアルタイムでフィルタリングされるノイズの量を観察することができます。 灰色の波形はノイズフィルタリングによって切断された部分を示します。


 

Screen Shot 2020-03-22 at 12.25.18

Steady NoiseImpulsive Noiseのパラメータ


インタフェースの下段には、二つの異なるノイズタイプに対する二つの制御セクションがあり、各セクションには二つのパラメータコントロールがあります。 左側のセクションは、時間によって波形が大きく変更されないSteady Noiseを制御するためのもので、右側のセクションはclickpopノイズのようなImpulsive Noise処理します。 両セクションの両方で最大許容減衰値及びsensitivity値を定義することができます。"Max Reduction"は、選択されたノイズの最大許容ゲイン減少値(gain reduction)を設定する時に使用されます。 ゲイン減少値は、各セクションで設定された最大減少(Max Reduction)値以下には落ちません。 もし、ユーザがsteady noiseimpulsive noiseだけをフィルタリングするには、選択していない他のセクションのMax Reduction値を0dBに設定して、そのセクションを無効化すれば、選択したセクションのノイズだけをフィルタリングすることができます。"Sensitivity"は、フィルターがノイズをどれだけ攻撃的に処理するかを設定します。 低いSensitivity値ではノイズ減少効果がほとんどありません。 また、Sensitivityは、減衰されたノイズとプロセス結果によって発生する副作用効果(artifacts)の間の折衝を見つける時に使うことができます。 一般的に、Impulsive Noiseセクションは、ほとんどのノイズをうまく処理します。 しかし、持続的かつ一定のノイズをImpulsive Noiseセクションで処理する場合、時々素早いgain変化による変調ノイズの発生をもたらすことがあります。 このような場合には、Steady Noise セクションを使ってノイズを処理すると、より望ましい結果を得ることができます。



 

Screen Shot 2020-03-21 at 18.05.11

Spectral Focusモード


プラグインの上段には、Bypassボタンと共にSpectral Focus Modeの選択ボタンがあります。 Spectral Focus Modeでは、ユーザーが指定した特定の周波数領域についてパラメータを個別に設定することができます。 上段のウインドウで3つの編集可能な領域のうち1つをクリックして1つの領域を選択し、白い点を左か右へドラッグして選択した領域の範囲を設定した後、選択した領域にパラメータ値を適用することができます。デフォルトは、三つの周波数領域すべてを同時に処理するように設定されていますが、例えば、子音(consonant sound)を含む高周波数領域に触れずに低周波数ノイズだけを減衰させるには、ユーザは低周波数領域を選択してノイズを処理することができます。 また、インタフェース上段のウインドウにある白い点をドラッグすることで、他の帯域のクロスオーバー周波数(cross-over frequency)を調整することができます。 インタフェース下部のパラメータセクションには、各ノイズタイプごとに6つの異なるノブ(knob)があります。 このコントロールは、Broadband Modeと同様の方式で動作しますが、ここでは各バンドごとに個別に動作します。 もし1つの帯域でノイズ減少を望まない場合は、その帯域のMax Reductionパラメータを0dBに設定してください。








VoiceGateを通過した音

Broadband Mode"Voice Gate"は音響的に処理されていない部屋で録音されたボーカルトラックに存在するほぼすべてのタイプのノイズに直ちに反応しました。 Steady Noiseフィルターは、窓から聞こえてくる鳥のさえずりとその根源が分からないHumノイズを自動的に感知し、除去しました。 一方、Impulsive Noiseフィルターは低価格マイクで録音されたボーカルから各種歯擦音と荒い呼吸音をリアルタイムで除去しました。 "VoiceGate"は、このような方式でノイズを除去し、音をより綺麗かつ明確にします。 驚くべきことは、VoiceGate経た音は音に歪曲や誇張がなく、処理されたノイズ領域外の周波数領域はそのまま保存されていることです。 

Spectral Focus Modeでは、ユーザーが指定した狭い周波数領域でノイズを外科的に除去(surgical elimination)できるため、このモードで出るボーカルの他のノイズは触らずに、ひたすら高周波領域の歯擦音のみを除去することができました。 また、ユーザーは選択した領域のノイズをモニタリングすることができ、これはユーザーによって除去される、あるいは保存されるノイズを見つけるのに非常に効果的と思われます。

“VoiceGate”のマシンラーニングアルゴリズムは、様々なユーザー経験から得た新しいデータを持続的に人工神経網に追加することで、着実に改善されるでしょう。したがって、"VoiceGate"は人間のスピーチとボーカルから発生するほぼすべての種類のノイズを感知し、処理できるものと考えられます。







"VoiceGate"の主な用途:

  • スピーチやボーカル録音のノイズをリアルタイムで減らす。
  • クリック(click)やポップ(pop)ノイズを除去
  • 背景雑音(background noises)を除去する。
  • 様な種類のノイズをリアルタイムで感知し、処理する。
  • and more.





価格情報:

 

€84.00 EUR (84 ユーロ)




*macOS及びWindows用の7日間、全機能評価版を無料でダウンロードできます: こちら






Accentize マシンラーニング(machine learning)分野の最近の発展は、我々がデータを扱い、理解し、処理する方式を変化させた。 新たな理論的洞察力、自由に使えるプログラミングライブラリの増加、コンピューティングリソースへのアクセス増加により、データ処理問題を異なる角度から解決できる新たな可能性が台頭してきた。 Accentize社は最先端マシンラーニング理論をオーディオ信号処理領域に適用することに重点を置き、最先端研究とその生産実装間の格差を解消してきた。






"VoiceGate"についてのより詳しい情報