VALL Eは、Microsoft株式会社による人工知能を搭載したAndroidアプリケーションです。本アルゴリズムは、人間の音声を驚異的な精度で模倣します。同時に、十分な学習がたった3秒間の音声記録サンプルで可能となります。
動作の原理
本プラットフォームは、ChatGPTと同様、AIベースのアルゴリズムとなっています。こちらの開発にあたって、6万時間以上の英語音声を収録したライブラリLibriLightを活用いたしました。
加えて、本モデルは標準的な音声合成方法とは異なり、音波を扱うものではありません。本ニューラルネットワークは、人の話し声を特殊なトークンに分解し、その特徴を明らかにします。これにより、サンプルにある3秒間という長さを超えて、声の響きを模倣することができます。
本アルゴリズムは、たとえば怒り、喜び、嫌悪など、さまざまな感情をシミュレート可能です。環境音を再生することも可能です。
利用可能性
Microsoft社は、本レビューの執筆時点では、実験用アルゴリズムを公開していません。 それは、攻撃者によってニューラルネットワークが使用される危険性が高いことと関係しています。ユーザーのみなさまは、公式サイト上で音声シミュレーションのデモサンプルを閲覧可能で、ニューラルネットワークの能力を評価することができます。
特徴
- 本アルゴリズムでは、人間の音声を高い精度で模倣することが可能です。
- 環境と感情の色合いを再現することができます。
- モデルの作成にはEnCodecの技術が使われています。
- 最新のAndroidのバージョンと互換性があります。
- ダウンロードと使用は無料です。