こんにちは。パートナー企業の株式会社アクセルです。
今回は、ailia SDKとailia MODELSの「AI推論プログラム」を活用した、Whisperでのリアルタイム文字起こしの改良を実現する商品を紹介させていただきます。
■ ailia SDKとailia MODELS
ailia SDKは開発環境を選ばない、クロスプラットフォームに対応したAI推論のフレームワークです。
今回は、図のailia MODELSとして公開しているWhisperへの仕込みを解説します。
推論プログラムはすべてGitHubでパブリックに公開しているので、自由にダウンロードしてお使いいただけます。
■ 改良点その1:途中結果の表示
Whisperの推論処理には、3つのフローがございます。
① AI処理用に音声データを切り刻むChunk分割
② Encoderによる潜在表現の取得(Embedding)
③ Decoderによるテキスト出力
GitHubに公開しているプログラムは、Decoderによるテキスト出力工程で、途中結果を表示できるような仕込みを入れています。そのため、待たされている感が若干軽減されます。
■ 改良点その2:投機実行によるライブ変換
こちらは、さらに踏み込んだモデルで、ailia MODELSではなく、ailia SDKのサプリメントライブラリーとして公開されています。
Whisperの処理をAPI化しているので、音声の文字起こしをプログラムに組み込むことができます。
C, C#で実装しているため、Windows, LinuxやMacOSに加え、AndroidやiOSへも対応できます。
投機実行とは、Chunk生成を待たずに、BufferデータをEncoderに放り込むという方式です。
この機能はailia MODELSでは未実装ですが、demoアプリを公開しているので、リアルタイム処理を実感してみてください。
※リンク先ページ中央にダウンロードリンクがございます。
■ ailia SDKとailia MODELSのダウンロード方法
評価用ライセンスとインストール方法につきましては、こちらから可能です。
また、Pythonを普段お使いの方は、コマンドプロンプトから下記方法でも評価版をインストールいただけます。
pip3 install ailia
これだけでailia SDKがインストール完了します。商用以外は無償でご使用いただけます。
git clone https://github.com/axinc-ai/ailia-models
公開しているailia MODELSをダウンロードします。
cd ailia-models
pip3 install –r requirements.txt
必要なPythonモジュールをインストールします。
cd audio_processing
pip3 install –r requirements.txt
audio_processingに必要なPythonモジュールをインストールします。
cd whisper
python3 whisper.py –model_type small –beam_size 1 –V –intermediate
Whisperのフォルダーに入り、コマンドで処理します。
パラメータ設定方法は、whisperフォルダー内の”readme.md”を参照してください。
■ 関連製品
■ 参考資料
- Whisper : 日本語を含む99言語を認識できる音声認識モデル | by Kazuki Kyakuno | axinc | Medium
- ailia SDK チュートリアル(Python). ailia… | by Kazuki Kyakuno | axinc | Medium
■ 更新履歴
2024/09/24 新規作成