ailia SDKを活用した、Whisperでのリアルタイム文字起こし | いとぐちナビ

こんにちは。パートナー企業の株式会社アクセルです。
今回は、ailia SDKとailia MODELSの「AI推論プログラム」を活用した、Whisperでのリアルタイム文字起こしの改良を実現する商品を紹介させていただきます。

■ ailia SDKとailia MODELS

ailia SDKは開発環境を選ばない、クロスプラットフォームに対応したAI推論のフレームワークです。

今回は、図のailia MODELSとして公開しているWhisperへの仕込みを解説します。
推論プログラムはすべてGitHubでパブリックに公開しているので、自由にダウンロードしてお使いいただけます。

■ 改良点その１：途中結果の表示

Whisperの推論処理には、3つのフローがございます。
　① AI処理用に音声データを切り刻むChunk分割
　② Encoderによる潜在表現の取得(Embedding)
　③ Decoderによるテキスト出力
GitHubに公開しているプログラムは、Decoderによるテキスト出力工程で、途中結果を表示できるような仕込みを入れています。そのため、待たされている感が若干軽減されます。

■ 改良点その２：投機実行によるライブ変換

こちらは、さらに踏み込んだモデルで、ailia MODELSではなく、ailia SDKのサプリメントライブラリーとして公開されています。
Whisperの処理をAPI化しているので、音声の文字起こしをプログラムに組み込むことができます。
C, C#で実装しているため、Windows, LinuxやMacOSに加え、AndroidやiOSへも対応できます。
投機実行とは、Chunk生成を待たずに、BufferデータをEncoderに放り込むという方式です。

この機能はailia MODELSでは未実装ですが、demoアプリを公開しているので、リアルタイム処理を実感してみてください。　
※リンク先ページ中央にダウンロードリンクがございます。

■ ailia SDKとailia MODELSのダウンロード方法

評価用ライセンスとインストール方法につきましては、こちらから可能です。

ダウンロードはこちら

インストール方法はこちら

また、Pythonを普段お使いの方は、コマンドプロンプトから下記方法でも評価版をインストールいただけます。

pip3 install ailia

これだけでailia SDKがインストール完了します。商用以外は無償でご使用いただけます。

git clone https://github.com/axinc-ai/ailia-models

公開しているailia MODELSをダウンロードします。

cd ailia-models
pip3 install –r requirements.txt

必要なPythonモジュールをインストールします。

cd audio_processing
pip3 install –r requirements.txt

audio_processingに必要なPythonモジュールをインストールします。

cd whisper
python3 whisper.py –model_type small –beam_size 1 –V –intermediate

Whisperのフォルダーに入り、コマンドで処理します。
パラメータ設定方法は、whisperフォルダー内の”readme.md”を参照してください。

■ 関連製品

アクセル社のAIプラットフォーム

■ 参考資料

■ 更新履歴

2024/09/24　新規作成

課題解決の糸口を共に見つけ出す『いとぐちナビ』

ailia SDKを活用した、
Whisperでのリアルタイム文字起こし

■ ailia SDKとailia MODELS

■ 改良点その１：途中結果の表示

■ 改良点その２：投機実行によるライブ変換

■ ailia SDKとailia MODELSのダウンロード方法

■ 関連製品

■ 参考資料

■ 更新履歴

COLMINA 設計製造支援 iCAD SX

「成果報酬型」間接材コスト削減支援サービス

iNetSec FC

e-order

pengu

DynaEye 11

ailia SDKを活用した、 Whisperでのリアルタイム文字起こし

■ ailia SDKとailia MODELS

■ 改良点その１：途中結果の表示

■ 改良点その２：投機実行によるライブ変換

■ ailia SDKとailia MODELSのダウンロード方法

■ 関連製品

■ 参考資料

■ 更新履歴

ailia SDKを活用した、
Whisperでのリアルタイム文字起こし