Node-REDのノードを作成してみる　その2（whisperノード）

2024年8月24日 2024年8月24日

管理人

はじめに

　今回はOpen AIのWhisperを利用した、Node-RED用のwhisperノードを作成しました。音声ファイルのパスを渡すと、文字起こしをすることができます。

　以前PythonでWhisperを利用できたので、Node-REDでPythonの仮想環境を作成して実行できるpython-venvノードと同じ仕組みで作成しています。インストール時にPythonの仮想環境を作成し、その環境にWhisperをインストールするようになっています。

▼作成したwhisperノードは、すでに公開しています。

https://flows.nodered.org/node/@background404/node-red-contrib-whisper

▼以前の記事はこちら

execノードで実行してみる

　ノードを作成する前に、まずはexecノードでWhisperを利用できるかの確認です。

　PythonでWhisperを利用したときのプログラムを元に、引数を受け取って実行できるようにしました。

▼フローはこちら

　execノードのコマンドには、仮想環境のpython.exeのパスと、以前の記事で実行していたPythonのプログラムのパスを入力しています。

　spawnモードとexecモードを試してみましたが、同様の結果でした。

▼msg.payloadを引数として受け取ることができるようにしています。

　実行してみたのですが、文字化けして表示されていました。エンコーディングを変更したりしていたのですが、うまくいきませんでした。

▼デバッグノードでbufferとして表示されています。

▼ファイルに保存したものも文字化けしていました。

　結局、Python側で一旦ファイルに保存して、そのファイルをNode-REDで読み込むようにすると、文字化けせずに表示することができました。

ノードを作成する

ノード作成の方針

　python-venvノードと同様に、PythonとJavaScriptのプログラムでやり取りをします。

▼pythonやpipのパスについては、JSONファイルで共有しています。

　Whisperの処理はPythonで行い、その呼び出しと出力されたファイルの読み込みはJavaScriptで行っています。

　Whisperを実行するにあたって、モデルの大きさや言語、音声ファイルのパスを引数として受け取ることができるようにしています。

▼transcription.pyにその処理が含まれています。

https://github.com/404background/node-red-contrib-whisper/blob/main/transcription.py

出力したテキストをファイルに保存して読み込む

　execノードで事前に検証したように、文字化けすることがありました。そこで、Pythonでテキストを一旦ファイルに保存し、そのファイルをJavaScriptで読みこむようにしてみました。

▼Pythonのファイルへの保存については、こちらの記事が参考になりました。

https://note.nkmk.me/python-file-io-open-with/#modew

　JavaScript側ではreadFileSyncを使いました。

▼こちらの記事が参考になりました。

https://qiita.com/shirokuman/items/509b159bf4b8dd1c41ef

▼whisper.jsにその処理が含まれています。

https://github.com/404background/node-red-contrib-whisper/blob/main/whisper.js

msg.voicepathで音声ファイルのパスを受け付ける

　ノード内で設定した音声ファイルのパスに対して実行するのがデフォルトになっているのですが、msg.voicepathで受け取ったパスでも処理を行うことができるようにしています。

　msg.voicepathが設定されていないのに処理を行おうとするとエラーが出たので、msg.voicepathがundefinedでないか、また空白でないかを判定しています。

▼undefinedの判定には、typeofを使っています。

https://www.javadrive.jp/javascript/var/index6.html

▼whisper.jsの処理を抜粋したものがこちら

node.on('input', function(msg) {
    if(typeof msg.voicepath !== 'undefined' && msg.voicepath !== '') {
        voicepath = msg.voicepath
    }
    command = pythonPath + ' ' + transcriptionPath + ' ' + voicepath + ' ' + config.language + ' ' + config.model + ' ' + this.id
    execSync(command)
    msg.payload = String(fs.readFileSync(tmpText))
    node.send(msg)
})