音声AI診断 - 滑舌・テンポ・艶・信頼性の把握
音声AI診断では、音声レーダーを使って声の状態が把握できます。
比較のため音声ドリル診断のサンプルの同じ音声を使用した結果で説明したいと思います。
![]() |
音声AI診断の音声レーダー(単文) |
ご覧のように、比較対象が「ドリル」でなく「AI」となっていて、形状もかなり違って表示されています。
音声ドリル診断 vs. 音声AI診断
音声ドリル診断の利用目的
音声ドリル診断は、あらかじめ用意した「良質な語り」を模範に、利用者の「語り」を計測します。利用目的は、利用者の「語り」の改良点を検出することです。ドリル制作者に近づける努力を通じて、日々のトレーニングのツールとして利用できます。
音声ドリル診断関係図
![]() |
音声ドリル診断制作者と利用者の関係 |
①あらかじめ用意したドリル文章をドリル制作者が音読する
②Google Cloud Speech-to-Textが音声を文字に変換後、計測システムが音声特徴抽出③ドリル制作者の音声レーダーを作成
④選択したドリルを音読する
⑤Google Cloud Speech-to-Textが音声を文字に変換後、計測システムが音声特徴抽出⑥ドリル制作者の音声特徴と比較し、音声レーダーを作成
音声ドリル診断の実施例
複数文ある文章の場合、この流れが続きます。
音声AI診断の利用目的
一方、音声AI診断には用意した音声は無く、自由に「語る」ことであなたの音声を計測し、結果を報告します。この時、あなたの音声を聞き取ったAIが、その内容を再演することで、「音声ドリル診断」と同じ比較を実施します。
「再演」というのはちょっと奇妙ですが、再度音声化し、これをドリル制作者に見立てています。
利用目的は、音声の現在の状況を把握することにです。定期的に利用することで、声の状態が把握できますので、ちょうど体重計で健康状態を観察するのに似ています。
音声AI診断の関係図
![]() |
音声AI診断利用者とAI再演の関係 |
①利用者の自由な「語り」を、Google Cloud Speech-to-Textが文字に変換
②計測システムが音声特徴を抽出
③利用者の音声レーダーを作成
④文字変換された漢字文章を取り出す
⑤漢字文章をGoogle Cloud Text-to-Speechで音声ファイルに変換
⑥音声ファイルをGoogle Cloud Speech-to-Textで文字変換
⑦計測システムで音声特徴抽出⑧計測結果と③の利用者音声レーダーから詳細情報作成
音声AI診断の実施例
音声レーダー
AI側の性別
AI女性の音声: ja-JP-Neural2-BAI男性の音声: ja-JP-Neural2-D
同性を選択することで、性差による相違を回避できると期待しています。
尚、再演で使われた音声は、詳細表示の右下から聞くことができます。
![]() |
AI再演ボイスを聞く |
音声AI診断の特徴
音声合成の弱点?
声の艶が乏しい?
抑揚は大丈夫か?
新しい言葉や話題に関して、知識ベースの蓄積の少ないと思われる音声には、抑揚が正しく行われないケースがあります。ネットニュースなでの自動音声などで、時折耳にすると思いますが、この音声AI診断のAI側再演でも発声します。結果として、利用者の抑揚スコアーが低く表示される場合がありますので、ご容赦ください。
また、利用者側の原因で、利用者音声が正しく認識されない場合、再演に使用する文章自体が大きく異なって、抑揚スコアーを下げる場合もあります。詳細表示で確認してみてください。
その他の特徴
滑舌
AIの合成音声による滑舌は、優れていると思います。しっかりと、破裂音・摩擦音などが発声され、高周波モーラとして詳細表示で確認できます。
テンポ
AIの合成音声による速度は申し分ないですね。
区切位置に関しても、「あれ?」という箇所に付く場合がありますが、概ね標準の区切り数に合致しているようです。
声の艶
AI合成音声の声の艶に関しては既述の通りですが、利用者側の「声の艶」は、AI合成音声には影響されず、単独の評価ですので、結果を信頼して利用して頂けます。AI信頼度
![]() |
AI信頼度の利用者 vs. AI再演 |
コメント
0 件のコメント :
コメントを投稿