音声AI診断では、音声レーダーを使って声の状態が把握できます。

比較のため音声ドリル診断のサンプルの同じ音声を使用した結果で説明したいと思います。

AIドリルの音声レーダー(単文)
音声AI診断の音声レーダー(単文)

ご覧のように、比較対象が「ドリル」でなく「AI」となっていて、形状もかなり違って表示されています。


音声ドリル診断 vs. 音声AI診断

両ドリルは、利用者の声を診断し、5つの特徴を判定し、性別・声年齢を推定します。
両者は、診断対象の音声コンテンツを事前に用意しているか否かに違いがありますが、これは利用目的が異なるためです。

音声ドリル診断の利用目的

音声ドリル診断は、あらかじめ用意した「良質な語り」を模範に、利用者の「語り」を計測します。利用目的は、利用者の「語り」の改良点を検出することです。ドリル制作者に近づける努力を通じて、日々のトレーニングのツールとして利用できます。


音声ドリル診断関係図

音声ドリル制作者と利用者の関係
音声ドリル診断制作者と利用者の関係


事前にドリル制作者がドリルを準備します。(①~③)
①あらかじめ用意したドリル文章をドリル制作者が音読する
②Google Cloud Speech-to-Textが音声を文字に変換後、計測システムが音声特徴抽出
③ドリル制作者の音声レーダーを作成

利用者がドリルを選択し実行します。(④~⑥)
④選択したドリルを音読する
⑤Google Cloud Speech-to-Textが音声を文字に変換後、計測システムが音声特徴抽出
⑥ドリル制作者の音声特徴と比較し、音声レーダーを作成
※システムに事前に用意したドリルの他に、利用者がドリルを制作し登録することも出来ます。(⇒語リーナの紹介

音声ドリル診断の実施例

ドリル実施の実施例です。

音声ドリル利用の模様

複数文ある文章の場合、この流れが続きます。


音声AI診断の利用目的

一方、音声AI診断には用意した音声は無く、自由に「語る」ことであなたの音声を計測し、結果を報告します。この時、あなたの音声を聞き取ったAIが、その内容を再演することで、「音声ドリル診断」と同じ比較を実施します。

「再演」というのはちょっと奇妙ですが、再度音声化し、これをドリル制作者に見立てています。

利用目的は、音声の現在の状況を把握することにです。定期的に利用することで、声の状態が把握できますので、ちょうど体重計で健康状態を観察するのに似ています。


音声AI診断の関係図

AIドリル利用者とAI再演の関係
音声AI診断利用者とAI再演の関係

①利用者の自由な「語り」を、Google Cloud Speech-to-Textが文字に変換
②計測システムが音声特徴を抽出
③利用者の音声レーダーを作成
④文字変換された漢字文章を取り出す
⑤漢字文章をGoogle Cloud Text-to-Speechで音声ファイルに変換
⑥音声ファイルをGoogle Cloud Speech-to-Textで文字変換
⑦計測システムで音声特徴抽出
⑧計測結果と③の利用者音声レーダーから詳細情報作成
少々おおげさな流れですが、実は②~⑧は裏方の仕事で、利用者が①で音声を吹き込んだ後は、すべて自動で実施され「音声レーダー」が表示されます。

音声AI診断の実施例

AIドリル利用の模様



音声レーダー

音声レーダーに表示される項目、詳細情報は全て「音声ドリル診断」と同じです。ただし、比較対象が、ドリル制作者ではなく、AIで再演された音声という点が異なります。

AI側の性別

AI側の音声は、男女二人が担当しますが、利用者の性に合わせて出演します。
AI音声は、Google Cloud Text to Speechを介して、男女8人の声が利用できます。音声AI診断では、この中から最も自然で聞きやすい男女二名を採用しています。
AI女性の音声: ja-JP-Neural2-B
AI男性の音声: ja-JP-Neural2-D

 同性を選択することで、性差による相違を回避できると期待しています。

尚、再演で使われた音声は、詳細表示の右下から聞くことができます。

AI再演ボイスを聞く
AI再演ボイスを聞く

音声AI診断の特徴

AIが再演する音声は、知識ベースに依存していること、コンピュータによる合成音であることなどから、音声ドリル診断による比較とは異なる点があります。

音声合成の弱点?

弱点と表現するのは、やや的外れかもしれませんが、「あまり、期待しないでください。」といった部分があります。

声の艶が乏しい?

AIドリルの音声レーダー(総合)
音声AI診断の音声レーダー(総合)

倍音が少なく「声の艶」がありません。そのため、音声レーダーの声の艶は、5段階評価で3~3.5程度でスコアーされています。
通常は、利用者の「声の艶」が高く表示されると思いますが、同程度か低い場合、利用者の声の艶に問題があるかもしれません。

こちらの総合判定の例でも、AIの声の艶が利用者より低く表示されています。




抑揚は大丈夫か?

新しい言葉や話題に関して、知識ベースの蓄積の少ないと思われる音声には、抑揚が正しく行われないケースがあります。ネットニュースなでの自動音声などで、時折耳にすると思いますが、この音声AI診断のAI側再演でも発声します。結果として、利用者の抑揚スコアーが低く表示される場合がありますので、ご容赦ください。

また、利用者側の原因で、利用者音声が正しく認識されない場合、再演に使用する文章自体が大きく異なって、抑揚スコアーを下げる場合もあります。詳細表示で確認してみてください。


その他の特徴


滑舌

AIの合成音声による滑舌は、優れていると思います。しっかりと、破裂音・摩擦音などが発声され、高周波モーラとして詳細表示で確認できます。


テンポ

AIの合成音声による速度は申し分ないですね。

区切位置に関しても、「あれ?」という箇所に付く場合がありますが、概ね標準の区切り数に合致しているようです。


声の艶

AI合成音声の声の艶に関しては既述の通りですが、利用者側の「声の艶」は、AI合成音声には影響されず、単独の評価ですので、結果を信頼して利用して頂けます。


AI信頼度

こちらも単独評価でAI合成音声に影響されません。利用者の音声をAIがどの程度「解釈したか」の尺度になります。
ただし、AI合成音声側のAI信頼度が高めに出る傾向があります。これは、利用者の音声から変換された「文章」には、ルビ(読み)が付いていることから、生の利用者音声よりも確度の高い音声になっているためと思われます。
AI信頼度の利用者 vs. AI再演
AI信頼度の利用者 vs. AI再演