音声変換グループ - 置換わり、標準時間差、信頼性
音声文字変換のツールを介して得られる「読み」と、所要時間(秒)及び信頼値から、
- 滑舌の評価に必要な「置換わり」の検出
- 標準音読時間との比較
- 文字変換の信頼性の比較
音声文字変換の手法 - Speech To Text
では、サンプル音声(SV1)によるSpeech To Textの解析結果から診てみましょう。解析は、Speech To TextのAPIで提供されているサンプルプログラムを利用しています。
変換結果から以下の3種類の情報が得られます。
- 漢字文字列 :
「この料理は東京に昔からあるものだが、大きいのでちょっと厄介である。」 - 累積信頼値 : 0.944
- 所要時間 : 5.58秒
更に、句単位に以下の情報が得られます。
表記 | 読み | 開始-終了秒 | 信頼値 |
---|---|---|---|
この | コノ | 0.0 - 0.2 | 0.961 |
料理 | リョーリ | 0.2 - 0.5 | 0.961 |
は | ワ | 0.5 - 0.6 | 0.961 |
東京 | トーキョー | 0.7 - 1.1 | 0.961 |
に | ニ | 1.2 - 1.3 | 0.961 |
昔 | ムカシ | 1.4 - 1.7 | 0.961 |
から | カラ | 1.7 - 1.9 | 0.961 |
ある | アル | 1.9 - 2.1 | 0.961 |
もの | モノ | 2.1 - 2.2 | 0.943 |
だ | ダ | 2.4 - 2.5 | 0.933 |
が | ガ | 2.5 - 2.6 | 0.947 |
大きい | オーキー | 3.1 - 3.5 | 0.961 |
の | ノ | 3.6 - 3.7 | 0.961 |
で | デ | 3.7 - 3.8 | 0.961 |
ちょっと | チョット | 4.0 - 4.3 | 0.961 |
厄介 | ヤッカイ | 4.3 - 4.7 | 0.844 |
で | デ | 4.9 - 5.0 | 0.894 |
ある | アル | 5.0 - 5.2 | 0.898 |
ご覧のように、各句の読みと、開始秒・終了秒を知らせてくれます。ここから、単一のモーラの所要時間が0.1秒で計時されているのが判ります。
「読み」による置換わり検出
置換わりの検出には、「表記」ではなく「読み」を利用します。これは、置換わりの多くが単一のモーラで発声するので、「読み」で比較すれば一文字の違いですみます。
検出には、比較対象の「読み」が必要になります。あらかじめ良質な音声で「読み」を用意し、試験者は同じ文書を読んで、その結果の「読み」と比較します。
例えば、子音欠落で「昔:ムカシ」が、「羽化し:ウカシ」と誤解された場合、「ム」⇒「ウ」と判定され、子音欠落が推定できます。
サンプル音源(SV1~SV5) を使って求めてみます。
単一モーラあたりの時間
ブログ「テンポ/モーラ数と区切り数で標準速度と比較」で検討した測定者の単一モーラあたりの時間Tmを求める式を使います。
発話が、文として語られた場合、その文の所要時間、発話モーラ数等から、測定者の発話の1拍すなわち1モーラの時間Tmは、
Tm = (Ts - Es) ÷ (Ms + Ds)
ここで、
Ts: 文の所要時間... 発話開始から0.7秒以上の間までを文として計測(秒)
Ms:文のモーラ数... 発話で得られた漢字文字列から推定したモーラ数
Ds: 文の区切り数... 発話中に検出された区切り数。区切り一つは、1モーラ。
Tm: 1モーラの秒数
Es: 句点秒 (= 0.7秒)
サンプル音源(SV1)を含め、「甘鯛の姿焼き」冒頭の5つの文について、算出してみましょう。
※漢字文字列欄は、音声文字変換直後の編集前の文字列ですので、誤変換があります。
※読み欄は、実際の読みに対し、区切り位置に/を挿入しています。
漢字文字列 | 読み | Ts | Es | Ms | Ds | Tm |
---|---|---|---|---|---|---|
この料理は東京に昔からあるものだが、大きいのでちょっと厄介である。 |
このりょーりわとーきょーにむかしからあるものだが/おーきーのでちょっとやっかいである | 5.58 | 0.7 | 38 | 1 | 0.125128 |
金串を打つのにコツがあり、何も知らずにただやたらに何本牧師を打ってはいけない。 |
かなぐしおうつのにこつがあり/なにもしらずに/ただやたらになんぼんぼくしおうってわいけない | 6.79 | 0.7 | 43 | 2 | 0.13545 |
最初に金串を扇形になるように、打つ |
さいしょに/かなぐしお/おーぎがたになるよーにうつ | 3.86 | 0.7 | 23 | 2 | 0.12642 |
それからあとは何本打とうと扇の要のところを中心にすれば適当に打って良い。 |
それからあとわなんぼんうとーと/おーぎのかなめのところおちゅーしんにすれば/てきとーにうっていー | 6.64 | 0.7 | 45 | 2 | 0.12642 |
そうすると手で持つのに便利であるし、焼けても扱うたびに身が壊れるといううれ言わなくなる。 |
そーすると/てでもつのにべんりであるし/やけてもあつかうたびにみがこわれるとゆーうれいわなくなる | 7.26 | 0.7 | 46 | 2 | 0.13674 |
平均 | 0.13029 | |||||
標準比= 0.13029/0.129 | 1.01 |
文により多少の揺れがありますが、5つの文で平均をとると、ほぼNHK推奨速度で音読されていることが判ります。やはり、音読スペシャリストは、自然にその速度を身に着けているんですね。
判りやすさ指標としての信頼性
Speech to Textが変換後に提供する「信頼度」ですが、これ自身は「判りやすさ」の指標ではありません。あくまでも、AI側の変換における自信度を示すものです。未知の単語や、最新の話題などAI側の知識に蓄積されていない文言による音声では、この信頼度は低くなります。また、既知であっても、複数の解釈が出てしまう文言、例えば
かんきがおこる
という音声だけでは、
- 換気がおこる
- 歓喜が起こる
- 喚起が起こる
- 寒気が起こる
- 乾期が起こる
従って、「判りやすさ」の指標とする場合、事前に信頼度の判明している文章との比較が肝要です。
サンプルの例では、信頼度が0.944となっていますので、比較する利用者が「同じ文書」を使って得た信頼度と比較します。ここで、
- 0.944≒利用者の信頼度 であれば、利用者はドリル制作者と同程度に「判りやすく」読んでいる
- 0.944>利用者の信頼度 であれば、利用者はドリル制作者と比較し、AIに誤解を与えている。すなわち「判りにくい」
![]() |
ドリル制作者と利用者の信頼度比較 |
コメント
0 件のコメント :
コメントを投稿