音声文字変換のツールを介して得られる「読み」と、所要時間(秒)及び信頼値から、

  • 滑舌の評価に必要な「置換わり」の検出
  • 標準音読時間との比較
  • 文字変換の信頼性の比較
が可能になります。

音声文字変換の手法 - Speech To Text

では、サンプル音声(SV1)によるSpeech To Textの解析結果から診てみましょう。解析は、Speech To TextのAPIで提供されているサンプルプログラムを利用しています。

変換結果から以下の3種類の情報が得られます。
  1. 漢字文字列  :
    「この料理は東京に昔からあるものだが、大きいのでちょっと厄介である。」
  2. 累積信頼値  :  0.944
  3. 所要時間     :  5.58秒

 更に、句単位に以下の情報が得られます。

表記読み開始-終了秒信頼値
このコノ0.0 - 0.20.961
料理リョーリ0.2 - 0.50.961
0.5 - 0.60.961
東京トーキョー0.7 - 1.10.961
1.2 - 1.30.961
ムカシ1.4 - 1.70.961
からカラ1.7 - 1.90.961
あるアル1.9 - 2.10.961
ものモノ2.1 - 2.20.943
2.4 - 2.50.933
2.5 - 2.60.947
大きいオーキー3.1 - 3.50.961
3.6 - 3.70.961
3.7 - 3.80.961
ちょっとチョット4.0 - 4.30.961
厄介ヤッカイ4.3 - 4.70.844
4.9 - 5.00.894
あるアル5.0 - 5.20.898

ご覧のように、各句の読みと、開始秒・終了秒を知らせてくれます。ここから、単一のモーラの所要時間が0.1秒で計時されているのが判ります。

「読み」による置換わり検出

置換わりの検出には、「表記」ではなく「読み」を利用します。これは、置換わりの多くが単一のモーラで発声するので、「読み」で比較すれば一文字の違いですみます。
検出には、比較対象の「読み」が必要になります。あらかじめ良質な音声で「読み」を用意し、試験者は同じ文書を読んで、その結果の「読み」と比較します。
例えば、子音欠落で「昔:ムカシ」が、「羽化し:ウカシ」と誤解された場合、「ム」⇒「ウ」と判定され、子音欠落が推定できます。

ドリル制作者と利用者の読み比較
ドリル制作者と利用者の読み比較

標準音読時間との比較

サンプル音源(SV1~SV5) を使って求めてみます。

単一モーラあたりの時間

ブログ「テンポ/モーラ数と区切り数で標準速度と比較」で検討した測定者の単一モーラあたりの時間Tmを求める式を使います。

発話が、文として語られた場合、その文の所要時間、発話モーラ数等から、測定者の発話の1拍すなわち1モーラの時間Tmは、

Tm = (Ts - Es) ÷ (Ms + Ds) 
ここで、
    Ts: 文の所要時間... 発話開始から0.7秒以上の間までを文として計測(秒)
    Ms:文のモーラ数... 発話で得られた漢字文字列から推定したモーラ数
    Ds: 文の区切り数... 発話中に検出された区切り数。区切り一つは、1モーラ。
    Tm: 1モーラの秒数
    Es: 句点秒 (= 0.7秒)

サンプル音源(SV1)を含め、「甘鯛の姿焼き」冒頭の5つの文について、算出してみましょう。
※漢字文字列欄は、音声文字変換直後の編集前の文字列ですので、誤変換があります。
※読み欄は、実際の読みに対し、区切り位置に/を挿入しています。

標準速度との比較
漢字文字列読みTsEsMsDsTm
この料理は東京に昔からあるものだが、大きいのでちょっと厄介である。 このりょーりわとーきょーにむかしからあるものだがおーきーのでちょっとやっかいである 5.58 0.7 38 1 0.125128
金串を打つのにコツがあり、何も知らずにただやたらに何本牧師を打ってはいけない。 かなぐしおうつのにこつがありなにもしらずにただやたらになんぼんぼくしおうってわいけない 6.79 0.7 43 2 0.13545
最初に金串を扇形になるように、打つ さいしょにかなぐしおおーぎがたになるよーにうつ 3.86 0.7 23 2 0.12642
それからあとは何本打とうと扇の要のところを中心にすれば適当に打って良い。 それからあとわなんぼんうとーとおーぎのかなめのところおちゅーしんにすればてきとーにうっていー 6.64 0.7 45 2 0.12642
そうすると手で持つのに便利であるし、焼けても扱うたびに身が壊れるといううれ言わなくなる。 そーするとてでもつのにべんりであるしやけてもあつかうたびにみがこわれるとゆーうれいわなくなる 7.26 0.7 46 2 0.13674
平均  0.13029
標準比= 0.13029/0.129  1.01

文により多少の揺れがありますが、5つの文で平均をとると、ほぼNHK推奨速度で音読されていることが判ります。やはり、音読スペシャリストは、自然にその速度を身に着けているんですね。


判りやすさ指標としての信頼性

Speech to Textが変換後に提供する「信頼度」ですが、これ自身は「判りやすさ」の指標ではありません。あくまでも、AI側の変換における自信度を示すものです。未知の単語や、最新の話題などAI側の知識に蓄積されていない文言による音声では、この信頼度は低くなります。また、既知であっても、複数の解釈が出てしまう文言、例えば
かんきがおこる
という音声だけでは、
  • 換気がおこる
  • 歓喜が起こる
  • 喚起が起こる
  • 寒気が起こる
  • 乾期が起こる
すくなくとも、5種類の漢字候補が挙げられます。AIでは、前後の文脈や、発声頻度など他の要因を踏まえて優先度を決めて結果を知らせてくれますが、このようなケースでは、最優先の文でも信頼度は低くなります。

従って、「判りやすさ」の指標とする場合、事前に信頼度の判明している文章との比較が肝要です。

サンプルの例では、信頼度が0.944となっていますので、比較する利用者が「同じ文書」を使って得た信頼度と比較します。ここで、

  • 0.944≒利用者の信頼度 であれば、利用者はドリル制作者と同程度に「判りやすく」読んでいる
  • 0.944>利用者の信頼度 であれば、利用者はドリル制作者と比較し、AIに誤解を与えている。すなわち「判りにくい」
という判定をして構わないでしょう。


ドリル制作者と利用者の信頼度比較
ドリル制作者と利用者の信頼度比較