音声ドリル診断 - 滑舌・抑揚・テンポ・艶・信頼度の改善

2022年9月26日月曜日

利用する

音声ドリル診断を利用して、計測結果を音声レーダーを使って示しています。

以下、サンプル音源(SV1)と同じ文章を私が音読した結果を使って説明したいと思います。

音声ドリル診断の音声レーダー（単文）

音声レーダー

この音声レーダーは、音声ドリル診断によって表示されたものです。

音声ドリル診断は、あらかじめ登録された音声付き文章を提供し、１文づつ再生しながら、被験者が音読した結果を計測し評価するものです。流れは、

ガイドが流れます
ドリル文章のカーソル位置の一文がドリル制作者の声で再生します。
「ピッ」と、音読を促す音が鳴ります。
利用者はマイクに向かって、同じ内容を音読します

です。

一文を読み終えると自動的にスコアーリングして結果が出てきます。上図の音声レーダーは、その結果表示直後のイメージです。

音声ドリル診断の例

音声レーダー

あなたの声を診断し、5つの項目にランキングし、それらを統合した判定と声年齢の推定結果を示します。

3つのパートに分けて表示しています。

レーダーチャートによる5つの特徴ランキング
5つ星結果と声年齢
操作用の釦

レーダーチャートによる5つの特徴ランキング

次の5つの声の特徴をランキングしています。5点評価で、計測器による判定結果を示しています。

滑舌
抑揚
テンポ
声の艶
AI信頼度

ブログ「発声から何を計測するか」で最終的に抽出した5つと対になってます。が、5.の「AI信頼度」は、「判りやすさ」と異なるタイトルにしています。

1～4は、話者に対する評価ですが、5.は「受け手」の評価という点で異なっていて、あえて判断者である「AI」をタイトルに含めました。

※ブログ「音声変換グループ／判りやすさの指標として信頼性」の「」参照方。

「ランキングなどと、けしからん。」とお叱りを受けそうですが、あくまでもサンプル音源グループの傾向をマッピングしたに過ぎません。杞憂せずに、目安としてご利用ください。

滑舌

滑舌ランクは、0～5でスコアしています。元になる滑舌レートは、0.0～1.0。

滑舌ランク = 滑舌レート×5

滑舌レート（0.0～1.0）

滑舌レート　= （高周波数判定 + (1-置換率) ）÷ 2
高周波数判定 = （高周波一致度 + 高周波レベル比）÷ 2 × 最大レベル比
置換率 = 置換わったモーラ数 ÷ 全モーラ数 × 2

滑舌の決め手になる2つの要素、高周波数の発声と、曖昧な発声による置換わり率から滑舌レートを求めています。

(1-置換率)で正解率を求めています。置換率がゼロ、すなわち置換が全く起らなければ、1.0となるためです。置換率の最後尾で2倍しているのは、置換割合（=置換わったモーラ数÷全モーラ数）が0.5（すなわち半分の文言が間違って聞こえる）状態を最低ラインと判断して重み付けしています。

高周波数判定と置換率による判定は、ともに同じ比重とみて、2で割って平均をとっています。

滑舌サンプル

音声ドリル診断を実際に実施し得られた滑舌詳細情報のサンプルです。

ここで、ドリル制作者は女性、あなたと表示されているのは利用者で、この場合は男性である私です。

※性別判定は、ブログ「性別・声年齢の推定／性別の推定」をご覧ください。

滑舌の詳細情報

周波数行には、ドリル制作者の「読み」とあなたの「読み」を表示し、高い周波数を発声しているモーラに下線と背景色を施し、その発声箇所とレベルを示しています。。

置換わり行では、あなたの「読み」に対し、ドリル制作者の「読み」から漏れた文字または、不要な文字を背景色で示しています。

滑舌高周波数帯域と置換わりを示す配色

高周波数判定（0.0～1.0）

滑舌の良否判定として高周波数は、男女で監視範囲が異なりますが、5つのクラス分けを通じて性差を吸収しています。

滑舌判定高周波数(Hz)帯域
性別	レベル1	レベル2	レベル3	レベル4	レベル5
男♂	2000～2499	2500～2999	3000～3499	3500～3999	4000～
女♀	2500～2999	3000～3499	3500～3999	4000～4499	4500～

滑舌サンプルにあるように、計測後に双方の読みに対しレベル付けを施しています。

ドリル行は、ドリル制作者の音声から、「読み」をモーラ単位に抽出し、高周波帯があれば、そのモーラに下線を引き、背景色にレベル配色を施しています。従って、この滑舌サンプルから読み取れる内容は、

ドリル制作者の滑舌判定用の周波数情報

高周波のモーラが4つあり、順に「きょ」、「し」、「き」、「ちょ」です。
レベル5が二つ、レベル4,3,2は無く、レベル1が二つ

利用者「あなた」の滑舌判定用の周波数情報

高周波のモーラは3つで、「と」、「き」と「ちょ」。
レベル3が二つで、レベル2が一つ

判定は、以下の計算から求めてます。

高周波モーラの一致度
上記例では、「き」「ちょ」の2モーラが一致。従って一致度は2/4 = 0.5
高周波数のレベル積算比
ドリル側は、5×2 + 4×0 + 3×0 + 2×0 + 1×2 = 12,
利用者側は、5×0 + 4×0 + 3×2 + 2×1 + 1×0 = 8
で、8/12 ≒ 0.67
利用者側は、最大レベル比は、レベル3で、最高レベル5に対し、3/5 = 0.6

高周波判定 = （0.5 + 0.67）÷ 2 × 0.6 = 0.35

と、ドリル制作者の100%に対し12%強です。かなり低い評価となりました。「サ行（し）」「タ行（ちょ、と）」の摩擦音・破裂音がほとんど発声できていないことが原因のようです。この点を改善できれば、好スコアが望めるでしょう。

置換率（0.0～1.0）

ドリルの読みを基本に、利用者の読みの違いを「置換わり」があったとして判定します。

滑舌サンプルでは、「この料理は」が「その通りは」に置換わっています。「読み」でみると、「こ」⇒「そ」、「りょ」⇒「と」です。

置換率は、以下で計算します。

置換率 = (漏れ文字数 + 不要文字数) ÷ (利用者読み文字数 + 漏れ文字数) × 2
置換率 = (1+0) ÷ (40+1) × 2 = 0.048 ≒ 0.5
正解率 = (1-置換率) = 0.95

滑舌ランク（0～5）

以上から、最終的な滑舌ランクは以下となります。

滑舌レート = (高周波判定+正解率)÷2=(0.35+0.95)÷2=0.6505
滑舌ランク = 0.6505 × 5 = 3.253

スコアー結果は少し低めですが、原因は高い周波数レベル4,5が欠落していた点です。この点に留意することで、高スコアーが期待できます。

抑揚

抑揚ランクは、0～5でスコアしています。元になる音程・音圧の各評価したレートから求めます。

抑揚ランク = （音程レート + 音圧レート）÷ 2 ×5

このように、音程・音圧の各レートを平均して求めています。各レートは更に3つの要素から構成し、

音程レート = 音程差分(A)×0.5 + 音程変化率(B)×0.3 +音程幅(C)×0.2
音圧レート = 音圧差分(X)×0.5 + 音圧変化率(Y)×0.3 +音圧幅(Z)×0.2

で求めています。

ブログ「発声から何を計測するか／イントネーション」で抑揚について、イントネーションとアクセントの二面あることを示しました。その際の測定対象は、音程の変化と音圧の変化としましたが、通説の「アクセント強弱は抑揚に含めない」という立場の方々にはお叱りを受けそうですが、音程変化と同等として平均をとっています。

差分、変化率、幅に関しても、「何を測るか?」で議論した計測対象です。良質の音声との比較から抑揚を判定するという点で、ドリル制作者との比較結果を尊重しています。比率を5:3:2としていますが、評価に使用したサンプル音源（老若男女33名）からベストと判断した重み付けです。

抑揚サンプル

音声ドリル診断を実際に実施し得られた抑揚詳細情報のサンプルです。

抑揚の詳細情報

音程行には、ドリル制作者の「読み」とあなたの「読み」を表示し、音の高低をモーラ単位に背景色を施し、その高さレベルを示しています。

音圧行も同様に、音の強弱をその強さレベルで示しています。

音程・音圧のレベルを配色表示

高さレベルは5段階で、高い順に「高い」「高め」「中間」「低め」「低い」です。

強さレベルも5段階で、強い順に「強い」「強め」「中間」「弱め」「弱い」です。

全モーラについて、発声頻度が均等になるように5レベルに分割し配色しています。従って、読み手に寄らずにその本人の音声だけでレベル分けしてますので、ドリル制作者とあなたの間でレベルの干渉はありません。各人の音程・音圧のトレンドを標準的に評価するための工夫です。

読みの途中にある「・」は、滑舌の置換わりで示した「漏れ」「不要」の文字の代替文字です。これにより、「ドリル行」と「あなた行」の表示が上下で並んで見えますので、傾向が比較し易くなります。

音程・音圧をドリルと比較

良質な「語り」として採用した「ドリル制作者」の音声と、利用者である「あなた」の音声を比較します。音程差分は、音程の上がり下がりのパターンを、また音圧差分は、音の強弱の上がり下がりパターンを比較します。

音程差分(A)

音程差分は、音程の上がり下がりのパターンを、ドリル制作者とあなたの間で比較します。比較の単位は、モーラすなわち一拍分の文字です。

サンプルの最初の部分、「このりょーり」について、個々の差分は以下のように求めます。

拍	1	2	3	4	5
モーラ	こ	の	りょ	ー	り
ドリル	中間=3	高い=5	高い=5	高い=5	低め=3
あなた	高め=4	高め=4	高い=5	高い=5	中間=3
一致数	0.75	0.75	1.0	1.0	1.0

差分は、対応する高低レベルの差で、以下のルールで求めます。

レベル差が0 => 一致数+1.0
レベル差が1 => 一致数+0.75
レベル差が4 => 一致数-0.75

サンプルでは、レベル差0が13モーラ、レベル差1が6, レベル差4は1。全モーラ数は、ドリル制作者に対するものなので、38として、

音程差分(A) = 一致モーラ数÷全モーラ数 = (13×1+6×0.75-1×0.75)/38 = 0.44

となり、5割が一致したと見做せます。

「このりょうり」や「むかしから」の頭出しの音程が低い傾向が観られます。確かに最近「言い始め」がモゴモゴしていると指摘されることがあり、成程ど合点しました。

音圧差分(X)

音圧差分は、音程差分同様に音の強弱の上がり下がりのパターンを、ドリル制作者とあなたの間で比較します。比較の単位は、モーラすなわち一拍分の文字です。

サンプルの最初の部分、「このりょーり」について、個々の差分は以下のように求めます。

拍	1	2	3	4	5
モーラ	こ	の	りょ	ー	り
ドリル	高い=5	高い=5	高め=4	高め=4	高い=5
あなた	高め=4	中間=3	低め=2	中間=3	高い=5
一致数	0.75	0.0	0.0	0.75	1.0

差分は、対応する高低レベルの差で、音程同じルールで求めます。

サンプルでは、レベル差0が12モーラ、レベル差1が15, レベル差4は3。全モーラ数が38なので、

音圧差分(X) = 一致モーラ数÷全モーラ数 = (12×1+15×0.75-3×0.75)/38 = 0.55

結果を観ると音程とは逆に、私の方は音圧で表現する傾向が強いようです。これは、性差かもしれませんが、改善の余地が有りそうです。

音程・音圧変化の頻度を観測

音の高低や強弱の発声頻度を観測します。

この頻度が表現力に比例していると仮定しています。経験的に、音程差のなかったり強弱の乏しい「語り」は、一般に「棒読み」と呼ばれますが味気のないもので、抑揚が効いていないと感じられます。、これを数値化してみようという試みです。

音程変化率(B)

音程変化レート = 中間レベル(=3)をクロスする回数÷全モーラ数

で求めます。

ここで、クロスする意味ですが、中間レベルより低い位置から、中間レベルを超える際に一回とカウントします。同様に中間レベルより高い位置から、中間レベルより下がると一回です。例えば、以下は全て一回としてカウントします。

1->3->4
1->3->3->2->3->5
5->4->3->4->5->4->3->2

サンプルでは、

音程変化レート = 16回 ÷ 37モーラ = 0.432 --> 43.2%

全モーラ数は、この場合、「あなた」のモーラ数です。

次に、この変化レートから対応表を使って、変化率を求めます。

音程変化率表
音程変化%	35	30	25	15	5	0
男性	1.0	0.9	0.8	0.5	0.3	0.0
女性	1.0	0.9	0.8	0.5	0.3	0.0

ここから、

音程変化レート 43.2% = 音程変化率 1.00（男性）

が得られます。

音程変化率35%を最大としている根拠
ポーズの区り単位（ブログ「テンポ／区切りの数」参照方）は16.4モーラ
ポーズ区切り間に↑↓の高低パターンが最大3つ=6クロス回数
6÷16.4 = 0.366 > 35%

音圧変化率(Y)

音程変化率(B)と同様に、音圧変化レートから、音圧変化率表を介して求めます。

音圧変化レート = 中間レベル(=3)をクロスする回数÷全モーラ数

サンプルから、

音圧変化レート = 10回÷37モーラ = 0.27 --> 27%

音圧変化率表
音圧変化%	40	35	30	20	10	0
男性	1.0	0.9	0.8	0.5	0.3	0.0
女性	1.0	0.9	0.8	0.5	0.3	0.0

ここから、

音圧変化レート 27% = 音圧変化率 0.71（男性）

が得られます。

音圧変化レート40%を最大としている根拠
サンプル音源計測から音程変化より高頻度
概ね、1割程度上下変化レートが多かった

音程・音圧の最大幅を観測

音の高低幅や強弱の幅が、抑揚の優劣に影響を及ぼすと仮定しています。

抑揚の効いた「語り」では、経験的にこの幅が大きい程、ダイナミックで聞き取り易く感じます。

人の話す基本周波数の正常範囲は男女差が小さくありませんが、こちらの研究^*1では、

男性の基本周波数範囲：　88.51Hz ～ 164.51Hz
女性の基本周波数範囲：　140.29Hz～265.27 Hz

となっています。一方、倍音や三倍音が含まれるという報告もあり、ここでは80Hz～800Hzの範囲で音程と音圧を観測し、最大幅から抑揚を数値化することを試みます。

音程幅(C)

観測した周波数の幅から、0.0～1.0の音程幅(C)を次の表で求めています。

音程幅(C)
音程幅Hz	700	650	600	550	500	450	400	300	200	100
男性	1.0	0.85	0.70	0.55	0.40	0.30	0.25	0.10	0.10	0.10
女性	1.0	1.0	1.0	1.0	1.0	0.85	0.70	0.40	0.25	0.10

サンプルでは、

抑揚／音程周波数のエビデンス

音程幅=694.7Hz => 音程幅(C)=0.98（男性）

音圧幅(Z)

音圧は、全周波数帯の中の最も小さな音を0dBとした相対値dBrで観測しています。音程幅(C)と同様に、80Hz～280Hzの範囲で収集したdBrの最大値を幅としています。

このdBrの幅から、0.0～1.0の音圧幅(Z)を次の表で求めています。

音圧幅(Z)
音圧幅dBr	38	36	34	32	30	28	26	24	22
男性	1.0	0.85	0.75	0.65	0.55	0.45	0.35	0.25	0.15
女性	1.0	0.8	0.6	0.4	0.2	0.1

サンプルでは、

抑揚／音圧相対デシベルのエビデンス

音圧幅=37.4dBr => 音圧幅(Z)= 0.95

参考ページ

*1) 加齢に伴う話声位の変化

音程レート、音圧レートの算出

音程差分(A)=0.44, 音程変化率(B)=1.0, 音程幅(C)=0.98から、

音程レート= 0.44×0.5 + 1.0×0.3 + 0.98×0.2 = 0.716

音圧差分(X)=0.64, 音圧変化率(Y)=0.71, 音圧幅(Z)=0.95から

音圧レート=0.55×0.5 + 0.71×0.3 + 0.95×.2 = 0.678

抑揚ランク（0～5）

抑揚ランク =（音程レート + 音圧レート）÷2×5 = (0.716+0.678)÷2×5 ≒ 3.49

で、エビデンス表示に一致します。

音程・音圧差分がともに低く、ランクが抑えられています。ドリルの音声を見習って改善を目指します。ブログ「エピローグ-改善したのは..」で結果報告したいと思います。

テンポ

テンポランク(0～5)は、区切りと速度の各レートから得たテンポレート(0.0～1.0)から求めます。

テンポレート

区切りと速度の各レート(0.0～1.0)から求めています。

区切りは、ポーズと呼ばれる無音の部分です。この計測器では、文を単位にスコアを求めますので、無音が発声するのは、読点などの文中の切れ目です。

速度は、「何を測るか」で検討したNHK推奨速度を基準に判定します。

テンポレート = （区切りレート + 速度レート）÷ 2

テンポサンプル

サンプル(SV1)の音声ドリル診断実施後のテンポ詳細情報です。

テンポの詳細情報

区切り位置には、'/'が挿入されています。

速度の標準（秒）は、当該文のNHK推奨速度での単位モーラ秒です。ドリル制作者は、標準より約3%早く、「あなた」である私は、約7%遅いことを示しています。

区切り位置と数の判定

区切り位置は、ドリル制作者のポーズ位置と利用者である「あなた」の位置を比較し、一致率を観ます。

区切り数は、標準区切りモーラ数から、対象の文章に必要な区切り数と実際の区切り数を比較します。

区切レート = （区切位置一致率(0.0～1.0) + 区切数一致率(0.0～1.0)）÷2

区切り位置一致率

区切り位置を、ドリル側と利用者側で比較します。ドリルの全区切り数に対し、いくつ一致したかで判定します。

区切り位置一致率 = 一致数 ÷ ドリル全区切り数

テンポサンプルでは、ドリルの区切り数が一つで、あなの区切りも一つかつ一致していますから、

区切位置一致率 = 1 ÷ 1 = 1.0

区切り数一致率

ブログ「テンポ／区切りの数」で、標準区切りモーラ数が、16.4モーラであることを示しました。

標準区切り数　= 全モーラ数 ÷ 16.4

で、少数以下は切り捨ての整数で判定します。「あなた」の標準区切り数は、

標準区切り数 = 37 ÷ 16.4 = 2.256

から、2つです。一致率は、

区切り数一致率 = 実際の区切り数 ÷ 標準区切り数
区切り数一致率 = 1 ÷ 2 = 0.5

区切りレートの算出

区切レートは、区切り位置一致率と区切り数一致率の平均ですから、

区切レート = (1.0 + 0.5) ÷ 2 = 0.75

となりました。

速度の判定

ブログ「テンポ／適正な速度」で、一拍すなわち単一モーラの時間幅が、0.129秒であると推定できましたから、あなたの単一モーラ時間が判れば、その比率から早い・遅いが判定できます。

一拍の時間を算出

ブログ「テンポ／モーラ数と区切り数で標準速度の比較」で検討した測定者の単一モーラあたりの時間Tmを求める式を使います。

発話が、文として語られた場合、その文の所要時間、発話モーラ数等から、測定者の発話の１拍すなわち１モーラの時間Tmは、

Tm = (Ts - Es) ÷ （Ms + Ds）

ここで、

Ts: 文の所要時間... 発話開始から0.7秒以上の間までを文として計測（秒）

Ms:文のモーラ数... 発話で得られたモーラ数

Ds: 文の区切り数... 発話中に検出された区切り数

Tm: １モーラの秒数

Es: 句点秒 (= 0.7秒)

テンポサンプルでは、

TS=5.93秒
Ms=37
Ds=1
Es=0.7

から、

Tm = (5.93-0.7) ÷ (37+ 1) = 0.138秒

となります。

速度レート(0.0～1.0)を算出

標準の単一モーラ時間(SM)と、あなたの単一モーラ時間(YM)の比較から、

SM≧YMの場合、速度レート = YM/SM

SM<YMの場合、速度レート= 2-YM/SM

で求めます。遅すぎても、早すぎても適切な速度と呼べませんので、不足分、過剰分を表す計算にしています。今回のケースは、SM<YMですので、

速度レート = 2 - 0.138/0.129 = 0.933

です。

テンポランク（0～5）

求めた区切りレートと速度レートを平均し求めます。

テンポランク = (0.75 + 0.933) ÷ 2 × 5 = 4.208

区切り数が1/2でしたので、ランクに影響しました。もう一箇所区切りを入れるとすると、主語の部分「この料理は」の後にポーズを入れるのが妥当でしょう。複文の共通の主語ですので区切り位置としては適切です。また原文にも読点があります。

この料理は～大きい
この料理は～厄介だ

原文）この料理は、東京に昔からあるもるものだが、大きいのでちょっと厄介である。

声の艶

声の艶は、基本周波数の倍音の多少で評価できることを既に示しまた。さらに、基本周波数の倍音は、MPMのピーク相関値(0.0～1.0)と比例することが判っています。

ここでは、このピーク相関値を基本周波数帯で収集し、倍音比率と中間値で判定します。

声の艶ランク= (倍音比率ランク＋中間値ランク）÷２

倍音比率ランク

観測された全周波数の数（＝倍音数＋非倍音数)に対し、倍音数の比率を求めます。

倍音比率= 倍音数÷（倍音数+非倍音数）

男女で、事前のサンプルデータから倍音比率が以下の範囲です。

男性： 0.1833～0.3853 、女性： 0.1908～０.7279

これから各々０.5～１.0に比例半分して、

♂倍音比率ランク＝(2.4745×倍音比率+0.0465)×5
♀倍音比率ランク= (0.9309×倍音比率+0.3223)×5

で求めます。

中間値ランク

モーラ単位に観測された相関ピーク値を文単位で集計し、その中間値からランクを決めます。

男女で、事前のサンプルデータから中間値が以下の範囲です。

男性：0.4078～0.8652、女性：0.6364～0.9402

これから各々0.5～1.0に比例配分して、

♂中間値ランク= (1.0931×中間値+0.0542)×5
♀中間値ランク= (1.6459×中間値－0.5475)×5

で求めます。

声の艶ランク（0～5）

倍音比率が0.244から、同ランク= (2.4745×倍音比率+0.0465)×5 = 3.25

中間値が0.636から、中間値ランク＝(1.0931×636+0.0542)×5 = 3.75

声の艶ランク = (倍音比率ランク＋中間値ランク）÷ 2 = 3.5

このランクを向上させるには、倍音を増やすのが唯一の手段ですので、そのためのトレーニングに努め^*1、効果を確認してみたいと思います。

【参照ページ】

*1) 倍音の仕組みや3つの出し方とコツを分かりやすく解説

AI信頼度

AI信頼度は、音声文字変換サービス「Google Cloud Speech to Text」から直接得られた値Confidence(C)です。

この値は、ほとんどの音声て0.75～0.95の範囲で返却されますので、これをベースに以下で、AI信頼度ランクを決定しています。

AI信頼度ランク = (C - 0.75) ÷ (0.95 - 0.75) × 5

この式で、信頼値0.75～0.95の範囲を、0.0～1.0に変換しています。

AI信頼度ランク（0～5）

テンポサンプルから得られた信頼値0.94から、

AI信頼度ランク = (0.94 - 0.75) ÷ (0.95 - 0.75) ×5 = 4.75

となります。

単独では判断できませんが、ドリル側の信頼度4.859より小さな4.757となっていて、AI側がやや聞き取りにくいと判断したことがわかります。

ここは、一致させたい点です。

5つ星判定と声年齢

5つ星は、レーダーチャートの5つの特徴の平均値から☆に着色して判定しています。

声年齢は、複数の特徴から年齢を推定し、表示しています。

5つ星

パソコンのブラウザで利用している場合は、カーソルを☆マーク付近に移動すると、平均点が表示されます。この例では、3.84です。

マウスの無い携帯端末の場合は、タップすると表示されます。

声年齢

声年齢は、５つのランクの平均値で求めています。

SFFランク
滑舌ランク
抑揚ランク
テンポランク
声の艶ランク

2～５は、音声レーダーの各ランクをそのまま利用しています。

SFFランク

基本周波数の平均から、性別に年齢群を推定する知見があり、この研究レポートをベースに推定します。年齢が低ければ、ランクが上位になるようにランキングしています。

詳細は、ブログ「性別・声年齢の推定／声年齢の推定」をご覧ください。

声年齢の推定

SFFは、基本周波数f0のみで年齢を推定するものですが、特に男性に関する誤差が大きく、他の特徴から補強する必要があります。

音声レーダーの各ランクは、年齢が低いほど高い傾向を持つので、これらを利用しています。

声年齢ランク = (SFFランク+滑舌ランク+抑揚ランク+テンポランク+声の艶ランク)÷5

得られたランクから、20～75歳に比例配分し、声年齢を求めます。

操作用の釦

次へ：	ドリルを次へ進める。
詳細：	滑舌・抑揚・テンポ各評価の詳細表示です。ブログ「計測結果の詳細」参照方。
グラフ：	滑舌・抑揚・強弱・声の艶をグラフ表示、音声で同時再生します。ブログ「グラフで音程・強弱比較」参照方。
終了：	音声ドリル診断を終了し、総合判定を表示する。
戻る：	現在表示中の音声レーダーをキャンセルし、再度同じ行のドリルを実行する。

詳細表示サンプル

計測結果の詳細例です。

計測結果の詳細表示

総合判定サンプル

	⇒

今回使用したドリルサンプルは、北大路魯山人作「甘鯛の姿焼き」冒頭部の5つの文です。総合判定は、この5つの文のスコアーからの平均です。文毎でバラツキがありますが、全文を纏めると実際の実力がより反映されると思います。

トレーニング前後の比較に活用してください。

尚、詳細釦で、各文の内容が確認できます。詳しくは、ブログ「計測結果の詳細／総合判定の詳細」をご覧ください。

総合判定における詳細情報

音声ドリル診断 - 滑舌・抑揚・テンポ・艶・信頼度の改善

音声レーダー

音声ドリル診断の例

音声レーダー

レーダーチャートによる5つの特徴ランキング

滑舌

滑舌レート（0.0～1.0）

滑舌サンプル

高周波数判定（0.0～1.0）

置換率（0.0～1.0）

滑舌ランク（0～5）

抑揚

抑揚サンプル

音程・音圧をドリルと比較

音程・音圧変化の頻度を観測

音程・音圧の最大幅を観測

音程レート、音圧レートの算出

抑揚ランク （0～5）

テンポ

テンポレート

テンポサンプル

区切り位置と数の判定

速度の判定

テンポランク（0～5）

声の艶

倍音比率ランク

中間値ランク

声の艶ランク（0～5）

AI信頼度

AI信頼度ランク（0～5）

5つ星判定と声年齢

5つ星

声年齢

SFFランク

声年齢の推定

操作用の釦

詳細表示サンプル

総合判定サンプル

コメント

0 件のコメント :

コメントを投稿

抑揚ランク（0～5）