NHK式7つのルールというものがあるそうです。こちら*1のサイトで、第6のルールとして、

「一分300文字」でゆっくり話す
が挙げられています。これは、主にニュース原稿などで、視聴者に確実に聞き取れる速度として守られていて、テロップや映像の挿入などは、この原稿文字数から計算されているとか。
300文字/分でゆっくり話す

適正な速度

バラエティ番組などもありますから、実際には300文字を超える速度だろうと推測します。民放のアナウンサーは、更に速そうですが、年配者の私には聞き取りにくい場合が多々あります。

そこで、ここでは明瞭な発声を目指す立場から、標準時間は、300文字/分として評価したいと思います。

さてこの文字数ですが、細かくみてみると気になる点があります。

  • 段落や句読点は、どく位の間とするか
  • 漢字と仮名の比率はどうか
  • 話す内容による速度の増減をどうみるか
当然、一分の間には、複数の文や段落がありますから、300文字といっても、単に300/60秒で、一秒に5文字が標準だとして、計測器で速度比較するのは、やや乱暴な印象があります。
では、何を拠り所にしたら良いでしょうか?

テンポの単位 = 拍

文章を読む際、そのテンポを示す単位として、「拍」があります。読点は一拍の間を置くとか、「あ」「か」「ちゅ」などは、それぞ一拍の長さなどと言います。文字だけでなく、段落や句読点も考慮して拍の長さから適正な速度が計測できるのではないか。


拍の長さの増減

しかしなが、話す内容によって、拍自体も増減します。 良く知っている事柄や、短い文言では短く、新しい話題や専門的な内容の場合は、長くなります。判りやすい、親しみ易い内容では早く、逆に難しい、耳慣れない内容はゆっくりと「話す」と言うのは、日常的に経験しています。


平均的な拍

ですから、文単位に拍の時間が計測でき、複数の文の平均が概ね300文字/分に近ければ良しとする。そういった判定であれば、計測の意味を見出せるのではないか?

ということで、以下で「平均的な拍」を求めて行きたいと思います。

拍(モーラ)の長さを求める

一分間に300文字のペースを「話す」ということは、次の二つの拍数から構成されていると考えられます。
一分間の拍数 = (300文字の拍数)+ (300文字内の段落・句読点の拍数)

300文字を平仮名数に変換

まず、漢字混じりの文章を全て平仮名文字に置き換えた場合、何文字になるかを調べます。

漢字と仮名の比率は、3対7の法則というものがある*3そうで、そうすると300文字中に90文字の漢字と210文字の仮名となります。ですが、速度としてみる場合は、漢字は振り仮名でカウントしなければなりません。諸説、諸意見あるようですが、

「漢字交じり文を全部平仮名だけにおきかえると33.5%増しになる」*4 
という主張に従いたいと思います。
ですから、一分間の標準平仮名数は、
一分間の平仮名数 = 300(漢字交じり文字数)*1.335 =  400.5(平仮名数)
ということで、300文字/分のNHK推奨の速度は、約400平仮名数/分に相当することになります。
しかしながら、平仮名数は「拍」そのものではありません。次に拍数に変換してみましょう。

平仮名数から拍(モーラ)数を求める

4文字の「きょうと」は、テンポすなわち拍数では「きょ・う・と」の3泊です。これは、「きょ」の拗音が、一拍となるためで、正しい発話の速度を計算する場合、平仮名数ではなく、この拍数で計算するのが妥当でしょう。音声分析の分野では、この拍のことを専門用語では「モーラ」と呼んでいます。研究*5によれば、拗音の発声は全体の2.1%ですので、最終的な一分間のモーラ数(拍数)は、
一分間のモーラ数 = 400.5×(1-0.021) = 392.09モーラ
となります。

300文字内の段落・句読点のモーラ数

段落は、複数の文からなっていますが、4~6文で構成するのが良いとされています。ここでは、間をとって5とします*8

一つの文の文字数は諸説ありますが、A4Wordの文の長さは、36~40文字で設定されているそうです。ここでは、40文字として扱いたいと思います*8*9。文の数が句点の数と等しいとして良いでしょう。

以上から、300文字内の段落数は、

300文字内の段落数 = 300÷(5×40) = 1.5段落

300文字内の文数 = 300÷40  = 7.5文

となります。

さて、一つの文に読点が幾つあるか? 

まず「読点」の間については、文科省のホームページ「7 音読・朗読」*2で、

  • 読点と読点の間は、一気に読む ※後者の「読点」は、「句点」もあり
  • 読点は、読み手に読みやすさを伝えるのが目的なので、切らずに続けて読んでもよい
と記載されています。ですので、一概に何モーラ数とカウントするのは正しいとは言えないようです。
それにしても、この文科省の指導は、ちょっとどうなんでしょうねぇ。事例を示して、「間」をとる場面説明などあっても良いのではないのでしょうか。これでは、子供達には判らないのではないかと、心配です。

ということで、読点による「間」には期待せず、何か統計的な基準をも設けたいと思います。ここでは、後述の「連続したモーラに対し、幾つでポーズを挿入するか?」に従い、16.4モーラ毎の区切りを基準として、
300文字のポーズ数 = 300文字のモーラ数÷16.4 = 392.09÷16.4 = 23.9回

を一分間の区切り数として採用します。

「句点」の間の大きさについては、同じく文科省のホームページで「読点」と「段落」と併せて、以下の3段階の間があり、適宜判断しなさいとのこと。

    • 大きい間
    • 小さい間
    • 間をとらない

こちらも、何の指標にもならない記載でがっかりですが、ここでは、段落間は「大きな間」、文間である句点の間は「小さな間」として、各々0.7秒、1.4秒とします。0.7秒は、本計測器の音声認識で、文の区切り検出時間(無音が連続して起こる時間)に使用していることから採用しました。また段落は、その倍としています。

以上から、段落と句点の時間を除いた秒数が、文字のモーラ数とポーズモーラ数と等しいことになります。

60秒 - (1.4 x 1.5 + 0.7 x (7.5-1.5)) = 60 - 6.3 = 53.7秒

53.7秒のモーラ数 = (392.09+23.9)モーラ数 ⇒ モーラ単位秒 = 0.129秒

以上から、標準速度での「語り」の 1モーラの速度は、0.129秒と推定できます。

区切りの数


モーラ数から区切り数の推定

平均モーラ数に関係した別の研究*6では、ポーズとポーズの間の平均モーラ数が求められています。日本語話者の成人グループでは、16.4モーラとなっており、発話文章内に必要な区切り数の目安となります。
区切り数の目安 = 発話中の総モーラ数 ÷ 16.4
日本語学習者や日本語ネーティブの若年層、老年層の発話には、成人層に比べ、区切り数が多くなる傾向があるとのことで、計測による評価が期待できるのではないかと思います。

ポーズ位置 ⇒ 区切り位置

区切り数に問題がなくとも、区切り位置によって聞き手の解釈が異なってしまう。と言う経験をお持ちでしょう。例えば、
私は黙って仕事をしている老人を/みつめていた
1. 私は/黙って仕事をしている老人を/みつめていた
なのか
2. 私は黙って/仕事をしている老人を/みつめていた
では、黙っているのが「私」か「老人」か異なっています。どちらが誤りでしょうか? あるいは、より正しいと言えるでしょうか?
例えば、気難しい無口な老人が仕事をしているという状況であれば、1.の区切りが正しいでしょう。一方、老人が行っている仕事を覚えたい私が、質問したいのだが、邪魔をしてはいけないという状況であれば、2.が正しいでしょう。ですから、文章の文脈から、区切り位置が移動する。と考えるのが妥当なのでしょう。
説得力のある話し方の要素について、「適切なポーズ」が挙げられていて*7、様々な研究成果が発表されていますが、残念ながら私が簡易に利用できるものが見当たりませんでした。
ここでも次善の策として、滑舌の置換わり検出と同様、模範音声の区切り位置と比較することにしました。

区切り ⇒ 数と位置

ということで、区切りの計測は、その数と位置が対象となります。数が一致していても、模範位置と異なる区切りは、マイナス評価となります。

モーラ数と区切り数で標準速度と比較

発話からモーラ数が得られますので、これにより発話に要した時間や区切り数を使って、モーラ一つあたりの時間が算出できます。これと、NHK推奨の速度 0.129秒との間で速度の比較が可能になります。

発話が、文として語られた場合、その文の所要時間は、今までの検討を基に、以下で表すことができます。

Ts = (Ms + Ds)×  Tm + Es から

Tm = (Ts - Es) ÷ (Ms + Ds) 

ここで、
    Ts: 文の所要時間... 発話開始から0.7秒以上の間までを文として計測(秒)
    Ms:文のモーラ数... 発話で得られた「読み」から得たモーラの数
    Ds: 文の区切り数... 発話中に検出された区切り数。区切り一つは、一モーラ。
    Tm: 一モーラの秒数
    Es: 句点秒 (= 0.7秒)

【参照ページ】 
*8  段落のルールを知って読みやすい文章を書こう