リーダビリティー

プロジェクト概要

  • リーダビリティーとは文章の読みやすさのことです。
  • リーダビリティー・リサーチ・ラボでは,日本語の文章の読みやすさを測定する指標を構築し,誰でも簡単に使えるツールを提供します。
  • あなたが書いた文章をはじめ,新聞記事,説明書など様々な文章がどのぐらい読みやすいか測定してみてください。

リーダビリティーとは

リーダービリティーとは、文章の読みやすさの尺度のことを言います。 リーダビリティー研究は,古くは1890年代からあると言われていますが,本格的な研究は米国で1940年代に盛んになりました。

リーダビリティーの例

レクサイル
読み手指数(Lexile reader measure)とテキスト指数(Lexile text measure)の両方から,読み手の読解力に適合した書籍を選ぶことができるシステムである。 このシステムでは,読み手は自分の読解力を測定し,それがどの程度の難易度の本に適合するかを知ることができるが,その場合の指数をレクサイル指数(Lexile measure)という。 米国では多くの州が学年末の試験結果にこのレクサイル指数を表記しており,本人と保護者に通知する。 インターネットのレクサイルのホームページから“Find a Book with Lexiles”を開けると,読み手は自分のレクサイル指数を入力する項目があり,次のページで読みたい本の種類,作者等を選ぶと,5万冊のデータベースから適合する本が照会される。 また,レクサイル指数を知らない場合でも,学年や読解力の自己評価項目に入力すると,その情報をもとに適合する本が照会される。 さらに保護者や教師のためのページもあり,自分の生徒や子供の読解力に合わせた図書を選ぶことができる。 レクサイルでは本の難易度は15段階に分けてあり,指数5が最も易しく,2000が最も難しい。 例えばJ.K.ローリング著『ハリーポッター』シリーズは指数880から1030の間にあると計算されている。
リード指数
レクサイルから学び,追う形で研究が進められている。 「朝鮮日報」(2004年4月2日付)によれば,韓国ではソフトウエア会社と大手書店が,本の難易度を100から1850までの数字で示すシステムを共同開発したという。 リード指数では本の難易度を大きく9段階に分け,その分類の変数は語彙の難易と1文の長さで, 100が最も易しく,1850が最も難しい。 例えば,ダン・ブラウン著『ダヴィンチコード』の韓国語翻訳版はリード指数970である。 このシステムでは,読者はまずリード分析器というプログラムで自分の読解力の指数を測り,指数を基準にマイナス100からプラス50程度の書籍を選ぶのが効果的だとされている。 データベースは2004年時点で400冊なので,現在はもっと多くなっているだろう。 記事の中で,児童書専門出版社の代表イ・ジョンウォン氏は「教師や保護者たちに本のレベルについて意見を求めてきたが、これまでは主観的な基準で判断してきたようだ。」と述べているが,我が国にも類似した状況があるのではないだろうか。
その他にも
米国社会でレクサイルのシステムが公教育とリンクするほど浸透しているのは,リーダビリティー(Readability)研究の土壌があったからだと思われる。 リーダビリティーとは文章の読みやすさのことで,英語のリーダビリティー公式を作るための研究は1920年代に始まり,1940年代に隆盛を迎えた。 米国の学校教育では移民の子供の識字教育が重要な課題であったため,文章の読みやすさに尺度(scale)を与え,図書の学年配当を決定する指標が必要であった。 このような背景から,英語のリーダビリティー公式(formula)は今日までに200以上あり,その公式を応用したソフトウエアやインターネットで無料ダウンロードできるものもある。 また,英語だけでなく,デンマーク語,スウェーデン語,ドイツ語,フランス語,スペイン語,ヘブライ語,韓国語,中国語,ベトナム語など様々な言語においてリーダビリティー公式はある。

小中学生用テキストの学年判定

テキストが小学1年から中学3年までのどの学年レベルに近いか判定します。 テキストの文字数は最小でも800は必要です。

テキスト内の漢字を11レベルに分類できます。 レベルにチェックを入れると,当該レベルの漢字に色がつきます。

注釈

<使い方の例>

国語テストを作成するときに,テキストが対象学年にふさわしいかどうか,本ツールで調べる。

テキスト内の漢字を教育漢字のみ,あるいは常用漢字のみにしたいときに,本ツールで分類する。また,対象学年が学習していない漢字を除外できる

テキストの学年判定ツール ←ここをクリック

文献

  1. 阪本一郎(1962).文章の語彙比重の査定法-Readabilityの研究の一つの試み-,読書科学,6巻1,2号,pp.37-44.
  2. 阪本一郎(1963).国語教科書の文の長さとその測定法,読書科学, 7巻2号,pp.17-24.
  3. 阪本一郎(1964)文の長さの比重の査定法-Readabilityの研究の試み-,読書科学,8巻1号,pp.2-6.
  4. 阪本一郎(1971)読みやすさの基準の一試案,読書科学, 14巻. 1,2号,pp.1-6.
  5. 芝祐順(1957).読み易さの測り方-クローズ法の日本語への適用-,心理学研究, 28,pp.67-73.
  6. 柴崎秀子(2008)日本語コーパスを応用した文章の難易測定の研究,特定領域研究日本語コーパス平成19年度公開ワークショップ研究成果報告会 予稿集,文科省科学研究費特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」総括班. pp.125-130,
  7. 柴崎秀子・沢井康孝(2007).国語教科書コーパスを応用した日本語リーダビリティー構築のための基礎研究. 信学技報, NLC2007-32(2007-10). pp.19-24.
  8. 柴崎秀子・玉岡賀津雄・沢井康孝(2008).漢字表記と平仮名表記が文正誤判断課題に与える影響―文字種による日本語リーダビリティー公式構築のための基礎研究-. 言語科学会2008年年次大会予稿集, p.18.
  9. 建石由佳・小野芳彦・山田尚勇(1988).日本文の読みやすさの評価式。文書処理とニューマンインターフェース. 18-1, pp.1-8
  10. 松吉俊・近藤陽介・橋口千尋・佐藤理史(2008). 全教科を収録対象とした日本語教科書コーパスの構築. 言語処理学会第14回年次大会発表論文集, pp.520-523.
  11. DuBay, W. H. (2007) Smart Language: Readers, Readability, and the Grading of Text, Impact information, CA:Costa Mesa
  12. Chall, J. S. (1958) Readability: An appraisal of research and application. Columbus, OH:Ohio State University Press.
  13. Doak, C. C., L. G. Doak, & Root, J. H. (1996) Teaching patients with low literacy skills. Philadelphia: J. P. Lippincott Company.
  14. Gray, W. S. & Leary, B. (1935) What makes a book readable. Chicago: Chicago University Press.
  15. Flesch, R. (1946) The art of plain talk. New York:Harpers
  16. Flesch, R. (1948) A new readability yardstick, Journal of Applied Psychology, Vol. 32, pp. 221-233
  17. Klare, G. R. (1963) The measurement of readability. T. Ames, IA:Iowa State University Press.
  18. Farr, J. N., Jenkins, J. J., & Paterson, D. G. (1951) Simplification of Flesch Reading Ease Formula, Journal of Applied Psychology, Volume 35, Number 5, (October), pp. 333-337
  19. Fry, E. (2002) Readability versus leveling. Reading teacher 56, no. 3:286-292.
  20. Sato, S., Matsuyoshi, S., & Kondoh, Y. (2008). Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus, LREC-08.
  21. Zakaluk, L.B. & Samuels, S.J. (1998). Readability, Its past, present,& future. International Reading Association. Newark, Delaware.
  22. 柴崎秀子・玉岡賀津雄(2010)国語科教科書を基にした小・中学校の文章難易度学年判定式の構築,日本教育工学会論文誌 33(4),pp.449-458.
  23. 柴崎秀子(2010)文字種による文の認知処理速度の差異―日本語テクストの難易尺度構築のための基礎研究―,実験音声学・言語学研究2, pp18-31.
  24. 柴崎秀子・原信一郎(2010)12学年を難易尺度とする日本語リーダビリティー判定式, 計量国語学,27(6), pp.215-232.

研究費交付および特許

  • 公開特許2008-141689
  • 本研究は以下の研究費補助金を受けています。
    1. 平成18年度長岡技術科学大学学長裁量による研究助成金分類(B)基礎的研究・萌芽的研究 研究代表者・柴崎秀子『日本語リーダビリティー測定ツール開発のための基礎研究』
    2. 平成19年度長岡技術科学大学学長裁量による研究助成金分類(B)基礎的研究・萌芽的研究 研究代表者・柴崎秀子『リーダビリティー公式の構築-やさしい日本語で安心を確保-』
    3. 平成19年度~平成20年度科学研究費補助金基盤(B)課題番号1930277 研究代表者・柴崎秀子『日本語リーダビリティー測定尺度の構築とソフトウエアへの実用化』
    4. 平成19年度~平成20年度科学研究費補助金特定領域研究 課題番号19011003 研究代表者・柴崎秀子『日本語コーパスを応用した文章の難易測定の研究』

リーダビリティー測定の仕組み

リーダビリティー公式

学年を予測する公式01(小学1年から中学3年までを予測)は以下の通り。

\[Y = -0.148X1+1.585X2-0.117X3-0.126X4+15.581\]

\(Y=学年   X1=文章中の平仮名の割合   X2=1文の平均述語数   X3=1文の平均文字数   X4=1文の平均文節数\)

この式で計算されるものは,小学1年生から中学3年生までの学年です。 高校以上は判定できません。 従って,数値にマイナスがついていたり,10以上の数値が出た場合は,判定不可ということになります。 その原因としては,テキストの文字数が少なすぎる,特殊な文字が入っている, 特定の文字(例:数字,片仮名,アルファベット)が極端に多い,などが考えられます。

注意:例えばリーダビリティー値が「4」と出た場合,「すべての4年生が読んで理解できるレベル」という意味ではありません。 読解力には個人差があります。リーダビリティー値「4」というのは,国語教科書コーパスから構築された4年生のテキストに近いものである,という意味です。 リーダビリティー研究は,「読む人」ではなく,「テキスト」を研究対象にしたものなので,この点を注意してください。詳しくは論文を読んで頂ければ幸いです。

述語の定義

以下のものを述語としてカウントする。

  1. 出現した全部の動詞2つ以上の動詞から成る複合語は1語と数える。(例:入り込む,連れ出す,呼びつける,走り回る,教えてもらう,来てくれる,歩いていく)
  2. 「形容詞+名詞」(例:赤い花)の形で出現しない形容詞(例:空は高く,山は青い。父の手は大きい。)
  3. 「形容動詞+名詞」(例:偉大な仕事)の形で出現しない形容動詞(その男は正直で,誠実だった。)
  4. 名詞+助動詞(例:明日はよい天気でしょう。これは母の鏡だ。次は渋谷ですか。)
  5. 名詞+句点(例:空からふる白いものは雪。)
  6. 非自立名詞+助動詞(例:のだ,のです)
  7. 形容詞連用テ接続+読点(日本の車は安くて,性能も良くて,デザインもいい。)
  8. 文末の用言

上記の方法で述語を数えテキストごとに確認し,以下のものを削除した。

  1. 形容動詞語幹+な
  2. 形容動詞語幹+に
  3. 形容動詞語幹+の(名詞とも形容動詞とも取れるのが,形容動詞となっている。例:平和の)
  4. 形容詞連用テ接続+名詞
  5. 動詞連用形+形容詞(ない)(例:出られない これは形容詞でなく助動詞だが,CheSen?が形容詞と判断している)
  6. このような方法で100%正確ではないが,現段階では最適な数え方であると考えられる。

文の定義

文の数え方

  1. 句点が出てきたら,1つの文として数える。
  2. かぎかっこが出てきたら,以下のように考える。
  • 「  」のなかに下記の箇条書きの条件に当てはまる場合 「  」の中は,句または語であると決め付けて,文としては数えない。
  • 句点 がない
  • 読点 がない
  • クエスションマークがない
  • エクスクラメーションマークがない
  • 平仮名の <が に を は で > が一文字もない

国語教科書はかぎかっこの最後に必ず句点があるが,新聞や雑誌の場合は省略される。 著者によっては,とじかぎの後に句点を入れる人もいて統一されていない。(例:佐野洋子) そこで,かぎかっこの中が,文なのか句や語なのかを見分けるために,上記の定義とした。 ツールの中では,文の数え方Ver2のほうである。 この数え方でも100%完璧ではないが,Ver1よりは精度が高い。

文定義 VER1

file名:count_Sentence.pl 以下の表現で分割する。また?!については半角全角を問わない。

  1. 。」
  2. ?」
  3. !」
  4. 」 数字は優先度(低いほうが優先される)
文定義 VER2

file名:count_Sentence.pl.0805 VER1に加えて「」部分についてルール追加。 「」のなかに以下の表現がある場合文としてあつかう

形態素解析を使いたくないという理由でこのような処理に。

サンプル(「蚊」は「か」と読みます。)
  • ver1

    「蚊」
    
    は「か」
    
    と読みます。
    
  • ver2

    「蚊」は「か」と読みます。