日本語コーパスHOME > 研究組織 > リーダビリティー班

研究組織 『リーダビリティー班』

班 長
柴崎秀子 長岡技術科学大学工学部教育開発系
分担者
玉岡賀津雄 麗澤大学大学院言語教育研究科
山本和英 長岡技術科学大学工学部電気系
加納 満 長岡技術科学大学工学部教育開発系
原信一郎 長岡技術科学大学工学部教育開発系
李在鎬 (独)情報通信研究機構 自然言語グループ知識創成コミュニケーション研究センター

研究目的

 本研究の目的は日本語の書き言葉コーパスを使って、日本語の文章の読み易さを示す数式を構築することである。文章の読み易さはリーダビリティーと呼ばれ、今日までに英語、フランス語、スペイン語、デンマーク語、ベトナム語、ヘブライ語、中国語、韓国語等、様々な言語による文章の読み易さの尺度とそれを計測する数式が示され、識字教育に貢献してきた。本研究により、日本語リーダビリティーの数式が構築されれば、@心理学、国語教育、日本語教育の文章理解研究のテキストを決定する際の基準や、A文章作成の指標が出来るだけでなく、B日常における様々な読み物(政府刊行物、危険物や薬品の注意書き、ビジネス文書等々)を明確で平易にする作業に応用できる。それは日本人にとって有益なだけでなく、日本語を第二言語とする外国人との情報の共有化につながり、国際的な貢献度は高いと考える。

研究計画

 本研究では日本語リーダビリティーを学年と数値の両方で示す数式を構築するため、まず、学年で示すためのデータベースとして、小学1年から高校3年までの国語教科書54冊でコーパスを作成する。Chasen、CaboCha等で、テキスト内の文字数、文の数、段落の数、文字種と語種の割合、係り受けの数などのテキスト要因を分析するが、同時にCaboChaを改良し、係り受けの出力エラーを修正できるシステムを開発する。このような作業とテキスト分析で、学年ごとのリーダビリティーの説明変数を決定する。
 次に、リーダビリティーを数値で示す式を構築するため、新聞データ、青空文庫、国立国語研究所が作成した日本語コーパス等のオーセンティックのテキストを用い、テキスト分析を行い、変数を決定する。
 国語教科書を土台にした学年による読み易さの分類と、各種コーパスを土台にしたテキストの説明変数を決定することで、日本語リーダビリティーの尺度と数式を構築する。