本領域の概要
前川喜久雄(領域代表者、独立行政法人国立国語研究所研究開発部門)
本領域のめざすもの
特定領域研究「代表性を有する大規模日本語書き言葉コーパスの構築:21世紀の日本語研究の基盤整備」(略称「日本語コーパス」)は平成18年度から22年度まで5年間の活動を予定しています。
本研究にはふたつの目標があります。ひとつは、現代日本語のコーパス言語学的研究の基盤を整備するために、大規模な現代日本語書き言葉コーパスを構築することです。このコーパスには著作権処理を施して、どなたにでも利用していただけるものとします。もうひとつの目標は、構築途上のコーパスを様々な領域で利用することによってコーパス日本語学の可能性を探り、同時に構築中のコーパスを評価することです。狭義の言語学だけでなく、国語教育、日本語教育、辞書編集、自然言語処理などの幅広い領域で活用と評価をおこないます。
大規模コーパスとその活用法が整備されれば、日本語に関する様々な知的活動が面目を一新することになります。例えば、国語ないし日本語教科書における学習語彙とその配分は、現在は識者の経験と勘に頼って決定されてきていますが、これを定量的なデータに基づいて客観的に決定できるようになります。また、従来の国語辞書においては記述されることが稀であった連語(collocation)の情報を組織的に抽出することができるようになります。さらには現代社会に適合した漢字使用の基準や表記のあり方を客観的な方法で検討することも可能になるでしょう。
このように本特定領域研究の成果は、今後長期間にわたって広い範囲の日本語研究に影響をおよぼすと予想されます。本領域の正式名称の副題部分にはそのような意気込みがこめられています。
本領域で構築するコーパス
コーパス言語学はコーパスなしにはありえません。本領域の最重要目標はコーパスの構築です。本領域で構築するコーパスは現代日本語の書籍を対象とした5000万語規模の均衡コーパスです。このコーパスは現代日本語に関する最初の大規模均衡コーパスとなります。また、データの代表性を保障するために統計的サンプリングを実施している点で、世界的にもユニークなコーパスになります(データ班によるコーパスの解説はここ)。
本領域におけるコーパス構築は、国立国語研究所の日本語コーパス整備計画(KOTONOHA)と密接に連携しています。国立国語研究所は従来から独自に、現代語の話し言葉や近代語のコーパスを開発してきていますが、2006-2010の5年間は本領域と連携をとりながら、雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスを整備します。
これらのコーパスは最初から本領域で開発するコーパスと一体的に運用することを念頭において設計されていますから、2010年度には1億語を超える規模の現代日本語書き言葉均衡コーパスが実現することになります(KOTONOHAについての解説はここ)。
本領域の構成
本領域には総括班のほかに8つの計画研究班を設置しています。そのうち3班はコーパスの構築に関係しており、他の5班はコーパスの評価に関係しています。
[研究項目A01:コーパスの構築]
ア)データ班 班長:山崎 誠 (国立国語研究所)
イ)ツール班 班長:松本裕治 (奈良先端科学技術大学院大学)
ウ)電子化辞書班 班長:傳 康晴 (千葉大学)
[研究項目B01:コーパスの評価]
エ)日本語学班 班長:田野村忠温(大阪外国語大学)
オ)日本語教育班 班長:砂川有里子(筑波大学)
カ)言語政策班 班長:田中牧郎 (国立国語研究所)
キ)辞書編集班 班長:荻野綱男 (日本大学)
ク)言語処理班 班長:奥村 学 (東京工業大学)
画像をクリックすると拡大表示します。
研究の公募
平成18年度秋に研究項目B01にかかわる研究を公募します。研究期間は2年間(平成19, 20年度)です。採用件数は5件をめやすとします。幅広い領域からの応募を期待しています。
研究テーマはコーパスを用いた広い意味での言語研究(言語処理を含む)ということになりますが、提案する研究を通じて本領域で構築するコーパスを評価することを念頭においてください。また平成19, 20の両年度においては、本領域で構築するコーパスが必ずしも十分な規模ないし品質に達していない可能性がありますので、既存の日本語コーパスの利用を念頭においた研究計画を立案してください。

