日本語コーパスHOME > 研究組織 > データ班

研究組織 『データ班』

班 長
山崎 誠 国立国語研究所言語資源研究系
分担者
丸山岳彦 国立国語研究所言語資源研究系
柏野和佳子 国立国語研究所言語資源研究系
佐野大樹 国立国語研究所コーパス開発センター
山口昌也 国立国語研究所言語資源研究系
間淵洋子 国立国語研究所コーパス開発センター
高田智和 国立国語研究所理論・構造研究系
小椋秀樹 国立国語研究所言語資源研究系
小沼 悦 国立国語研究所コーパス開発センター

研究目的

 本領域全体の共通資産であり、同時にこれからの日本語研究にとってもっとも重要な研究基盤となる書籍コーパスを構築する。従来の新聞や文学作品といった単一のジャンルから構成される電子資料と違って、本コーパスは多様なジャンルや文体の書籍を対象とする。具体的には、書き言葉の有り様をダイナミックにとらえるために、書き言葉の「生産」と「流通」という二つの側面からとらえたコーパスをそれぞれ構築する。このコーパスは日本語研究の質及び研究効率を飛躍的に高めるだけでなく、応用的側面として日本語教育、辞書編纂、言語政策、言語処理等の各領域の着実な発展に大きく貢献する。

研究計画

 書籍コーパスの「代表性」は「どのような書き言葉がどれくらい実際に生産・流通しているか」という二つの観点でとらえる。母集団となるのは、2001年〜2005年に出版されたすべての書籍及び東京都内の公共図書館で所蔵している書籍である。構築作業は、大きくサンプリング、著作権処理、電子化、形態素解析の4つの段階に分かれる。

  1. サンプリングでは、サンプル長を1000字に固定するもの(固定長サンプル)、サンプル長を1万字を上限とするひとまとまりの文章とするもの(可変長サンプル)という2種類のサンプルを、書籍から抽出する。
  2. 著作権処理は、抽出されたサンプルの著作者を特定し、総括班と協力して利用許諾依頼を行う。
  3. 電子化は、XML(文書構造記述言語)を用いて分析用の様々な情報を付与する。
  4. 形態素解析は、自動的に精度の高い単語認定を行う。目標とする解析精度(分かち書き、品詞、代表形がそろって正しい精度)は98%以上である。

 コーパスの諸仕様は、マニュアルの形で整備して公開し、コーパス利用の普及をはかる。

(他の研究班との連携作業)

  1. 形態素解析については電子化辞書班およびツール班と連携して辞書情報の整備をすすめる。また「日本語話し言葉コーパス」で使用している品詞体系との互換性をはかる。
  2. XMLで表現する情報の種類については日本語学班、言語政策班からのフィードバックをもとに調整を行う。
  3. 「書籍コーパス」とは別に日本語教育班及び言語政策班の計画と連携して日本語教科書及び国語教科書の入力を行う。基本的なXML化の段階までをデータ班が分担する。
バックナンバー

2006

2007

2008

2009

2010

データ班 最新投稿リスト

» 2008/07/16 「モニター公開を行いました。」
著作権処理の済んだデータ約2500万語について,研究利用を目的に公開を行いました。 詳しくは...... [続きを読む]

» 2007/11/06 「2007年度データ説明会」
データ班では,11月5日に2007年度データ説明会を行いました。 領域内に公開するデータについて...... [続きを読む]

» 2007/06/14 「研究成果報告書」
平成18年度研究成果報告書(2冊)を作成しました。いずれも書き言葉コーパス構築のための基...... [続きを読む]

» 2007/02/20 「大規模汎用日本語データベースの形態論情報に関する検討会(第4回)を開催しました」
大規模汎用日本語データベースの形態論情報に関する検討会(第4回)を開催しました。 日時:20...... [続きを読む]

» 2006/12/06 「大規模汎用日本語データベースの形態論情報に関する検討会(第3回)を開催しました」
大規模汎用日本語データベースの形態論情報に関する検討会(第3回)を開催しました。 日時:20...... [続きを読む]