日本語コーパスHOME > 研究組織 > 電子化辞書班

研究組織 『電子化辞書班』

班 長
傳 康晴 千葉大学文学部
分担者
峯松信明 東京大学大学院新領域創成科学研究科
小木曽智信 国立国語研究所言語資源研究系
小磯花絵 国立国語研究所理論・構造研究系
連携研究者
山田 篤 京都高度技術研究所研究開発部
内元清貴 情報通信研究機構総合企画部
小澤俊介 名古屋大学大学院情報科学研究科

研究目的

 本計画研究の目的は、従来開発を進めてきた形態素解析システム用電子化辞書UniDicを整備・拡充・改良し、本研究領域が目指す大規模書き言葉コーパスの構築を支援するとともに、日本語学・日本語教育学・自然言語処理・音声情報処理など、多様な目的に適した統合的な電子化辞書およびその利用システムを提供することにある。
 具体的には、(1)本コーパスで使用される体系と整合的な電子化辞書(短単位で10万語以上)を開発し、(2)発音・アクセントや意味など多様な目的に利用できる多彩な情報を記述し、(3)語彙形態論研究に適した短単位、音声研究に適した中単位、構文・意味研究に適した長単位という複数粒度の「語」を高精度(98%以上)で自動構成するシステムを提供する。
 従来の形態素解析システム用辞書が、計量言語学的な研究に必要な語の同一性(異表記・異形態の扱い)や単位の斉一性(語を認定する一定の基準)の問題を解決していないのに対して、UniDicは開発当初から本研究領域の主要メンバーである国立国語研究所グループとの議論を通じて開発が進められており、日本語コーパス言語学分野において、比類のない重要性をもった研究リソースとなる。
 研究代表者および分担者の一部は、情報処理振興事業協会「擬人化音声対話エージェント基本ソフトウェアの開発」プロジェクト(平成12年度〜平成14年度)において、UniDicの開発に着手した。プロジェクト終了後も共同研究を続け、平成16年現在で3万5千語からなる形態素解析システム用辞書を作成・公開している。この辞書は、既存の形態素解析システムでは重視されていなかった音変化・アクセント変化の扱いを可能とした点で音声言語処理分野に大きく貢献している。
 本班員の多くは本領域代表者である前川喜久雄・国立国語研領域長が中心となって進められた科学技術振興調整費開放的融合研究「日本語話し言葉コーパス」プロジェクト(平成11年度〜平成15年度)にも参加しており、本領域内他班のメンバーとの協力関係も十分整っている。

研究計画

 本電子化辞書UniDicの特色は、(1)多彩な辞書情報、(2)3つの異なる粒度の「語」(短・中・長単位)、(3)階層化されたデータ構造である。これらを実現すべく分担者ごとに以下のように研究を進める。
 研究代表者の傳は、「データ」班の協力のもと、本研究領域で構築するコーパスと整合的な体系を策定し、語彙形態情報を整備し、語彙の拡充を行う。また、階層化データによる辞書管理システムを「ツール」班と共同で開発し、辞書記述作業に利用する。さらに、平成20年度以降は、国立国語研究所が従来開発を進めてきた『分類語彙表』の情報を適宜拡張しつつUniDicに取り入れ、語の意味分類を記述する。
 山田・峯松・小木曽は、発音・アクセントに関する情報を記述する。『日本語話し言葉コーパス』を用いて、複合語形成時の音変化(数詞・助数詞の変化や連濁など)やアクセント変化現象を抽出し、その調査に基づき発音・アクセント処理システムを開発する。このシステムは「データ」班に提供し、語形・発音の修正作業に利用する。
 内元は、山田・峯松・小木曽と協力し、短単位から中・長単位を自動構成するシステムを開発する。中単位処理は音変化・アクセント変化処理を高度化するために利用し、長単位処理は平成21年度以降「データ」班で行う長単位付与作業を支援するために利用する。 以上の過程において作成されたデータはすべて国立国語研に集め、小木曽の指導のもと、研究補佐員によって辞書サーバに記述する。
 開発された辞書・システムは毎年公開し、最終的に短単位で10万語以上の辞書と単語認定精度(分かち書き、品詞、代表形)98%以上のシステムに仕上げる。

バックナンバー

2006

2007

2008

2009

2010

電子化辞書班 最新投稿リスト

» 2007/10/23 「UniDic-chasen-1.3.5公開のお知らせ」
10月上旬に、「茶筌」用形態素解析辞書UniDic-chasen-1.3.5を公開しました。以前の版からの変...... [続きを読む]

» 2007/10/01 「班会議を開催しました」
電子化辞書班の2007年度第2回班会議を開催しました。 日時:2007年9月20日(木) 13:40-17:20 場...... [続きを読む]

» 2007/04/12 「unidic ver. 1.3.0公開」
本特定領域の成果物である形態素解析辞書unidic ver. 1.3.0を公開しました。以下のURLから無...... [続きを読む]

» 2007/03/12 「第3回班会議を開催しました」
電子化辞書班の第3回班会議を開催しました。 日時:2007年3月7日(水) 13:30-18:00 場所:京都...... [続きを読む]

» 2007/01/10 「電子化辞書班「第2回班会議を開催」」
電子化辞書班の第2回班会議を、12月27日(水)に、国立国語研究所で開催しました。 今回の参加...... [続きを読む]