研究組織 『ツール班』
| 班 長 | |
|---|---|
| 松本裕治 | 奈良先端科学技術大学院大学情報科学研究科 |
| 分担者 | |
| 徳永健伸 | 東京工業大学大学院情報理工学研究科 |
| 乾健太郎 | 東北大学大学院情報科学研究科 |
| 橋田浩一 | 産業技術総合研究所社会知能技術研究ラボ |
| 浅原正幸 | 奈良先端科学技術大学院大学情報科学研究科 |
| 研究協力者 | |
| 橋本泰一 | 東京工業大学総合プロジェクト支援センター |
| 飯田 龍 | 奈良先端科学技術大学院大学情報科学研究科 |
研究目的
言語学から言語処理研究にいたる様々な基礎・応用分野において日本語の書き言葉コーパスを有効に利用するためには、コーパスに対して様々な情報を付与する(タグ付けする)必要がある。本研究の目的は、そのために必要とされる自動解析システムおよびタグ付け支援ツールの構築である。
研究代表者と分担者は、これまでに日本語に対する様々なレベルのタグ付けを実施してきた。語の分かち書きと品詞タグ付け(形態素解析)、句や固有表現のチャンキング、文節係り受け解析、句構造解析、項構造解析、照応解析、意味・談話解析などであり、そのための解析システムとタグ付け支援ツールを作成してきた。本研究では、その経験を活かして、上に述べたすべてのタグを包括した統合的な言語情報タグを設計し、また、それに基づいたタグ付け支援システムを開発する。
具体的には、まず全体的な整合性を考慮しながら各レベルのタグ付けの粒度とタグセットの設計を行い、人手で実施する際のタグ付け基準を定義し、明文化する。次にサンプルコーパスをその基準に従って人手でタグ付けする。最後にサンプルコーパスから機械学習を行うことによって、タグ付け支援システムおよび自動タグ付けシステムを開発する。
後者については、異なるレベル間のタグ情報の整合性のチェック機能、および、一方のレベルのタグ情報を利用して他方のタグ付けの曖昧性を解消するなど、タグ情報を有効に利用した自動タグ付けとタグ付け支援環境の構築を目指す。
研究計画
本研究では、形態素、構文、意味、文脈情報等の様々なレベルのタグ付けを考えており、各レベルのタグの詳細度の決定とタグセットの設計をまずは個別に行う。松本・浅原が、単語、形態素構造、句チャンキング、固有表現、文節係り受け構造を、徳永・橋本が句構造レベルの構文構造を、乾が用言と動作性をもつ体言の項構造と照応構造を、橋田が意味情報と談話情報をそれぞれ担当し、タグ付けの詳細度(粒度)とタグセットについて考察する。
これと並行して、適宜密接な打ち合わせを行いながら全体の整合性を維持しつつタグセットの詳細を詰める作業を行う。単語の粒度については、辞書と密接な関係があるので、計画研究(ウ)電子化辞書班とも適宜打ち合わせを行う。
各解析レベルの自動タグ付けの方式の検討を各グループで行いながら、タグセットの決定と自動タグ付けの方法を同時に考慮することによって、実行可能なタグセットとタグ付け基準を決定する。
タグ付きコーパスのサンプルを作成するため、自動タグ付けシステムとタグ付け支援ツールを作成する。各グループは、既にそれぞれが担当する言語構造のためのタグ付けツールを作成しているので、それらを持ち寄り、可能な部分を統合して汎用のタグ付けツールとするための設計を行う。
計画研究(ア)データ班からサンプルコーパスを入手し、各グループでのタグ付け作業を最初は同時に進め、徐々に同一コーパスへの多レベルのタグ付けが可能な支援システムへと発展させる。
ツール班 最新投稿リスト
» 2007/01/11 「ツール班会議(2006.11.17)」
ツール班の班会議を開催しました.
日時: 2006年 11月17日(金) 13:30-17:00
場所: NAIST 東京...... [続きを読む]
» 2006/10/28 「ツール班会議(2006.10.13)」
ツール班の班会議を開催しました.
日時:2006年10月13日(金)13時30分〜17時
場所:秋葉原ダイ...... [続きを読む]
