研究組織 『言語処理班』
| 班 長 | |
|---|---|
| 奥村 学 | 東京工業大学精密工学研究所 |
| 分担者 | |
| 白井清昭 | 北陸先端科学技術大学院大学情報科学研究科 |
| 新納浩幸 | 茨城大学工学部 |
| 竹内孔一 | 岡山大学大学院自然科学研究科 |
| 佐々木稔 | 茨城大学工学部 |
| 中村 誠 | 北陸先端科学技術大学院大学情報科学研究科 |
| 高村大也 | 東京工業大学精密工学研究所 |
| 研究協力者 | |
| 古宮嘉那子 | 東京農工大学工学研究院 |
研究目的
日本語を対象にした言語処理研究は、形態素解析、構文解析について研究が進んできているが、意味解析については依然研究が遅れている。また、代表性のあるコーパスを用いた言語処理研究は、これまでそのようなコーパスが存在しなかったため、日本語に関してはまったく行われてこなかったと言ってよい。そこで本研究課題では研究項目A01で構築する代表性のある書き言葉コーパスを用いた実証研究を行う。具体的には以下の3つを柱とした日本語意味解析手法の開発を行う。
- 語彙概念構造に基づく動詞の意味構造の自動抽出手法の開発と、それを用いた動詞の述語項構造辞書の自動構築手法の開発
- 単語の新語義、新用法の自動発見手法の開発
- 最終年度には国際ワークショップを開催する。
本研究課題で開発する手法は、領域内において少なくとも日本語学、日本語教育学、辞書編集研究に寄与することを予定している。例えば代表性のある書き言葉コーパスにおける単語の語義ごとの代表的な用例集が半自動作成できれば、教材作成の有用な基礎データとなる。また単語の新しい意味が自動的に発見できれば、辞書編纂作業を強力にサポートできる。
研究計画
上記1については、まず機械学習手法を用いて単語の語義同定を行う手法を開発する。次いでその手法を研究項目Aで構築する書き言葉コーパスの一部に適用することによって、語義タグ付コーパスを半自動構築する。語義タグ付コーパスの整備にともなって、多義性解消手法も拡張してゆく。
2については、書き言葉コーパス中の語を意味ごとにまとめるクラスタリング手法を開発し、コーパスに含まれる単語の語義数を自動的に決定する手法に発展させる。その際、自動的に分類された語義と1)において構築した語義タグ付コーパスの既存語義とを比較することによって、新しい語義の発生を検出することが可能になる。
3については、係り受け解析ツールを利用して既存の語彙概念構造辞書を拡張するシステムの構築を行う。既に語彙概念構造が付与されている動詞約1200語を元に、書き言葉コーパスを用いた学習により、格パターンと意味の類似する動詞を特定し、類似する動詞に対しては類似の語彙概念構造を抽出する。この作業は当初人手で実施するが、最終的には研究項目Aで構築された書き言葉コーパスを分析することによって、語彙概念構造自動抽出手法の精度向上を図る。
言語処理班 最新投稿リスト
» 2008/04/30 「言語処理班会議(第1回)の御案内」
言語処理班の今年度第1回の班会議を下記の日時と場所で開催することになり
ました.
日時 6月9...... [続きを読む]
» 2006/12/28 「発表文献」
岡山大の竹内です.
以下の文献を発表したので報告します.
下村拓也,竹内孔一
名詞の概念体系...... [続きを読む]
