日本語コーパスHOME > 研究組織 > 日本語機能表現班

研究組織 『日本語機能表現班』

班 長
宇津呂武仁 筑波大学大学院システム情報工学研究科

URL

http://nlp.iit.tsukuba.ac.jp/must/

研究目的

 日本語においては、複数の機能語や自立語から構成されて、文中で機能的な役割をする機能表現が多数存在する。機能表現のうち、特に、複数の語が非構成的に組み合わされた表現は複合辞と呼ばれる。自然言語の解析においては、これらの機能表現の表記を的確に同定するための辞書が不可欠である。さらに、「代表として参加する」、「閑散として寂しい」の「として」のように、複合辞としての機能的用法と、本来の動詞としての自立的用法の間の判別が必要な表現も多数存在し、これらの多義性解消も重要な課題である。

 研究代表者は、このような日本語機能表現の解析の課題に対して、これまでに、国立国語研「現代語複合辞用例集」に収録されている125機能表現の異表記を展開した300表現について、機能的用法・自立的用法を判別した用例データベースを作成・公開した。また、機能的・自立的用法の自動判別ツールを作成し、係り受け解析ツールとの統合により、複合辞としての機能的用法を考慮した係り受け解析を実現した。また、日本語機能表現の全表記を網羅した辞書として、奈良先端大松吉俊氏・名古屋大佐藤理史教授によって、日本語機能表現の全表記約17,000を網羅的に収録した「つつじ」(http://kotoba.nuee.nagoya-u.ac.jp/tsutsuji/)が公開されたのを受けて、17,000表現全てを対象とした機能的・自立的用法の判定方式を提案した。

本研究では、この提案方式をふまえて、日本語機能表現の全表記約17,000を網羅的に収録した辞書「つつじ」の階層的構造および言語学的特性を活用して、網羅的な日本語機能表現の解析を実現する。具体的には、以下の項目に沿って研究を進める。

  1. 「つつじ」の階層的構造を利用して、17,000表現を代表表現と派生表現に分割する。
  2. 代表表現に対して、複合辞としての機能的用法と、本来の自立語としての自立的用法の間の判別が必要な表現を同定する。
  3. 代表表現に関する知識を活用して、その派生表現の解析を行う方式の有効性を検証する。

研究計画

目的で述べた項目1、2、3に対して、以下の計画に沿って研究を進める。

  1. 日本語機能表現の全体は、活用形を含む助動詞型15,500表現(基本形で、代表表現500および派生表現3000)と、助動詞型以外1,360表現(代表表現760および派生表現600)に分けられる。
  2. これまでにすでに用例データベースの構築および特性分析を行った300表現では、機能的・自立的用法の曖昧性が存在する表現は約100表現である。そこで、新聞記事コーパスを対象として、助動詞型代表表現500、助動詞型以外の代表表現760に対して、機能的・自立的用法の曖昧性の判定作業を行い、各表現50用例を蓄積する。そして、この機能的・自立的用法の曖昧性の判定結果をふまえて、複合辞としての機能的用法と、本来の自立語としての自立的用法の間の判別が必要な表現を同定する。
  3. 提案方式では、自動判別ツール学習用の教師データは代表表現に対してのみ作成し、機能的・自立的用法の曖昧性のある派生表現の用法判別の際には、派生表現を代表表現に言い換えた後、機能的・自立的用法の自動判別を行う。そこで、2.で作成した用例に対して、文中の他の表現の用法判別作業を行ったデータを作成し、これを自動判別ツール学習用の教師データとする。次に、派生表現のうち新聞記事コーパスに出現しやすい常体104表現・堅い体7表現に対して、各表現50用例の評価データを作成する。さらに、派生表現のうち、助動詞型100表現、および、助動詞型以外50表現に対して、国語研「話し言葉コーパス」、ウェブ上のブログ等のテキスト、内省等から用例を収集し、派生表現に対する用法判定済み用例を各50用例作成し、これらも評価用用例とする。以上を用いて、提案方式の性能を評価する。