うえぶろぐ [新本館]: 自然言語処理

ラベル 自然言語処理 の投稿を表示しています。すべての投稿を表示

2011/03/02

産業日本語研究会シンポジウム

まず長尾先生の基調講演「知識インフラと日本語」。前回の知の構造化シンポジウムのときと同様、「知識」と「知」の関係。「知」には慣習や善・得に支えられているもの、という話が導入になる。その後情報の分析の話が中心になった。

分析の目的には、日本の産業の強化、イノベーション推進があるようだ。日本は要素技術はもっているものの、iPadのようなものを実際に出すのは外国の会社に先を越されている。

人文科学、社会科学的視点をもった、経済・社会にインパクトを与える研究開発が必要になる。SNS 的に人をつなぐ必要がある。それをサポートする知識インフラが必要になる。これは各分野の知識データベースをゆるいつながりでつないだようなもので、４月からはじめる科学技術基本計画に取り入れられている。

後は言語技術の重要性であるが、これに関しては皆さん合意ができているだろうことですので、省略します。

発表資料はここから入手できます。→ 「第2回産業日本語研究会・シンポジウム」発表資料

2011/02/06

知の構造化センターシンポジウム

2月5日、東京大学知の構造化センターのシンポジウムを聴きに行きました。

東京大学・知の構造化センターシンポジウム

Ustream 中継がありました。アーカイブは以下。

会場の東大福武ホールは、各席に電源があり、今回は無線LANも提供されて、ハッシュタグ #cks11 も宣言されたので、多くの人がTwitterで発信していました。Togetterまとめができています。発言者数が 1月の"Japan Innovation Leaders Summit" のときほど多くなかったので、まとめもまだ見やすいと思います。

長尾先生は、精力的にさまざまところで講演されていて、私もできるだけ聴きに行っています。今回はこれまで話があった国立国会図書館のデジタル化、著作権法改正の話が中心だったのですが、1994年の日本初の電子図書館となった京大図書館の話は私は初めててでした(って勉強が足りんということなんですが)。ただ全文検索が出来るというのではなく、書籍を目次の構造で構造化しており、部品単位に得ることができます。これはGoogle Booksでも実現されていない機能です。コピペ論文は一般によくないとされているが、この図書館で部品単位でばらばらにされたものを再構築した論文は必ずしも悪いと思わないという発言が印象的でした。

12月の暮れの東京芸大シンポで「芸術・文化のアーカイブの検索」に関してはなされたそうで、その話も今回のお話にも入れたかったが時間が足りないということで軽く言及されただけだったのが残念でした。東京芸大のシンポジウムはあらかじめ知っていたら参加したのにと思います。

セッション1 「思想」の構造化は、今回の目玉だと思います。岩波の雑誌「思想」の90年分をデジタル化し、MIMAサーチで検索、分類、分析可能にしたということです。検索結果をコンテキストで分類されるので、果物のアップルと、IT企業のアップルを分けて得ることができます。文書の類似性でリンクが貼られ、思想界が俯瞰でき、また年代別にトピックの変遷を知ることができます。「これは研究のツールとして使える」と、文科系の先生が興奮されていたという話が印象に残りました。

その文科系の研究にとっての価値は、ビデオレターとして登場したコロンビア大学キャロル・グラック先生の話で裏付けられます。

知の構造化は、知の「脱」構造化にも繋がる。私たちの思考を制約している既存の枠組みから私たちを解放する可能性も持っている。

既存の研究も「〜派」という枠組みに囚われずに見直すことにより、新たな発見、新たなものの考え方が生まれるとすると素晴らしいことだと思います。会場の意見などを聞いていると、既存の枠組みだけで考えるだけではダメで、枠を超えた思考が人文系研究者に求められるようになるだろうという観測でした。学会の大御所の抵抗もあると思うのですぐには変わらないかもしれませんが、ITが社会を変革することの現場に居合わせたような気がしました。エジプトのデモの前夜のような感覚と似ているのかもしれません。

午後は技術が中心であまり新鮮な話もなかったのですが、Wikipediaの分類、マップ化のデモは興味深かったです。この分類技術も昔からあるものではあるのですが、Ajaxを使ったズーミングと画像でWikiページを表現することを組み合わせたインターフェースが魅力的です。→ Wikipedia SOM Visualization

パネルディスカッションでは、いろいろな側面から議論が行われ、その点ではテーマが絞られていなかったと思います。その中で、東大辻井先生の『人類史上初めて「知識」を客観的な研究の対象としてみることができるようになったのではないか。』という発言が印象に残りました。

2010/03/01

言葉が専門家と一般人をつなぐ

こんばんは。

先日24日に休みをとって、第１回産業日本語研究会・シンポジウムに行って来ました。大雑把にいえば、人間にもコンピュータにも分りやすい日本語を作ることを目指した研究会です。

その中で、「理解しやすい日本語を作る先行的な取り組み」として、司法の分野と医療の分野が紹介されていました。これらの場合、「専門家にしか分らないような日本語を一般人にも分るようにする」ことを目的とした取り組みです。

興味深かったのは、その取り組みの構造が恐ろしく似ていたことです。

まず目的が、「必要に迫られて」ということです。司法の分野は裁判員制度の導入で、医療の場合は「インフォームドコンセント」です。

これまで裁判は、検索、弁護士、裁判官という、いずれも司法試験を通った人で行われてきました。そこに司法の素人である裁判員が加わることになります。正しい判断をするためには、正しく理解しなければ行けません。そのために、専門用語で構成された法律、冒頭陳述や求刑など裁判で作成される文章を理解できるようにしなければならないということです。

医療の分野の「インフォームドコンセント」も同様に、治療の方針を患者側が納得した上で進めないといけないので、納得する前に理解できる必要があります。それまでは「先生にお任せ」であったので、説明の必要すらなかった場合もあるのですが、これからそういう訳にもいきません。
その改革のプロセスも似通っています。その専門家と、専門外の人 (その中で特にNHKなど日本語で伝えるという意味では専門家) でタスクを作ります。数ある専門用語の中から重要なものをピックアップし、ひとつひとつ専門家が意味を説明し、非専門家が分らないところを聞いて、それからどういう言葉なら理解できるのかを議論します。

またこのプロセス自体も手探りで作って行ったと言うことです。

タスクメンバーの関与の仕方が変わって行ったというのも共通しています。最初はやり方がわからないことによる試行錯誤もあるし、専門用語をどうやって簡単にするのかが難しいこともあって、それほど皆さん乗り気ではなかったようですが、次第にこの議論が面白くなって来たと言うことだそうです。みなさん素人と言っても別の分野では専門家な訳で、知的好奇心を刺激するのでしょう。また何でも真剣にやれば次第に面白くなって来るものです。

面白かった例は「冒頭陳述」を「検察が考えるストーリー」 (すみません今資料がなくてうろ覚え) に言い換えるときに、検察側の反発が大きかったということです。「ストーリー」というと、如何にも作り話に聞こえ、検察側が誘導しようとしているみたいに聞こえてしまいます。しかし、本来裁判はこの冒頭陳述が証明付けられるかを争うプロセスです。有罪率が高かったり、推理ドラマでは裁判前に犯人が参りましたと言うところを見せられて来ていますから、日本人は検察のいうことは正しいものと捉えがちです。またマスコミも、冒頭陳述のそういう位置づけを説明せず、あたかもそれが実際にあったことをそのまま報道しているかのような書き方をしています。

結局この「ストーリー」でいくことにしたそうですが、この名前の変更だけでも、これまで常識と思っていたことを考え直すきっかけになるでしょう。それは検察にとっても同様じゃないかと思います。これまで正しいものとして受け止められて来たものが、そうでないかもという目で見られるのですから、自ずと説得力のある書き方に変わってくるのではないでしょうか。

ただ本当は単語の意味の問題だけではないのですけどね。そういう意味で、次のイベントは気になります。

２０１０年３月７日裁判員裁判におけるコミュニケーション・デザインの学際的研究

2009/01/13

Yahoo!日本語係り受け解析を使ってみた

こんばんは。私インターネットのヤホーというサイトで調べていたら、グーグルといういろいろなサービスを提供しているサイトを見つけてしまいました。

今日は休みだったので、こんなのを作ってみました (解析部分は昨年末からできていたのですがずっとほっておいていました)。

Google App Engineから、
Yahoo!の日本語係り受け解析を呼び出し、その係り受け関係を
Google Visualization APIのひとつ組織図の形式で表示します。

入り口はここ： Yahoo Analysis Test [追記：サービス停止しました]

日本語の文を下記にテキストエリアに入れて、"Analyze"ボタンを押します。

下記のようなツリー形式で表示されます。

係り側は出現順に左から右に配置できれば良かったのですが、まだ詳しい使い方を理解していないので、ご勘弁を。

表示に関しては、Ortho というライブラリがもっと良さそうなのですが、ちょっとGoogleのよりもハードルが高そうなのでこれはあとの課題にしたいと思います。

それからほとんどテストしていませんので、へんなメッセージが一面に出たら何を入れてそうなったか教えて下さい。

参考：
CodeZine (2008/08/21) Yahoo!、「日本語係り受け解析Webサービス」のAPIを公開
たつをの ChangeLog (2008/08/21) ヤフーの日本語係り受け解析APIとサンプルプログラム「なんちゃって文章要約」