« Debian で ATOK X for Linuxマルチリンガルに真剣になると »

Anthyが使っているアルゴリズム

2005/07/06

Link: http://blogs.da-cha.jp/momokuri.php/2005/06/28/data_structure_and_algorism_in_anthy

田畑さんから、

自然言語処理の教科書を適当に見ていただければ(内容がわからなかったら、基本的な項目の年代を見てください)読み取れると思います。

というアドバイスがあった。実際、文字検索関係では、Boyer-Moore法やKnuth-Morris-Pratt法あたりを20年くらいまえに月刊アスキーの1986年くらいのやつのByte誌あたりの翻訳記事で勉強した覚えがあるが、さすがに中身までは覚えていない。ちなみに、ASCII Vol10,#12 Dec. 1986に掲載された「インタープリタの設計と構築」の記事をスキャンしたのが手元にあったりして、昔はよい記事を保管するのも大変だった。いまは、PDF化されて再利用できて、便利になったものだ。

で、改めて自然言語処理の書籍を探してみた。

たとえば、「 情報検索アルゴリズム」(共立出版、2002年・北ほか著)には、Boyer-Moore法など文字列照合に基づく検索のほか、Nグラムによる全文検索も触れられており、パトリシア・トライを用いた検索も紹介されている。
また、「自然言語処理の基礎」(サイエンス社、2000年・吉村賢治著)では、形態素解析とか構文解析なんかの話題があったが、入力メソッド言語エンジンの理解のためと思うとちょっと遠い感じ。ただ、形態素解析のところにある文節区切りのヒューリスティックの話題で「文節最長一致法」と「2文節最長一致法」とか、「コスト最小法」とかいうような話は基本として知っておくべきだろうね。たとえば、かんなは 2 文節最長一致法でやってるよね。

日本語入力について、参考になりそうなサイトをメモしておくと、

とかでしょうか。

Trackback address for this post

Trackback URL (right click and copy shortcut/link location)

No feedback yet


Form is loading...