最近、本の整理をしています。本を整理していると、読んでない(忘れている)本がポロポロ出てきて、最近、少しだけ、読書の時間を確保するようになりました。そんな中、養老先生のエッセイ本が出てきたので、読み始めていて、いろいろ考えさせられています。
難しい話もあるのですが、ある短いエッセイで、「日本語の特徴」というお話があって、日本語は一字多音読みで、一字一音が主流の他の言語とは異なる。日本語の失読症は、漢字が読めない場合と、カナが読めない場合の2種類があって、一字一音が基本の他言語の失読症は、日本語で言うところのカナが読めない症状しかないというような話が書かれていました(だいぶ、端折ってますが・・・)。脳の処理で考えると、カナと漢字では別のところが担っているということらしいのです。
だいぶ前に、論文か何かを読んでいたとき、文字認識について、考えたことがあったのですが、そのとき、文字とダイレクトに意味付けしても限界があるのではなかろうかと思いました。音声を伝達したり記録したりするために、人が文字を作り出したわけで、音声の部分を持たずに意味づけするのは難しいかも知れないと思いました。でも、一字一音の言語だと、音を飛び越して出来るのかも知れません。ぼくは、無意識に日本語で考えていたから、出来ないのではと思ったのかも知れませんね。
人の場合、例えばリンゴを認識するとき、ビジュアルは勿論、匂いや味、持ったときの感触や重さ、大きさなんかと紐付けて、りんごという音声を認識します。その後、文字を対応付けして、リンゴという文字を認識しているような気がします。文字認識の場合は、アプローチとして、その逆をやろうとしているような気がしていて、限界を感じるわけです。文字は人の作り出したものなので、データ処理的には扱いやすいと思うので、間違っているとは思わないのですが、特に、日本語の場合は、精度を出すのは大変そうです。
認識において、ビジュアルの役割は、他の五感に比べて大きいような気がしますので、ビジュアルと音声の対応が取れて、音声と文字の対応が取れると、文字認識率が格段に良くなるような気がします。ただ、ライブラリは、膨大なデータになりそうなので、いろいろ工夫がいるかも知れませんね。さらに、漢字の認識には、別の何かが必要になってくるかも知れません。
文字認識の研究は古いので、ぼくが知らないだけで、すでに、研究結果が出ているかも知れませんし、ここまでしなくても、すでに、十分な認識率があるのかも知れませんが・・・。本を読んでて、余計なことをツラツラと考えてしまいました。