« ベートーベン、ベートーヴェン、それとも・・・ | メイン | CD管理データベース・システムで音源をサポートします »

2015年8月 1日 (土)

ギョエテ状態

前回、ベートーベンとベートーヴェンについて書きました。RecLic のようなデータベース・アプリを作っていると「べ」と「ヴェ」をどのように扱うかが結構問題になると書きましたが、実はもっと面倒な問題があるのです。

ビートルズのメンバーだった George Harrison は、たいてい「ジョージ・ハリスン」と書かれますが、「ジョージ・ハリソン」と書かれる
場合もあります。俳優の Harrison Ford は、たいてい「ハリソン・フォード」と書かれます。綴りは同じ、両方とも英語読みです。
同じようなのは他にもいっぱいあって、「ガーシュウィン」と「ガーシュイン」、「バーンシュタイン」と「バーンスタイン」
「ミヒャエル」と「ミハエル」「ミカエル」などなど。

現状の RecLib データベースには「ジョージ・ハリスン」が入っていますが、「ジョージ・ハリソン」ではヒットしないのです。
ベートーベンとベートーヴェンの問題は「ベ」と「ヴェ」を区別しないという方法で回避しましたが、「ハリスン」「ハリソン」などは
そのような小手先の、いわば「ごまかし」ではどうにもなりません。

どうするか(どう出来るか)を考えていたら「ギョエテとは俺のことかとゲーテ言い」を思い出しました。
文豪ゲーテは Johann Wolfgang von Goethe なんですが、この人のカナ表記をググってみると面白い。たくさん見つかりました。

ゴエテ、ギューテ、ギェーテ、ギョート、ギョーツ、ギュエテ、ゲォエテ、ゴアタ、グウィーテ、
ゲエテー、ゲーテー、ゲェテー、ギョウテ、ギヨーテ、ギョーテ、ギョーテー、ギヨテー、ギヨテ、
ギヨヲテ、ギヨオテ、ゲョーテ、ゲヨーテ、ゴエテー、ゲエテ、ギヨエテ、ゲイテ、ギョエテ、ゲーテ
この調子では、他にもありそうですね。

この「ギョエテ状態」に対応する検索エンジンをどうするか。検索条件入力画面で入力された文字列から検索すべき文字列を
作りだすのは不可能に思えるので、データベース上に表示用文字列とは別の検索専用の項目を用意し、
そこへ「ゴエテ、ギューテ、ギェーテ・・・」を入れておけばいい。「ゴエテ、ギューテ、ギェーテ・・・」のどれでヒットしても
表示するのは「ゲーテ」。いいねぇ。出来たようなもんだ。

ところが、これを実現するとなるとデータベースの表定義を変えざるを得ないのです。それも大幅に。
最初は人名だけで良いかと思っていたのですが、「○○の主題による変奏曲」なんて曲名があるし、人名を冠した演奏会場もあります。
アルバムタイトルに人名が含まれている場合もあります。結局、プログラムの殆ど全部に影響が出てしまいます。修正というよりは作り直し。
この問題に対応した検索エンジンを作るつもりでいますが、さて、何時出来ることか。何年か先になりそうです。

コメント

コメントを投稿