Google Desktop Searchを使ってみる
日本語版が15日に公開されました。
その検証はこちらをご覧ください。
先日、Google Desktop
Searchの正式版1.0が公開されてみたので早速使ってみました。
2005年3月7日現在、英語版、中国語版、韓国語版がリリースされているのですが、筆者は中国語も韓国語も読めないので英語版をインストールしていろい
ろと試してみました。
このソフトを使用するとデスクトップ中のファイルを高速に検索することができ、検索できるファイルとして各種Officeファイル、各種メールソフト
(Outlook, Outlook Express, Thunderbirdなど)そして、画像や音声ファイルなども検索することができます。
尚、このソフトはプラグインを使用できるようになっているので追加のプラグインをインストールすることにより検索できるファイルの種類をさらに増やすこと
ができます。
インストールするとインデックスの生成が開始されます。
ファイルの数にもよりますがインデックスにはしばらくかかるため、寝ている間などに行うとよいでしょう。
全ファイルのインデックスは初回のみ行われ、その後はファイルが追加されるごとに行われます。 メールソフトのインデックスはGoogle
Desktop Searchをインストール後にメールソフトを一度終了させ、立ち上げる必要があります。
Google Desktop Searchはブラウザ経由で使用します。
タスクトレイの渦のようなマークをダブルクリックするとブラウザが立ち上がります。

そうすると以下のような表示になります。

ここに任意の言葉を入力するとすでにインデックスされているファイルの全文検索が行われ、その結果が表示されます。
検索結果は全て、メール、チャットログ、ファイル、ウェブ履歴と絞り込むことができます。
このため、メールの過去ログのみを調べたい場合には簡単に表示を切り替えることができます。
音楽ファイルなどのメディアファイルを開いた場合には以下のように音楽の情報が表示され、その情報を含む場合はアルバムアートも表示することができます。

日本語の扱いには課題が残るが・・・・・・
このソフトはまだ日本語版がないために、日本語の扱いに少し問題が生じます。
しかし、異常動作を起こすわけではなく、少し工夫が必要になる程度です。
具体的には日本語の形
態素解析の機構がないために、文を分けることができないため、各文字を
独立したものとしてとらえてしまいます。
例えば以下の内容でwords.txtを作ったとします。
片瀬志麻
しーぽん
ビアンカ
宇宙のステルヴィア
あ
いうえお
か
きくけこ
さ
しすせそ
た
ちつてと
な
にぬねの
は
ひふへほ
ま
みむめも
や
ゆ よ
ら
りるれろ
わ
を ん
が
ぎぐげご
ざ
じずぜぞ
だ
ぢづでど
ば
びぶべぼ
ぱ
ぴぷぺぽ
ア
イウエオ
カ
キクケコ
サ
シスセソ
タ
チツテト
ナ
ニヌネノ
ハ
ヒフヘホ
マ
ミムメモ
ヤ
ユ ヨ
ラ
リルレロ
ワ
ヲ ン
ガ
ギグゲゴ
ザ
ジズゼゾ
ダ
ヂヅデド
バ
ビブベボ
パ
ピプペポ
ー。、
そして、まず、二つの検索を行ってみました。
検索句として「しーぽん」を入力してみました。
(カギ括弧は入力していませんい、以下も同様です。)
すると以下のような表示になります。

表示されているように「しーぽん」の文字はハイライトされています
が、同時に「し」、「ん」、「ぽ」、
もハイライトされていることがわかります。
これは何を意味するかというとこれらの文字を含むものに対しては全て該当してしまい、該当してしまうファイルが非常に多くなることを意味します。
次に、「ビアンカ」を入力してみました、結果は予想される通りです。

この場合には、「ビアンカ」の他にステルヴィアの「ア」、「ア」、
「カ」、「ン」などがハイライトされています。(「ビ」はプレビュー表示から漏れている
ようですが例えば表示範囲内にある場合はハイライトされていることでしょう。)
これはどうすればよいのでしょうか?
簡単な解決法があります。
言葉を半角の「"」(クオテーション)で区切ってやればいいのです。
先ほどの「しーぽん」の場合だと「"しーぽん"」といった具合です。
すると結果は以下のようになります。

今回はちゃんと「しーぽん」だけがハイライトされています。
ビアンカも同様に「"ビアンカ"」とします。

同様に「ビアンカ」のみがハイライトされています。
ということで、日本語でも結構うまく動作させることができます。
日本語版も出るようですのでそ
れを待てばいいのかも知れませんが、今すぐ使いたい!という人は試してみてください。
日本語版の検証
さて、英語版には前述の問題があったわけですが15日に公開された日本語版ではどうなっているか検証してみました。
まず「しーぽん」を検索してみた結果です。

「しーぽん」がハイライトされており、それぞれの文字はハイライトさ
れていないことが分かります。 つまり、日本語版においてはちゃんと「しーぽん」
が単語として理解されているようです。
同じように「ビアンカ」でも試してみると・・・・・・。

想定した結果が得られました。
面白いのが「宇宙のステルヴィア」を検索してみたものです。

見ると、「宇宙」「ステルヴィア」「の」がそれぞれ分かれていることがわかります。
次に、以下のサンプルを作ってちょっとイレギュラーな検索にしてみました。
片瀬志麻
名字が片瀬で、名前が志麻
文字は片、瀬、志、麻の四文字
片 瀬志麻
片瀬 志麻
片瀬志 麻
そして、このファイルを用意し「片瀬志麻」で検索したのが以下の通り
です。

見ると、この検索でヒットするのが「片瀬志麻」、「片瀬」、「志
麻」で一文字ごとの検索ヒットはしていないことが分かります。
やはり日本語版はかなり日本語での使い勝手が向上しているようです。