[Sitecore 8][Content Search][IFilter]IFilterを使ってサイトコアコンテンツ検索その一、概説
概要:IFilterを使ってサイトコアコンテンツ検索その一、概説の編。質問と答えの形式でサイトコアがIfilterを導入し、またIfilterの比較などを書いていきます
先日サイトコアKBにてAdobe IFilter 11 support for Sitecore Content Searchの記事がありました。基本的にSitecoreコンテンツ検索でAdobeIFilter バージョン11をサポートしていないので変わりにバージョン9を使うとことことです。私は以前PDF検索に関する作業があったので、私の経験をもとに三回を渡ってAdobe Ifilter使って感じたことまた、実際にセットアップの手順、そして、PDFファイルをメディアライブラリだけではなく、添付ファイルとして検索をする方法まで紹介していきたいです。
第一回として、質問と答えの形式でサイトコアがIfilterを導入し、またIfilterに関して書いていきます。
質問:そもそも、IFilter ってなに?
答え:
Windows でファイル検索を行う場合、それぞれのファイル形式に対応した IFilter を用意し、検索ソフトウェアでインデックスを作成する方法があります。IFilter により、HTML ファイルのようなテキストファイルはもちろん、Word ファイルのようなバイナリ形式のファイルについても、検索ソフトウェアから検索できるようになります。TET PDF IFilter は PDF に対応した IFilter で、PDF ファイルからテキストや XMP メタデータを抽出し、検索ソフトウェアで利用できるようにします。
質問:どのバージョンからIFilter が導入され、何のために使われているのですか?
答え:
この記事によると
Sitecore7にてComputed フィールドが導入され、メディアのコンテンツはこのComputed フィールドに抽出されます。これよれ、メディアのコンテンツまでインデックスすることがディフォルトで可能になりました。それまでに、独自のインデックスフィールを作成しなければなりませんでした。Ifilter使用というアプローチは設定を最小限にすることを狙っています。ただ、お客さんのフィードバックより、もっと柔軟な設定、つまり、必要とするものだけをインデックスするという要望を応じ、バージョン7.2以降はMIMEタイプ別の設定が可能になりました。
質問:何でAdobe IFilter が人気があるのですか?
答え:
無料だからです。。。
質問:Adobe の PDF IFilter 以外別の PDF Ifilterがないの?
答え:
あります。メインで知られているのはこの二つです。
Foxit PDF IFilter
PDFlib TET PDF Ifilte
うん、それじゃPDFを使用する場合はどのIFilterを使うべきですか?
お客さんに聞きましょう。お客さんの予算によって、無料なバージョンを使うか、有料なバージョンを使うかを決めればいいです。また、それぞれのバージョンを実装し、必要に応じて選択すればいいです。考慮すべきなことは、AdobeIFilter9はかなり古いバージョン(2008年にリリースされたもの)で、サポートなどあまり依頼できない。ただ、サイトコアから進めされているので、実績があります。
その一方で、Foxit PDF IFilter、の説明をみるには39倍も処理速度がAdobeIFilter9より速いとあります。また、有料なので、サポートプランも購入ができます。お客さんによって、一ヶ月に一回PDFを追加するサイトもあれば、毎日100以上のPDFを追加するサイトもあります。結局お客さんのニーズによって決まらなければなりません。
また従来のように、Ifilterを使わず、IKVMとTikaを使ってPDFのインデックスをすることもできます。詳細はこのスタック・オーバーフローの記事を参照してください。基本的に、IKVMとTikaを使ってPDFのコンテントを抽出して、テキストとしてインデックスすることでPDFのコンテントの検索を可能にします。
次回はAdobeIFilter9を使ってメディアのコンテンツのインデックスをする手順を書きます。