フィルターリファレンス

このセクションでは、アナライザーにおけるフィルターについて詳しく説明します。

小文字変換 [READ MORE]

`lowercase` フィルターは、トークナイザーによって生成された用語を小文字に変換し、大文字・小文字を区別しない検索を可能にします。例えば、`["High", "Performance", "Vector", "Database"]` を `["high", "performance", "vector", "database"]` に変換できます。

ASCII フォールディング [READ MORE]

`asciifolding` フィルターは、基本ラテン Unicode ブロック外の文字をそれらの ASCII 相当文字に変換します。例えば、`í` を `i` に変換することで、テキスト処理をよりシンプルかつ一貫性のあるものにします。これは特に多言語コンテンツにおいて有効です。

Alphanumonly [READ MORE]

`alphanumonly` フィルターは、非 ASCII 文字を含むトークンを除去し、英数字の項のみを保持します。このフィルターは、特殊文字や記号を除外して基本的な文字と数字のみを処理する必要があるテキストの処理に役立ちます。

Cnalphanumonly [READ MORE]

`cnalphanumonly` フィルターは、漢字、英字、数字以外の文字を含むトークンを削除します。

Cncharonly [READ MORE]

`cncharonly` フィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、中国語テキストのみに焦点を当て、他のスクリプト、数字、記号を含むトークンを除外したい場合に役立ちます。

長さ [READ MORE]

`length` フィルターは、指定された長さの要件を満たさないトークンを削除し、テキスト処理中に保持されるトークンの長さを制御できます。

Stop [READ MORE]

`stop` フィルターは、トークン化されたテキストから指定されたストップワードを削除し、一般的で意味の薄い単語を取り除くのに役立ちます。`stopwords` パラメーターを使用してストップワードのリストを設定できます。

Decompounder [READ MORE]

`decompounder` フィルターは、指定された辞書に基づいて複合語を個別の構成要素に分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語のように複合語を頻繁に使用する言語で特に役立ちます。構成要素の辞書は、`wordlist` パラメーターを通じてインラインで提供するか、`wordlistfile` パラメーターを通じて登録済みファイルリソースから読み込むことができます。

ステマー [READ MORE]

`stemmer` フィルターは、単語を基本形または語根（ステミングと呼ばれます）に還元し、異なる活用形を持つ類似の意味の単語を容易にマッチングできるようにします。`stemmer` フィルターは複数の言語をサポートしており、さまざまな言語コンテキストで効果的な検索とインデックス作成を可能にします。

Remove Punct [READ MORE]

`removepunct` フィルターは、トークンストリームから単独の句読点トークンを削除します。句読点記号ではなく意味のある内容語に焦点を当てた、よりクリーンなテキスト処理を行いたい場合に使用してください。

正規表現 [READ MORE]

`regex` フィルターは正規表現フィルターであり、トークナイザーによって生成されたトークンのうち、指定した式に一致するもののみが保持され、それ以外は破棄されます。