フィルターリファレンス
このセクションでは、アナライザーにおけるフィルターの詳細なリファレンスを提供します。
Lowercase [READ MORE]
`lowercase` フィルターは、トークナイザーによって生成された用語を小文字に変換し、大文字と小文字を区別しない検索を可能にします。例えば、`["High", "Performance", "Vector", "Database"]` を `["high", "performance", "vector", "database"]` に変換できます。
ASCII folding [READ MORE]
`asciifolding` フィルターは、Basic Latin Unicode ブロック外の文字を対応する ASCII 文字に変換します。例えば、`í` のような文字を `i` に変換し、特に多言語コンテンツにおいてテキスト処理をよりシンプルかつ一貫性のあるものにします。
Alphanumonly [READ MORE]
`alphanumonly` フィルターは、非ASCII文字を含むトークンを削除し、英数字のみを保持します。このフィルターは、特殊文字や記号を除外し、基本的な文字と数字のみが関連するテキストを処理するのに役立ちます。
Cnalphanumonly [READ MORE]
`cnalphanumonly` フィルターは、漢字、英字、数字以外の文字を含むトークンを削除します。
Cncharonly [READ MORE]
`cncharonly` フィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、中国語のテキストのみに焦点を当て、他のスクリプト、数字、または記号を含むトークンをフィルタリングしたい場合に役立ちます。
Length [READ MORE]
`length` フィルターは、指定された長さ要件を満たさないトークンを削除し、テキスト処理中に保持されるトークンの長さを制御できるようにします。
Stop [READ MORE]
`stop` フィルターは、トークン化されたテキストから指定されたストップワードを削除し、一般的で意味の薄い単語を除去するのに役立ちます。ストップワードのリストは、`stopwords` パラメーターを使用して設定できます。
Decompounder [READ MORE]
`decompounder` フィルターは、指定された辞書に基づいて複合語を個々の構成要素に分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語のように複合語を頻繁に使用する言語で特に役立ちます。
Stemmer [READ MORE]
`stemmer` フィルターは、単語をその基本形または語幹(ステミングとして知られる)に還元し、異なる活用形を持つ単語間で類似の意味を持つ単語をより簡単に一致させることができます。`stemmer` フィルターは複数の言語をサポートしており、さまざまな言語コンテキストで効果的な検索とインデックス作成を可能にします。
句読点の削除 [READ MORE]
`removepunct` フィルターは、トークンストリームから独立した句読点トークンを削除します。句読点ではなく、意味のあるコンテンツワードに焦点を当てた、よりクリーンなテキスト処理が必要な場合に使用します。
正規表現 [READ MORE]
`regex` フィルターは正規表現フィルターであり、トークナイザーによって生成されたトークンは、指定された正規表現に一致する場合にのみ保持され、それ以外はすべて破棄されます。