フィルター参照
このセクションは、アナライザー内のフィルターの詳細なリファレンスを提供します。
Lowercase [READ MORE]
`lowercase`フィルターは、トークナイザーによって生成された用語を小文字に変換し、検索を大文字小文字を区別しないようにします。例えば、`["High", "Performance", "Vector", "Database"]` を `["high", "performance", "vector", "database"]` に変換できます。
ASCII folding [READ MORE]
`asciifolding`フィルターは、Basic Latin Unicodeブロック外の文字をASCII相当の文字に変換します。例えば、`í`のような文字を`i`に変換し、特に多言語コンテンツにおいてテキスト処理をより簡単かつ一貫性のあるものにします。
Alphanumonly [READ MORE]
`alphanumonly`フィルターは、非ASCII文字を含むトークンを削除し、英数字の用語のみを保持します。このフィルターは、特殊文字や記号を除外し、基本的な文字と数字のみが関連するテキスト処理に有用です。
Cnalphanumonly [READ MORE]
`cnalphanumonly`フィルターは、中国語文字、英文字、または数字以外の文字を含むトークンを削除します。
Cncharonly [READ MORE]
`cncharonly`フィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、中国語テキストにのみ焦点を当てたい場合に便利で、他のスクリプト、数字、記号を含むトークンをすべて除外します。
Length [READ MORE]
`length`フィルターは、指定された長さの要件を満たさないトークンを削除し、テキスト処理中に保持されるトークンの長さを制御できます。
Stop [READ MORE]
`stop`フィルターは、指定されたストップワードをトークン化されたテキストから削除し、一般的で意味の薄い単語を排除するのに役立ちます。`stop_words`パラメータを使用してストップワードのリストを構成できます。
Decompounder [READ MORE]
`decompounder`フィルターは、指定された辞書に基づいて複合語を個々の要素に分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語のように複合語を頻繁に使用する言語に特に有用です。
Stemmer [READ MORE]
`stemmer`フィルターは、語を基本形または語根に縮小(語幹抽出)し、異なる語形変化を持つ同様な意味の語をより簡単に一致させます。`stemmer`フィルターは複数言語をサポートし、さまざまな言語的コンテキストで効果的な検索とインデックス作成を可能にします。
Remove Punct [READ MORE]
`removepunct`フィルターは、トークンストリームから独立した句読点トークンを削除します。句読点マークではなく意味のある内容語に焦点を当てた、よりクリーンなテキスト処理をしたい場合に使用します。
Regex [READ MORE]
`regex`フィルターは正規表現フィルターです。トークナイザーによって生成されたトークンのうち、指定した式に一致するものだけが保持され、それ以外はすべて破棄されます。