Filter Reference
このセクションでは、アナライザーのフィルターの詳細リファレンスを提供します。
Lowercase [READ MORE]
`lowercase` フィルターは、トークナイザーによって生成された語句を小文字に変換し、検索を大文字小文字を区別しないようにします。たとえば、`["High", "Performance", "Vector", "Database"]` を `["high", "performance", "vector", "database"]` に変換できます。
ASCII folding [READ MORE]
`asciifolding` フィルターは、Basic Latin Unicode ブロック外の文字を ASCII に相当する文字に変換します。たとえば、`í` のような文字を `i` に変換し、特に多言語コンテンツにおいてテキスト処理をよりシンプルかつ一貫性のあるものにします。
Alphanumonly [READ MORE]
`alphanumonly` フィルターは、非ASCII文字を含むトークンを削除し、英数字のみの語句を保持します。このフィルターは、特殊文字や記号を除外し、基本的な文字と数字のみが関連するテキストを処理する場合に便利です。
Cnalphanumonly [READ MORE]
`cnalphanumonly` フィルターは、中国語文字、英文字、または数字以外の文字を含むトークンを削除します。
Cncharonly [READ MORE]
`cncharonly` フィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、他のスクリプト、数字、記号を含むトークンをフィルタリングして、中国語のテキストにのみ焦点を当てたい場合に便利です。
Length [READ MORE]
`length` フィルターは、指定された長さ要件を満たさないトークンを削除し、テキスト処理中に保持するトークンの長さを制御できるようにします。
Stop [READ MORE]
`stop` フィルターは、トークン化されたテキストから指定されたストップワードを削除し、一般的で意味の薄い単語を排除するのに役立ちます。`stop_words` パラメータを使用してストップワードのリストを設定できます。
Decompounder [READ MORE]
`decompounder` フィルターは、指定された辞書に基づいて複合語を個別成分に分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語のような複合語を頻繁に使用する言語に特に有効です。
Stemmer [READ MORE]
`stemmer` フィルターは、語を基本形または語幹(ステミング)に変換し、異なる語形変化を持つ同様の意味の語を一致させやすくします。`stemmer` フィルターは複数の言語をサポートし、さまざまな言語的コンテキストでの効果的な検索とインデックス作成を可能にします。
Remove Punct [READ MORE]
`removepunct` フィルターは、トークンストリームから独立した句読点トークンを削除します。句読点マークではなく意味のある内容語に焦点を当てたクリーンなテキスト処理が必要な場合に使用してください。
Regex [READ MORE]
`regex` フィルターは正規表現フィルターです。トークナイザーによって生成されたトークンのうち、指定した式に一致するものだけが保持され、それ以外はすべて破棄されます。