フィルタリファレンスPublic Preview
このセクションでは、アナライザのフィルタの詳細なリファレンスを提供します。
Lowercase [READ MORE]
The `lowercase` filter converts terms generated by a tokenizer to lowercase, making searches case-insensitive. For example, it can convert `["High", "Performance", "Vector", "Database"]` to `["high", "performance", "vector", "database"]`.
ASCII folding [READ MORE]
The `asciifolding` filter converts characters outside the Basic Latin Unicode block into their ASCII equivalents. For instance, it transforms characters like `í` to `i`, making text processing simpler and more consistent, especially for multilingual content.
Alphanumonlyフィルター [READ MORE]
アルファヌモンリーフィルター(Alphanumonly)は、非ASCII文字を含むトークンを削除し、英数字の用語のみを保持します。このフィルターは、特殊文字や記号を除いて、基本的な文字と数字のみが関連するテキストを処理するのに役立ちます。
Cnalphanumonlyフィルター [READ MORE]
`cnalphanumonly`フィルターは、漢字、英字、数字以外の文字を含むトークンを削除します。
Cncharonlyフィルター [READ MORE]
`cncharonly`フィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、他の文字、数字、または記号を含むトークンを除外して、中国語のテキストだけに焦点を当てたい場合に便利です。
長さフィルター [READ MORE]
長さフィルター(length)は、指定された`長さ` の要件を満たさないトークンを削除するため、テキスト処理中に保持されるトークンの長さを制御できます。
ストップフィルター [READ MORE]
ストップフィルター(stop)は、トークン化されたテキストから指定された`ストップ`ワードを削除し、一般的で意味のない単語を取り除くのに役立ちます。ストップワードのリストは、`stopwords`パラメータを使用して設定できます。
デコンパウンダー [READ MORE]
デコンパウンダーフィルター(decompounder)は、指定された辞書に基づいて複合語を個々のコンポーネントに分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語など、複合語を頻繁に使用する言語に特に役立ちます。
ステマー [READ MORE]
ステマーフィルター(`stemmer`)は、単語を基本形またはルート形に縮小します(ステミングとして知られています)。これにより、異なるイントネーション間で類似した意味を持つ単語をより簡単に一致させることができます。ステマーフィルターは複数の言語をサポートしており、さまざまな言語的文脈で効果的な検索と索引付けが可能です。