フィルター リファレンス
このセクションでは、アナライザーにおけるフィルターについて詳しく説明します。
小文字化 [READ MORE]
`lowercase` フィルターは、トークナイザーによって生成された用語を小文字に変換し、大文字・小文字を区別しない検索を可能にします。例えば、`["High", "Performance", "Vector", "Database"]` を `["high", "performance", "vector", "database"]` に変換できます。
ASCII フォールディング [READ MORE]
`asciifolding` フィルターは、基本ラテン Unicode ブロック外の文字を ASCII の等価文字に変換します。たとえば、`í` を `i` に変換することで、特に多言語コンテンツにおいてテキスト処理をよりシンプルかつ一貫性のあるものにします。
Alphanumonly [READ MORE]
`alphanumonly` フィルターは、非 ASCII 文字を含むトークンを削除し、英数字の項のみを保持します。このフィルターは、特殊文字や記号を除外して基本的な文字と数字のみが関連するテキストの処理に役立ちます。
Cnalphanumonly [READ MORE]
`cnalphanumonly` フィルターは、漢字、英字、数字以外の文字を含むトークンを削除します。
Cncharonly [READ MORE]
`cncharonly` フィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、中国語テキストのみに焦点を当て、他のスクリプト、数字、記号を含むトークンを除外したい場合に役立ちます。
長さ [READ MORE]
`length` フィルターは、指定された長さの要件を満たさないトークンを削除し、テキスト処理中に保持されるトークンの長さを制御できます。
Stop [READ MORE]
`stop` フィルターは、トークン化されたテキストから指定されたストップワードを削除し、一般的で意味の薄い単語を取り除くのに役立ちます。`stopwords` パラメーターを使用してストップワードのリストを設定できます。
Decompounder [READ MORE]
`decompounder` フィルターは、指定された辞書に基づいて複合語を個々の構成要素に分割し、複合語の一部を検索しやすくします。このフィルターは、ドイツ語のように複合語を頻繁に使用する言語で特に役立ちます。
ステマー [READ MORE]
`stemmer` フィルターは、単語を基本形または語根(ステミングと呼ばれます)に還元し、異なる活用形を持つ類似の意味の単語をマッチングしやすくします。`stemmer` フィルターは複数の言語をサポートしており、さまざまな言語環境で効果的な検索とインデックス作成を可能にします。
句読点の削除 [READ MORE]
`removepunct` フィルターは、トークンストリームから独立した句読点トークンを削除します。句読点記号ではなく意味のある内容語に焦点を当てた、よりクリーンなテキスト処理が必要な場合に使用します。
正規表現 [READ MORE]
`regex` フィルターは正規表現フィルターであり、トークナイザーによって生成されたトークンのうち、指定した式に一致するもののみが保持され、それ以外は破棄されます。