ストップフィルター

ストップフィルター（stop）は、トークン化されたテキストから指定されたストップワードを削除し、一般的で意味のない単語を取り除くのに役立ちます。ストップワードのリストは、stop_wordsパラメータを使用して設定できます。

コンフィギュレーション

Zilliz Cloudのカスタムフィルターであるlengthフィルターを使用するには、フィルター設定で"type":"stop"を指定し、ストップワードのリストを提供するstop_wordsパラメーターを指定してください。

Python
Java

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stop", # Specifies the filter type as stop
        "stop_words": ["of", "to", "_english_"], # Defines custom stop words and includes the English stop word list
    }],
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
        Collections.singletonList(
                new HashMap<String, Object>() {{
                    put("type", "stop");
                    put("stop_words", Arrays.asList("of", "to", "_english_"));
                }}
        )
);

このストップフィルタは、以下の設定可能なパラメータを受け入れます。

パラメータ	説明する
`stop_words`	トークン化から削除する単語のリストです。デフォルトでは、一般的な英語のストップワードを含む定義済みの`english`リストが使用されます。_english_の詳細`は`こちらをご覧ください。

トークナイザーによって生成された用語に基づいてストップフィルターが動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。

検光子_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下は、ストップフィルターがテキストを処理する方法の例です。

オリジナルテキスト:

"The stop filter allows control over common stop words for text processing."

予想される出力（stop_words:["the","over","_english_"]）:

["The", "stop", "filter", "allows", "control", "common", "stop", "words", "text", "processing"]

コンフィギュレーション​

出力の例​

コンフィギュレーション

出力の例