メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Stop

stop フィルターは、トークン化されたテキストから指定されたストップワードを削除し、一般的で意味の薄い単語を排除するのに役立ちます。stop_words パラメータを使用してストップワードのリストを設定できます。

設定

stop フィルターは Zilliz Cloud のカスタムフィルターです。使用するには、フィルター設定で "type": "stop" を指定し、ストップワードのリストを提供する stop_words パラメータを追加します。

analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # フィルターの種類を stop として指定します
"stop_words": ["of", "to", "_english_"], # カスタムストップワードを定義し、英語のストップワードリストを含めます
}],
}

stop フィルターは、以下の設定可能なパラメータを受け入れます。

パラメータ

説明

stop_words

トークン化から削除する単語のリストです。デフォルトでは、フィルターは組み込みの english 辞書を使用します。以下の3つの方法でオーバーライドまたは拡張できます:

  • 組み込み辞書 – 以下の言語エイリアスのいずれかを指定して、事前定義された辞書を使用します:

    "english", "danish", "dutch", "finnish", "french", "german", "hungarian", "italian", "norwegian", "portuguese", "russian", "spanish", "swedish"

  • カスタムリスト – 独自の語句の配列を指定します (例: ["foo", "bar", "baz"])。

  • 混合リスト – エイリアスとカスタム語句を組み合わせます (例: ["of", "to", "english"])。

    各事前定義辞書の正確な内容については、stop_words を参照してください。

stop フィルターは、トークナイザーによって生成された語句に対して操作を行うため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloud で利用可能なトークナイザーのリストについては、Tokenizer Reference を参照してください。

analyzer_params を定義した後、コレクションスキーマを定義する際に VARCHAR フィールドに適用できます。これにより、Zilliz Cloud は指定されたアナライザーを使用して、そのフィールド内のテキストを効率的にトークナイズおよびフィルタリングできます。詳細については、使用例を参照してください。

コレクションスキーマにアナライザー設定を適用する前に、run_analyzer メソッドを使用してその動作を検証してください。

アナライザー設定

analyzer_params = {
"tokenizer": "standard",
"filter":[{
"type": "stop", # フィルターの種類を stop として指定します
"stop_words": ["of", "to", "_english_"], # カスタムストップワードを定義し、英語のストップワードリストを含めます
}],
}

run_analyzer を使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

# アナライズするサンプルテキスト
sample_text = "The stop filter allows control over common stop words for text processing."

# 定義された設定で標準アナライザーを実行
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

期待される出力

['The', 'stop', 'filter', 'allows', 'control', 'over', 'common', 'stop', 'words', 'text', 'processing']