メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Standard Analyzer

standard アナライザーは Zilliz Cloud のデフォルトアナライザーであり、アナライザーが指定されていないテキストフィールドに自動的に適用されます。文法に基づくトークン化(tokenization)を使用するため、ほとんどの言語で効果的です。

📘Notes

standard アナライザーは、単語の境界を区切るためのセパレーター(スペースや句読点など)に依存する言語に適しています。ただし、中国語、日本語、韓国語などの言語では辞書ベースのトークン化が必要です。このような場合、chinese のような言語固有のアナライザーや、専用のトークナイザー(linderaicu など)およびフィルターを組み込んだカスタムアナライザーの使用を強く推奨します。これにより、正確なトークン化とより良い検索結果が得られます。

Definition

standard アナライザーは以下の要素で構成されています:

  • トークナイザーstandard トークナイザーを使用して、文法規則に基づきテキストを個別の単語単位に分割します。詳細については、Standard トークナイザー を参照してください。

  • Filterlowercase フィルターを使用して、すべてのトークンを小文字に変換し、大文字・小文字を区別しない検索を可能にします。詳細については、Lowercase を参照してください。

standard アナライザーの機能は、以下のカスタムアナライザー設定と同等です:

analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}

設定

フィールドに standard アナライザーを適用するには、analyzer_params 内で typestandard に設定し、必要に応じてオプションのパラメータを含めてください。

analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}

standard アナライザーは、以下のオプションパラメータを受け付けます:

パラメータ

説明

stop_words

トークン化から除外されるストップワードのリストを含む配列。

カスタムストップワードの設定例:

analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

analyzer_params を定義した後、コレクションスキーマを定義する際に VARCHAR フィールドに適用できます。これにより、Zilliz Cloud は指定されたアナライザーを使用してそのフィールド内のテキストを処理し、効率的なトークン化とフィルタリングを実現します。詳細については、使用例 を参照してください。

コレクションスキーマにアナライザー設定を適用する前に、run_analyzer メソッドを使用してその動作を検証してください。

アナライザー設定

analyzer_params = {
"type": "standard", # Standard analyzer configuration
"stop_words": ["for"] # Optional: Custom stop words parameter
}

run_analyzer を使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Sample text to analyze
sample_text = "The Milvus vector database is built for scale!"

# Run the standard analyzer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

期待される出力

Standard analyzer output: ['the', 'milvus', 'vector', 'database', 'is', 'built', 'scale']