メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Standard Analyzer

standard アナライザーは Zilliz Cloud のデフォルトアナライザーであり、特定のアナライザーが指定されていない場合にテキストフィールドに自動的に適用されます。文法ベースのトークン化を使用しており、ほとんどの言語に効果的です。

📘Notes

standard アナライザーは、単語境界に区切り文字(スペース、句読点など)を使用する言語に適しています。ただし、中国語、日本語、韓国語などの言語は辞書ベースのトークン化が必要です。このような場合、chinese などの言語固有のアナライザーや、linderaicu などの専用トークナイザーを使用したカスタムアナライザーを使用することを強く推奨します。これにより、正確なトークン化とより良い検索結果を確保できます。

Definition

standard アナライザーは以下で構成されています:

  • トークナイザー: standard トークナイザーを使用して、文法ルールに基づいてテキストを個別の単語単位に分割します。詳細については、Standard トークナイザー を参照してください。

  • フィルター: lowercase フィルターを使用して、すべてのトークンを小文字に変換し、大文字小文字を区別しない検索を可能にします。詳細については、Lowercase を参照してください。

standard アナライザーの機能は、以下のカスタムアナライザー設定と同等です:

analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}

設定

フィールドに standard アナライザーを適用するには、analyzer_params 内で typestandard に設定し、必要に応じてオプションのパラメータを含めてください。

analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
}

standard アナライザーは、以下のオプションパラメータを受け付けます:

パラメータ

説明

stop_words

トークン化から除外されるストップワードのリストを含む配列。

カスタムストップワードの設定例:

analyzer_params = {
"type": "standard", # Specifies the standard analyzer type
"stop_words", ["of"] # Optional: List of words to exclude from tokenization
}

analyzer_params を定義した後、コレクションスキーマを定義する際に VARCHAR フィールドに適用できます。これにより、Zilliz Cloud は指定したアナライザーを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを実現します。詳細については、使用例 を参照してください。

Examples

アナライザー設定をコレクションスキーマに適用する前に、run_analyzer メソッドを使用してその動作を確認してください。

Analyzer configuration

analyzer_params = {
"type": "standard", # Standard analyzer configuration
"stop_words": ["for"] # Optional: Custom stop words parameter
}

run_analyzer を使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Sample text to analyze
sample_text = "The Milvus vector database is built for scale!"

# Run the standard analyzer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

期待される出力

Standard analyzer output: ['the', 'milvus', 'vector', 'database', 'is', 'built', 'scale']