メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

多言語アナライザー

Zilliz Cloudがテキスト分析を実行する場合、通常、コレクション内のテキストフィールド全体に単一のアナライザーを適用します。このアナライザーが英語に最適化されている場合、中国語、スペイン語、フランス語などの他の言語に必要なトークン化とステミングのルールが大きく異なるため、苦戦し、結果としてリコール率が低下します。例えば、スペイン語の「teléfono」(「電話」の意)を検索すると、英語に特化したアナライザーはつまずきます。アクセントを落とし、スペイン語に特化したステミングを適用しないため、関連する結果が見落とされる可能性があります。

多言語アナライザーは、単一のコレクション内のテキストフィールドに複数のアナライザーを設定できるようにすることで、この問題を解決します。これにより、多言語ドキュメントをテキストフィールドに保存でき、Zilliz Cloudは各ドキュメントの適切な言語ルールに従ってテキストを分析します。

制限事項

  • この機能は、BM25ベースのテキスト検索と疎ベクトルでのみ機能します。詳細については、全文検索を参照してください。

  • 単一のコレクション内の各ドキュメントは、その言語識別子フィールド値によって決定される1つのアナライザーのみを使用できます。

  • パフォーマンスは、アナライザーの複雑さとテキストデータのサイズによって異なる場合があります。

概要

次の図は、Zilliz Cloudで多言語アナライザーを設定および使用するワークフローを示しています。

ZDYIwC1HwhTrdlbfOgNcOZ4OnWg

  1. 多言語アナライザーの設定:

    • <analyzer_name>: <analyzer_config>の形式を使用して、複数の言語固有のアナライザーを設定します。ここで、各analyzer_configは、アナライザーの概要で説明されている標準のanalyzer_params設定に従います。

    • 各ドキュメントのアナライザー選択を決定する特別な識別子フィールドを定義します。

    • 不明な言語を処理するためのdefaultアナライザーを設定します。

  2. コレクションの作成:

    • 必須フィールドを含むスキーマを定義します。

      • primary_key: 一意のドキュメント識別子。

      • text_field: 元のテキストコンテンツを保存します。

      • identifier_field: 各ドキュメントに使用するアナライザーを示します。

      • vector_field: BM25関数によって生成される疎ベクトルを保存します。

    • BM25関数とインデックス作成パラメーターを設定します。

  3. 言語識別子を含むデータの挿入:

    • さまざまな言語のテキストを含むドキュメントを追加します。各ドキュメントには、使用するアナライザーを指定する識別子値が含まれます。

    • Zilliz Cloudは、識別子フィールドに基づいて適切なアナライザーを選択し、不明な識別子を持つドキュメントはdefaultアナライザーを使用します。

  4. 言語固有のアナライザーによる検索:

    • アナライザー名を指定してクエリテキストを提供すると、Zilliz Cloudは指定されたアナライザーを使用してクエリを処理します。

    • トークン化は言語固有のルールに従って行われ、検索は類似性に基づいて言語に適した結果を返します。

ステップ1: multi_analyzer_paramsの設定

multi_analyzer_paramsは、Zilliz Cloudが各エンティティに適切なアナライザーを選択する方法を決定する単一のJSONオブジェクトです。

multi_analyzer_params = {
# Define language-specific analyzers
# Each analyzer follows this format: <analyzer_name>: <analyzer_params>
"analyzers": {
"english": {"type": "english"}, # English-optimized analyzer
"chinese": {"type": "chinese"}, # Chinese-optimized analyzer
"default": {"tokenizer": "icu"} # Required fallback analyzer
},
"by_field": "language", # Field determining analyzer selection
"alias": {
"cn": "chinese", # Use "cn" as shorthand for Chinese
"en": "english" # Use "en" as shorthand for English
}
}

パラメータ

必須?

説明

ルール

analyzers

はい

Zilliz Cloudがテキストを処理するために使用できる、言語固有のアナライザーをすべてリストします。

analyzers内の各アナライザーは、<analyzer_name>: <analyzer_params>の形式に従います。

  • 標準のanalyzer_params構文で各アナライザーを定義します(アナライザーの概要を参照)。

  • キーがdefaultのエントリを追加します。by_fieldに格納されている値が他のアナライザー名と一致しない場合、Zilliz Cloudはこのアナライザーにフォールバックします。

by_field

はい

各ドキュメントの言語(つまり、アナライザー名)を格納するフィールドの名前で、Zilliz Cloudが適用すべき言語を示します。

  • コレクションで定義されたVARCHARフィールドである必要があります。

  • 各行の値は、analyzersにリストされているアナライザー名(またはエイリアス)のいずれかと正確に一致する必要があります。

  • 行の値が欠落しているか見つからない場合、Zilliz Cloudは自動的にdefaultアナライザーを適用します。

alias

いいえ

アナライザーのショートカットまたは代替名を作成し、コードでの参照を容易にします。各アナライザーは1つ以上のエイリアスを持つことができます。

各エイリアスは既存のアナライザーキーにマッピングされている必要があります。

ステップ2: コレクションを作成する

多言語サポート付きのコレクションを作成するには、特定のフィールドとインデックスを設定する必要があります。

ステップ1: フィールドを追加する

このステップでは、4つの必須フィールドを持つコレクションスキーマを定義します。

  • 主キーフィールド (id): コレクション内の各エンティティの一意の識別子です。auto_id=Trueを設定すると、Zilliz CloudがこれらのIDを自動的に生成します。

  • 言語インジケーターフィールド (language): このVARCHARフィールドは、multi_analyzer_paramsで指定されたby_fieldに対応します。各エンティティの言語識別子を格納し、Zilliz Cloudにどのアナライザーを使用すべきかを伝えます。

  • テキストコンテンツフィールド (text): このVARCHARフィールドは、分析および検索したい実際のテキストデータを格納します。enable_analyzer=Trueを設定することは、このフィールドのテキスト分析機能を有効にするために重要です。multi_analyzer_params設定は、このフィールドに直接アタッチされ、テキストデータと言語固有のアナライザー間の接続を確立します。

  • ベクトルフィールド (sparse): このフィールドには、BM25関数によって生成された疎ベクトルが格納されます。これらのベクトルは、テキストデータの分析可能な形式を表し、Zilliz Cloudが実際に検索するものです。

# Import required modules
from pymilvus import MilvusClient, DataType, Function, FunctionType

# Initialize client
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
)

# Initialize a new schema
schema = client.create_schema()

# Step 2.1: Add a primary key field for unique document identification
schema.add_field(
field_name="id", # Field name
datatype=DataType.INT64, # Integer data type
is_primary=True, # Designate as primary key
auto_id=True # Auto-generate IDs (recommended)
)

# Step 2.2: Add language identifier field
# This MUST match the "by_field" value in language_analyzer_config
schema.add_field(
field_name="language", # Field name
datatype=DataType.VARCHAR, # String data type
max_length=255 # Maximum length (adjust as needed)
)

# Step 2.3: Add text content field with multi-language analysis capability
schema.add_field(
field_name="text", # Field name
datatype=DataType.VARCHAR, # String data type
max_length=8192, # Maximum length (adjust based on expected text size)
enable_analyzer=True, # Enable text analysis
multi_analyzer_params=multi_analyzer_params # Connect with our language analyzers
)

# Step 2.4: Add sparse vector field to store the BM25 output
schema.add_field(
field_name="sparse", # Field name
datatype=DataType.SPARSE_FLOAT_VECTOR # Sparse vector data type
)

ステップ2:BM25関数の定義

生のテキストデータから疎なベクトル表現を生成するBM25関数を定義します。

# Create the BM25 function
bm25_function = Function(
name="text_to_vector", # Descriptive function name
function_type=FunctionType.BM25, # Use BM25 algorithm
input_field_names=["text"], # Process text from this field
output_field_names=["sparse"] # Store vectors in this field
)

# Add the function to our schema
schema.add_function(bm25_function)

この関数は、言語識別子に基づいて、各テキストエントリに適切なアナライザーを自動的に適用します。BM25ベースのテキスト検索の詳細については、全文検索を参照してください。

ステップ3:インデックスパラメータの設定

効率的な検索を可能にするために、疎ベクトルフィールドにインデックスを作成します。

# Configure index parameters
index_params = client.prepare_index_params()

# Add index for sparse vector field
index_params.add_index(
field_name="sparse", # Field to index (our vector field)
index_type="AUTOINDEX", # Let Milvus choose optimal index type
metric_type="BM25" # Must be BM25 for this feature
)

このインデックスは、効率的なBM25類似度計算のために疎ベクトルを整理することで、検索パフォーマンスを向上させます。

ステップ4: コレクションを作成する

この最終作成ステップでは、以前の設定をすべてまとめます。

  • collection_name="multilang_demo" は、将来の参照のためにコレクションに名前を付けます。

  • schema=schema は、定義したフィールド構造と関数を適用します。

  • index_params=index_params は、効率的な検索のためのインデックス戦略を実装します。

# Create collection
COLLECTION_NAME = "multilingual_documents"

# Check if collection already exists
if client.has_collection(COLLECTION_NAME):
client.drop_collection(COLLECTION_NAME) # Remove it for this example
print(f"Dropped existing collection: {COLLECTION_NAME}")

# Create the collection
client.create_collection(
collection_name=COLLECTION_NAME, # Collection name
schema=schema, # Our multilingual schema
index_params=index_params # Our search index configuration
)

この時点で、Zilliz Cloud は多言語アナライザーをサポートする空のコレクションを作成し、データを受信する準備が整います。

ステップ 3: サンプルデータを挿入する

多言語コレクションにドキュメントを追加する場合、各ドキュメントにはテキストコンテンツと言語識別子の両方が含まれている必要があります。

# Prepare multilingual documents
documents = [
# English documents
{
"text": "Artificial intelligence is transforming technology",
"language": "english", # Using full language name
},
{
"text": "Machine learning models require large datasets",
"language": "en", # Using our defined alias
},
# Chinese documents
{
"text": "人工智能正在改变技术领域",
"language": "chinese", # Using full language name
},
{
"text": "机器学习模型需要大型数据集",
"language": "cn", # Using our defined alias
},
]

# Insert the documents
result = client.insert(COLLECTION_NAME, documents)

# Print results
inserted = result["insert_count"]
print(f"Successfully inserted {inserted} documents")
print("Documents by language: 2 English, 2 Chinese")

# Expected output:
# Successfully inserted 4 documents
# Documents by language: 2 English, 2 Chinese

挿入中、Zilliz Cloud は以下を実行します。

  1. 各ドキュメントの language フィールドを読み取ります。

  2. 対応するアナライザーを text フィールドに適用します。

  3. BM25関数を介して疎ベクトル表現を生成します。

  4. 元のテキストと生成された疎ベクトルの両方を保存します。

📘Notes

疎ベクトルを直接提供する必要はありません。BM25関数は、テキストと指定されたアナライザーに基づいて自動的に生成します。

ステップ4:検索操作を実行する

英語アナライザーを使用する

多言語アナライザーで検索する場合、search_params には重要な設定が含まれます。

  • metric_type="BM25" はインデックス設定と一致する必要があります。

  • analyzer_name="english" は、クエリテキストに適用するアナライザーを指定します。これは、保存されたドキュメントに使用されるアナライザーとは独立しています。

  • params={"drop_ratio_search": "0"} は BM25 固有の動作を制御します。ここでは、検索内のすべての用語を保持します。詳細については、疎ベクトルを参照してください。

search_params = {
"metric_type": "BM25", # Must match index configuration
"analyzer_name": "english", # Analyzer that matches the query language
"drop_ratio_search": "0", # Keep all terms in search (tweak as needed)
}

# Execute the search
english_results = client.search(
collection_name=COLLECTION_NAME, # Collection to search
data=["artificial intelligence"], # Query text
anns_field="sparse", # Field to search against
search_params=search_params, # Search configuration
limit=3, # Max results to return
output_fields=["text", "language"], # Fields to include in the output
consistency_level="Bounded", # Data‑consistency guarantee
)

# Display English search results
print("\n=== English Search Results ===")
for i, hit in enumerate(english_results[0]):
print(f"{i+1}. [{hit.score:.4f}] {hit.entity.get('text')} "
f"(Language: {hit.entity.get('language')})")

# Expected output (English Search Results):
# 1. [2.7881] Artificial intelligence is transforming technology (Language: english)

中国語アナライザーを使用する

この例では、異なるクエリテキストに対して中国語アナライザー(エイリアス"cn"を使用)に切り替える方法を示します。他のすべてのパラメーターは同じままですが、クエリテキストは中国語固有のトークン化ルールを使用して処理されます。

search_params["analyzer_name"] = "cn"

chinese_results = client.search(
collection_name=COLLECTION_NAME, # Collection to search
data=["人工智能"], # Query text
anns_field="sparse", # Field to search against
search_params=search_params, # Search configuration
limit=3, # Max results to return
output_fields=["text", "language"], # Fields to include in the output
consistency_level="Bounded", # Data‑consistency guarantee
)

# Display Chinese search results
print("\n=== Chinese Search Results ===")
for i, hit in enumerate(chinese_results[0]):
print(f"{i+1}. [{hit.score:.4f}] {hit.entity.get('text')} "
f"(Language: {hit.entity.get('language')})")

# Expected output (Chinese Search Results):
# 1. [3.3814] 人工智能正在改变技术领域 (Language: chinese)