メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

多言語アナライザー

Zilliz Cloudがテキスト分析を実行する際、通常は1つのアナライザーをコレクション内のテキストフィールド全体に適用します。そのアナライザーが英語に最適化されている場合、中国語、スペイン語、フランス語などの他の言語に必要な非常に異なるトークナイズおよびステミングの規則に対応できず、リコール率が低下します。たとえば、スペイン語の単語 "teléfono" ("phone"の意味)の検索は英語中心のアナライザーでは失敗します: アクセントを削除し、スペイン語固有のステミングを適用しないため、関連する結果が見過ごされます。

多言語アナライザーは、1つのコレクション内のテキストフィールドに対して複数のアナライザーを構成できるようにすることで、この問題を解決します。これにより、テキストフィールドに多言語ドキュメントを保存し、Zilliz Cloudが各ドキュメントの適切な言語ルールに従ってテキストを分析できます。

制限事項

  • この機能はBM25ベースのテキスト検索およびスパースベクトルでのみ動作します。詳細については、全文検索を参照してください。

  • 1つのコレクション内の各ドキュメントは、言語識別子フィールド値によって決定される1つのアナライザーのみを使用できます。

  • パフォーマンスはアナライザーの複雑さとテキストデータのサイズによって異なる場合があります。

概要

以下の図は、Zilliz Cloudでの多言語アナライザーの構成と使用のワークフローを示しています:

ZDYIwC1HwhTrdlbfOgNcOZ4OnWg

  1. 多言語アナライザーの構成:

    • 形式で複数の言語固有のアナライザーを設定: <analyzer_name>: <analyzer_config>、各analyzer_configアナライザー概要で説明されている標準のanalyzer_params構成に従います。

    • 各ドキュメントのアナライザー選択を決定する特別な識別子フィールドを定義。

    • 未知の言語を処理するためのdefaultアナライザーを構成。

  2. コレクションの作成:

    • 主要なフィールドを持つスキーマを定義:

      • primary_key: 各ドキュメントの一意識別子。

      • text_field: 元のテキストコンテンツを保存。

      • identifier_field: 各ドキュメントに使用するアナライザーを示す。

      • vector_field: BM25関数によって生成されるスパース埋め込みを保存。

    • BM25関数とインデックスパラメーターを構成。

  3. 言語識別子付きデータの挿入:

    • 各種の言語のテキストを含むドキュメントを追加し、各ドキュメントには使用するアナライザーを指定する識別子値を含めます。

    • Zilliz Cloudは識別子フィールドに基づいて適切なアナライザーを選択し、未知の識別子を持つドキュメントはdefaultアナライザーを使用します。

  4. 言語固有のアナライザーで検索:

    • 指定されたアナライザ名でクエリテキストを提供し、Zilliz Cloudは指定されたアナライザーを使用してクエリを処理します。

    • 言語固有の規則に従ってトークナイズが行われ、検索は類似性に基づいて言語に適した結果を返します。

ステップ1: multi_analyzer_paramsの構成

multi_analyzer_paramsは、Zilliz Cloudが各エンティティに適切なアナライザーを選択する方法を決定する単一のJSONオブジェクトです:

multi_analyzer_params = {
# 言語固有のアナライザーを定義
# 各アナライザーはこの形式に従います: <analyzer_name>: <analyzer_params>
"analyzers": {
"english": {"type": "english"}, # 英語最適化アナライザー
"chinese": {"type": "chinese"}, # 中国語最適化アナライザー
"default": {"tokenizer": "icu"} # 必須のフォールバックアナライザー
},
"by_field": "language", # アナライザー選択を決定するフィールド
"alias": {
"cn": "chinese", # 中国語の短縮形として"cn"を使用
"en": "english" # 英語の短縮形として"en"を使用
}
}

パラメーター

必須?

説明

ルール

analyzers

はい

Zilliz Cloudがテキスト処理に使用できるすべての言語固有のアナライザーをリストします。

analyzers内の各アナライザーはこの形式に従います: <analyzer_name>: <analyzer_params>

  • 各アナライザーを標準のanalyzer_params構文で定義します(アナライザー概要を参照)。

  • キーがdefaultのエントリを追加します; Zilliz Cloudは、by_fieldに格納された値が他のアナライザー名と一致しない場合、このアナライザーにフォールバックします。

by_field

はい

各ドキュメントの言語(つまり、Zilliz Cloudが適用すべきアナライザー名)を格納するフィールド名。

  • コレクションで定義されたVARCHARフィールドでなければなりません。

  • 各行の値は、analyzersでリストされたアナライザー名(またはエイリアス)のいずれかに完全に一致しなければなりません。

  • 行の値が見つからない場合、Zilliz Cloudは自動的にdefaultアナライザーを適用します。

alias

いいえ

アナライザーのショートカットまたは代替名を作成し、コードで参照しやすくします。各アナライザーは1つ以上のエイリアスを持つことができます。

各エイリアスは既存のアナライザーのキーにマップする必要があります。

ステップ2: コレクションの作成

多言語対応のコレクションを作成するには、特定のフィールドとインデックスを構成する必要があります:

ステップ1: フィールドの追加

このステップでは、4つの主要なフィールドを持つコレクションスキーマを定義します:

  • 主キー フィールド (id): コレクション内の各エンティティの一意識別子。auto_id=Trueを設定すると、Zilliz Cloudが自動的にこれらのIDを生成できます。

  • 言語インジケーターフィールド (language): このVARCHARフィールドは、multi_analyzer_paramsで指定されたby_fieldに対応します。各エンティティの言語識別子を格納し、Zilliz Cloudに使用するアナライザーを伝えます。

  • テキストコンテンツフィールド (text): このVARCHARフィールドには、分析および検索したい実際のテキストデータを格納します。enable_analyzer=Trueを設定することが重要です。これにより、このフィールドのテキスト分析機能が有効になります。multi_analyzer_params構成は直接このフィールドに添付され、テキストデータと言語固有のアナライザー間の接続を確立します。

  • ベクトルフィールド (sparse): このフィールドには、BM25関数によって生成されるスパースベクトルを格納します。これらのベクトルはテキストデータの分析可能形式を表し、Zilliz Cloudが実際に検索するものです。

# 必要なモジュールをインポート
from pymilvus import MilvusClient, DataType, Function, FunctionType

# クライアントを初期化
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
)

# 新しいスキーマを初期化
schema = client.create_schema()

# ステップ2.1: ドキュメントの一意識別用の主キーを追加
schema.add_field(
field_name="id", # フィールド名
datatype=DataType.INT64, # 整数データ型
is_primary=True, # 主キーとして指定
auto_id=True # IDを自動生成(推奨)
)

# ステップ2.2: 言語識別子フィールドを追加
# これはlanguage_analyzer_configの"by_field"値と一致しなければなりません
schema.add_field(
field_name="language", # フィールド名
datatype=DataType.VARCHAR, # 文字列データ型
max_length=255 # 最大長(必要に応じて調整)
)

# ステップ2.3: 多言語分析機能付きテキストコンテンツフィールドを追加
schema.add_field(
field_name="text", # フィールド名
datatype=DataType.VARCHAR, # 文字列データ型
max_length=8192, # 最大長(予想されるテキストサイズに基づいて調整)
enable_analyzer=True, # テキスト分析を有効化
multi_analyzer_params=multi_analyzer_params # 言語アナライザーと接続
)

# ステップ2.4: BM25出力を保存するスパースベクトルフィールドを追加
schema.add_field(
field_name="sparse", # フィールド名
datatype=DataType.SPARSE_FLOAT_VECTOR # スパースベクトルデータ型
)

ステップ2: BM25関数の定義

BM25関数を定義して、生のテキストデータからスパースベクトル表現を生成します:

# BM25関数を作成
bm25_function = Function(
name="text_to_vector", # 説明的な関数名
function_type=FunctionType.BM25, # BM25アルゴリズムを使用
input_field_names=["text"], # このフィールドからのテキストを処理
output_field_names=["sparse"] # ベクトルをこのフィールドに保存
)

# スキーマに関数を追加
schema.add_function(bm25_function)

この関数は、言語識別子に基づいて各テキストエントリに適切なアナライザーを自動的に適用します。BM25ベースのテキスト検索の詳細については、全文検索を参照してください。

ステップ3: インデックスパラメーターの構成

効率的な検索を可能にするには、スパースベクトルフィールドにインデックスを作成します:

# インデックスパラメーターを構成
index_params = client.prepare_index_params()

# スパースベクトルフィールドのインデックスを追加
index_params.add_index(
field_name="sparse", # インデックス対象フィールド(ベクトルフィールド)
index_type="AUTOINDEX", # Milvusが最適なインデックスタイプを選択
metric_type="BM25" # この機能ではBM25でなければなりません
)

インデックスは、BM25類似度計算を効率的に行えるようにスパースベクトルを整理することで検索パフォーマンスを向上させます。

ステップ4: コレクションの作成

この最終作成ステップで、前に行ったすべての構成が統合されます:

  • collection_name="multilang_demo"は将来の参照用にコレクションに名前を付けます。

  • schema=schemaは定義したフィールド構造と関数を適用します。

  • index_params=index_paramsは効率的な検索のためのインデックス戦略を実装します。

# コレクションを作成
COLLECTION_NAME = "multilingual_documents"

# コレクションがすでに存在するか確認
if client.has_collection(COLLECTION_NAME):
client.drop_collection(COLLECTION_NAME) # この例のために削除
print(f"Dropped existing collection: {COLLECTION_NAME}")

# コレクションを作成
client.create_collection(
collection_name=COLLECTION_NAME, # コレクション名
schema=schema, # 多言語スキーマ
index_params=index_params # 検索インデックス構成
)

この時点で、Zilliz Cloudは多言語アナライザー対応を持つ空のコレクションを作成し、データ受信の準備が完了します。

ステップ3: 例データの挿入

多言語コレクションにドキュメントを追加する際、各ドキュメントにはテキストコンテンツと言語識別子の両方を含める必要があります:

# 多言語ドキュメントを準備
documents = [
# 英語ドキュメント
{
"text": "Artificial intelligence is transforming technology",
"language": "english", # 完全な言語名を使用
},
{
"text": "Machine learning models require large datasets",
"language": "en", # 定義したエイリアスを使用
},
# 中国語ドキュメント
{
"text": "人工智能正在改变技术领域",
"language": "chinese", # 完全な言語名を使用
},
{
"text": "机器学习模型需要大型数据集",
"language": "cn", # 定義したエイリアスを使用
},
]

# ドキュメントを挿入
result = client.insert(COLLECTION_NAME, documents)

# 結果を印刷
inserted = result["insert_count"]
print(f"Successfully inserted {inserted} documents")
print("Documents by language: 2 English, 2 Chinese")

# 期待される出力:
# Successfully inserted 4 documents
# Documents by language: 2 English, 2 Chinese

挿入中、Zilliz Cloudは:

  1. 各ドキュメントのlanguageフィールドを読み取ります

  2. textフィールドに該当するアナライザーを適用します

  3. BM25関数でスパースベクトル表現を生成します

  4. 元のテキストと生成されたスパースベクトルの両方を保存します

📘注釈

スパースベクトルを直接提供する必要はありません; BM25関数はテキストと指定されたアナライザーに基づいて自動的に生成します。

ステップ4: 検索操作の実行

英語アナライザーを使用

多言語アナライザーで検索する際、search_paramsには重要な構成が含まれます:

  • metric_type="BM25"はインデックス構成と一致しなければなりません。

  • analyzer_name="english"はクエリテキストに適用するアナライザーを指定します。これは保存されたドキュメントに使用されたアナライザーとは独立しています。

  • params={"drop_ratio_search": "0"}はBM25固有の動作を制御します; ここでは検索ですべての用語を保持します。詳細についてはスパースベクトルを参照してください。

search_params = {
"metric_type": "BM25", # インデックス構成と一致しなければなりません
"analyzer_name": "english", # クエリ言語に一致するアナライザー
"drop_ratio_search": "0", # 検索ですべての用語を保持(必要に応じて調整)
}

# 検索を実行
english_results = client.search(
collection_name=COLLECTION_NAME, # 検索対象のコレクション
data=["artificial intelligence"], # クエリテキスト
anns_field="sparse", # 検索対象フィールド
search_params=search_params, # 検索構成
limit=3, # 最大結果数
output_fields=["text", "language"], # 出力に含めるフィールド
consistency_level="Bounded", # データ一貫性保証
)

# 英語検索結果を表示
print("\n=== English Search Results ===")
for i, hit in enumerate(english_results[0]):
print(f"{i+1}. [{hit.score:.4f}] {hit.entity.get('text')} "
f"(Language: {hit.entity.get('language')})")

# 期待される出力 (英語検索結果):
# 1. [2.7881] Artificial intelligence is transforming technology (Language: english)

中国語アナライザーを使用

この例では、異なるクエリテキストのための中国語アナライザー(エイリアス"cn"使用)への切り替えを示します。他のパラメーターはすべて同じですが、今度はクエリテキストは中国語固有のトークナイズ規則を使用して処理されます。

search_params["analyzer_name"] = "cn"

chinese_results = client.search(
collection_name=COLLECTION_NAME, # 検索対象のコレクション
data=["人工智能"], # クエリテキスト
anns_field="sparse", # 検索対象フィールド
search_params=search_params, # 検索構成
limit=3, # 最大結果数
output_fields=["text", "language"], # 出力に含めるフィールド
consistency_level="Bounded", # データ一貫性保証
)

# 中国語検索結果を表示
print("\n=== Chinese Search Results ===")
for i, hit in enumerate(chinese_results[0]):
print(f"{i+1}. [{hit.score:.4f}] {hit.entity.get('text')} "
f"(Language: {hit.entity.get('language')})")

# 期待される出力 (中国語検索結果):
# 1. [3.3814] 人工智能正在改变技术领域 (Language: chinese)