メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

言語 Identifier

language_identifier は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するように設計された特殊なトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、さまざまな言語を処理するアプリケーションにとって特に価値があり、入力ごとに手動で言語を割り当てる必要がなくなります。

language_identifier は、テキストデータを適切な処理パイプラインにインテリジェントにルーティングすることで、多言語データ取り込みを効率化し、その後の検索および取得操作のための正確なトークン化を保証します。

言語検出ワークフロー

language_identifier は、テキスト文字列を処理するために一連のステップを実行します。このワークフローは、ユーザーが正しく設定する方法を理解するために不可欠です。

NZcFw5PuxhQcl1bUG60cS54QnMu

  1. 入力: ワークフローは、テキスト文字列を入力として開始します。

  2. 言語検出: この文字列はまず言語検出エンジンに渡され、言語の特定を試みます。Zilliz Cloud は、whatlanglingua の 2 つのエンジンをサポートしています。

  3. アナライザーの選択:

    • 成功: 言語が正常に検出された場合、システムは検出された言語名に対応するアナライザーが analyzers ディクショナリに設定されているかどうかを確認します。一致が見つかった場合、システムは指定されたアナライザーを入力テキストに適用します。たとえば、検出された「Mandarin」テキストは jieba トークナイザーにルーティングされます。

    • フォールバック: 検出に失敗した場合、または言語が正常に検出されたが、その言語に特定のアナライザーが提供されていない場合、システムは事前設定されたデフォルトアナライザーにデフォルト設定されます。これは重要な明確化のポイントです。default アナライザーは、検出の失敗と一致するアナライザーがない場合のフォールバックです。

適切なアナライザーが選択された後、テキストはトークン化されて処理され、ワークフローが完了します。

利用可能な言語検出エンジン

Zilliz Cloud は、2 つの言語検出エンジンから選択できます。

選択は、アプリケーションの特定のパフォーマンスと精度要件によって異なります。

エンジン

速度

精度

出力形式

最適な用途

whatlang

高速

ほとんどの言語に適しています

言語名 (例: "English", "Mandarin", "Japanese")

参照: サポートされている言語テーブルの言語列

速度が重要なリアルタイムアプリケーション

lingua

低速

特に短いテキストの場合、より高い精度

英語の言語名 (例: "English", "Chinese", "Japanese")

参照: サポートされている言語リスト

速度よりも精度が重要なアプリケーション

重要な考慮事項は、エンジンの命名規則です。両方のエンジンは英語で言語名を返しますが、一部の言語では異なる用語を使用します (例: whatlangMandarin を返し、linguaChinese を返します)。アナライザーのキーは、選択した検出エンジンによって返される名前に正確に一致する必要があります。

設定

language_identifier トークナイザーを正しく使用するには、その設定を定義して適用するために次の手順を実行する必要があります。

ステップ 1: 言語とアナライザーを選択する

language_identifier を設定する上で最も重要なのは、サポートする予定の特定の言語に合わせてアナライザーを調整することです。システムは、検出された言語を正しいアナライザーと照合することで機能するため、このステップは正確なテキスト処理にとって非常に重要です。

以下は、言語と適切な Zilliz Cloud アナライザーの推奨マッピングです。この表は、言語検出エンジンの出力と、そのタスクに最適なツールの間の橋渡しとして機能します。

言語 (検出器の出力)

推奨アナライザー

説明

English

type: english

ステミングとストップワードフィルタリングを備えた標準的な英語のトークン化。

Mandarin (whatlang 経由) または Chinese (lingua 経由)

tokenizer: jieba

スペースで区切られていないテキストの中国語単語分割。

Japanese

tokenizer: icu

日本語を含む複雑なスクリプト用の堅牢なトークナイザー。

French

type: standard, filter: ["lowercase", "asciifolding"]

フランス語のアクセントと文字を処理するカスタム設定。

📘Notes
  • 一致が重要: アナライザーの名前は、検出エンジンの言語出力と正確に一致する必要があります。たとえば、whatlang を使用している場合、中国語テキストのキーは Mandarin である必要があります。

  • ベストプラクティス: 上記の表は、いくつかの一般的な言語の推奨設定を提供していますが、網羅的なリストではありません。アナライザーの選択に関するより包括的なガイドについては、ユースケースに適したアナライザーを選択するを参照してください。

  • 検出器の出力: 検出エンジンによって返される言語名の完全なリストについては、Whatlang のサポートされている言語テーブルLingua のサポートされている言語リストを参照してください。

ステップ 2: analyzer_params を定義する

Zilliz Cloud で language_identifier トークナイザーを使用するには、次の主要コンポーネントを含むディクショナリを作成します。

必須コンポーネント:

  • analyzers 設定セット – すべてのアナライザー設定を含むディクショナリ。これには以下を含める必要があります。

    • default – 言語検出が失敗した場合、または一致するアナライザーが見つからない場合に使用されるフォールバックアナライザー

    • 言語固有のアナライザー – それぞれ <analyzer_name>: <analyzer_config> として定義されます。ここで、

      • analyzer_name は、選択した検出エンジンの出力と一致します (例: "English", "Japanese")

      • analyzer_config は、標準のアナライザーパラメータ形式に従います (アナライザーの概要を参照)

オプションコンポーネント:

  • identifier – 使用する言語検出エンジン (whatlang または lingua) を指定します。指定しない場合、デフォルトは whatlang です。

  • mapping – アナライザーのカスタムエイリアスを作成し、検出エンジンの正確な出力形式ではなく、記述的な名前を使用できるようにします。

トークナイザーは、まず入力テキストの言語を検出し、次に設定から適切なアナライザーを選択することで機能します。検出に失敗した場合、または一致するアナライザーが存在しない場合、自動的に default アナライザーにフォールバックします。

アナライザー名は、選択した言語検出エンジンの出力と正確に一致する必要があります。このアプローチはよりシンプルで、潜在的な混乱を避けることができます。

whatlanglingua の両方で、それぞれのドキュメントに示されている言語名を使用してください。

analyzer_params = {
"tokenizer": {
"type": "language_identifier", # Must be `language_identifier`
"identifier": "whatlang", # or `lingua`
"analyzers": { # A set of analyzer configs
"default": {
"tokenizer": "standard" # fallback if language detection fails
},
"English": { # Analyzer name that matches whatlang output
"type": "english"
},
"Mandarin": { # Analyzer name that matches whatlang output
"tokenizer": "jieba"
}
}
}
}

代替アプローチ:マッピングによるカスタム名

カスタムアナライザー名を使用したい場合や、既存の設定との互換性を維持する必要がある場合は、mapping パラメータを使用できます。これにより、アナライザーのエイリアスが作成され、元の検出エンジン名とカスタム名の両方が機能します。

analyzer_params = {
"tokenizer": {
"type": "language_identifier",
"identifier": "lingua",
"analyzers": {
"default": {
"tokenizer": "standard"
},
"english_analyzer": { # Custom analyzer name
"type": "english"
},
"chinese_analyzer": { # Custom analyzer name
"tokenizer": "jieba"
}
},
"mapping": {
"English": "english_analyzer", # Maps detection output to custom name
"Chinese": "chinese_analyzer"
}
}
}

analyzer_params を定義した後、コレクションスキーマを定義する際に VARCHAR フィールドに適用できます。これにより、Zilliz Cloud は指定されたアナライザーを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細については、使用例 を参照してください。

一般的なシナリオに対応する、すぐに使える設定をいくつか紹介します。各例には、設定と検証コードの両方が含まれているため、すぐにセットアップをテストできます。

英語と中国語の検出

from pymilvus import MilvusClient

# Configuration
analyzer_params = {
"tokenizer": {
"type": "language_identifier",
"identifier": "whatlang",
"analyzers": {
"default": {"tokenizer": "standard"},
"English": {"type": "english"},
"Mandarin": {"tokenizer": "jieba"}
}
}
}

# Test the configuration
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# English text
result_en = client.run_analyzer("The Milvus vector database is built for scale!", analyzer_params)
print("English:", result_en)
# Output:
# English: ['The', 'Milvus', 'vector', 'database', 'is', 'built', 'for', 'scale']

# Chinese text
result_cn = client.run_analyzer("Milvus向量数据库专为大规模应用而设计", analyzer_params)
print("Chinese:", result_cn)
# Output:
# Chinese: ['Milvus', '向量', '数据', '据库', '数据库', '专', '为', '大规', '规模', '大规模', '应用', '而', '设计']

アクセント正規化を伴うヨーロッパ言語

# Configuration for French, German, Spanish, etc.
analyzer_params = {
"tokenizer": {
"type": "language_identifier",
"identifier": "lingua",
"analyzers": {
"default": {"tokenizer": "standard"},
"English": {"type": "english"},
"French": {
"tokenizer": "standard",
"filter": ["lowercase", "asciifolding"]
}
}
}
}

# Test with accented text
result_fr = client.run_analyzer("Café français très délicieux", analyzer_params)
print("French:", result_fr)
# Output:
# French: ['cafe', 'francais', 'tres', 'delicieux']

使用上の注意点

  • フィールドごとに単一言語: フィールドを単一の均質なテキスト単位として扱います。あるレコードには英語の文が含まれ、次のレコードにはフランス語の文が含まれるなど、異なるデータレコード間で異なる言語を処理するように設計されています。

  • 混合言語文字列は不可: 複数の言語のテキストを含む単一の文字列を処理するようには設計されていません。たとえば、英語の文と引用された日本語のフレーズの両方を含む単一のVARCHARフィールドは、単一言語として処理されます。

  • 優勢言語処理: 混合言語のシナリオでは、検出エンジンが優勢な言語を特定し、対応するアナライザーがテキスト全体に適用される可能性が高いです。これにより、埋め込まれた外国語テキストのトークン化が不十分になるか、まったく行われないことになります。