Language Identifier
language_identifier は、言語分析プロセスを自動化することで Zilliz Cloud のテキスト検索機能を強化するように設計された特殊なトークナイザーです。その主な機能は、テキストフィールドの言語を検出し、その言語に最も適した事前設定されたアナライザーを動的に適用することです。これは、さまざまな言語を処理するアプリケーションにとって特に価値があり、入力ごとに手動で言語を割り当てる必要性を排除します。
language_identifier は、適切な処理パイプラインにテキストデータを賢くルーティングすることで、多言語データの取り込みを合理化し、その後の検索および検索操作のための正確なトークナイズを保証します。
言語検出ワークフロー
language_identifier は、文字列を処理するために一連のステップを実行し、ユーザーがそれを正しく設定する方法を理解するために重要なワークフローです。

-
入力: ワークフローは、文字列を入力として開始されます。
-
言語検出: この文字列は最初に言語検出エンジンに渡され、言語を識別しようと試みます。Zilliz Cloud は 2 つのエンジンをサポートしています:whatlang と lingua。
-
アナライザー選択:
-
成功: 言語が正常に検出された場合、システムは検出された言語名に応じたアナライザーが
analyzers辞書内に構成されているかどうかを確認します。一致が見つかった場合、システムは指定されたアナライザーを入力テキストに適用します。たとえば、検出された "Mandarin" テキストはjiebaトークナイザーにルーティングされます。 -
フォールバック: 検出が失敗した場合、または言語が正常に検出されたが特定のアナライザーが提供されていない場合は、システムは事前設定された デフォルトアナライザー にデフォルトで戻ります。これは重要な明確化のポイントです。
defaultアナライザーは、検出失敗と一致するアナライザーが存在しない場合の両方のフォールバックです。
-
適切なアナライザーが選択された後、テキストはトークナイズされ処理され、ワークフローが完了します。
利用可能な言語検出エンジン
Zilliz Cloud は、2 つの言語検出エンジンから選択できます:
選択は、アプリケーションの特定のパフォーマンスおよび精度要件に依存します。
エンジン | 速度 | 精度 | 出力形式 | 最適な用途 |
|---|---|---|---|---|
| 高速 | ほとんどの言語に適しています | 言語名 (例: | 速度が重要なリアルタイムアプリケーション |
| 低速 | 特に短いテキストでより高い精度 | 英語の言語名 (例: 参考: サポートされている言語リスト | 速度よりも精度が重要なアプリケーション |
重要な考慮事項は、エンジンの命名規則です。両方のエンジンは英語の言語名を返しますが、一部の言語には異なる用語を使用します(例:whatlang は Mandarin を返し、lingua は Chinese を返します)。アナライザーのキーは、選択した検出エンジンが返す名前と完全に一致する必要があります。
設定
language_identifier トークナイザーを正しく使用するには、設定を定義および適用するために以下の手順を実施する必要があります。
ステップ 1: 言語とアナライザーを選択
language_identifier の設定の核となるのは、サポートする特定の言語に合わせてアナライザーを調整することです。システムは検出された言語と正しいアナライザーを一致させて動作するため、このステップは正確なテキスト処理にとって不可欠です。
以下は、言語から適切な Zilliz Cloud アナライザーへの推奨マッピングです。このテーブルは、言語検出エンジンの出力と適切なツールとの間の橋渡しをします。
言語(検出器の出力) | 推奨アナライザー | 説明 |
|---|---|---|
|
| ステミングとストップワードフィルタリングを含む標準的な英語トークナイズ。 |
|
| スペース区切りでないテキストの中国語単語セグメンテーション。 |
|
| 日本語を含む複雑なスクリプト用の堅牢なトークナイザー。 |
|
| フランス語のアクセントと文字を処理するカスタム設定。 |
一致が鍵: アナライザー名は完全に一致する必要があります検出エンジンの言語出力と。たとえば、
whatlangを使用している場合、中国語テキストのキーはMandarinでなければなりません。ベストプラクティス: 上記のテーブルはいくつかの一般的な言語の推奨設定を提供していますが、網羅的なリストではありません。アナライザー選択に関するより包括的なガイドについては、ユースケースに適したアナライザーの選択を参照してください。
検出器の出力: 検出エンジンが返す言語名の完全なリストについては、Whatlang サポートされている言語テーブルおよび Lingua サポートされている言語リストを参照してください。
ステップ 2: analyzer_params の定義
Zilliz Cloud で language_identifier トークナイザーを使用するには、これらの主要コンポーネントを含む辞書を作成します:
必須コンポーネント:
-
analyzers設定セット - 以下のすべてのアナライザー設定を含む辞書:-
default- 言語検出が失敗した場合または一致するアナライザーが見つからない場合に使用されるフォールバックアナライザー -
言語固有のアナライザー - 各アナライザーを
<analyzer_name>: <analyzer_config>として定義し、以下の通り:-
analyzer_nameは選択した検出エンジンの出力と一致(例:"English","Japanese") -
analyzer_configは標準のアナライザーのパラメータ形式に従う(参考:アナライザー概要)
-
-
オプションコンポーネント:
-
identifier- 使用する言語検出エンジンを指定(whatlangまたはlingua)。指定されていない場合はデフォルトでwhatlang -
mapping- アナライザーのカスタムエイリアスを作成し、検出エンジンの正確な出力形式の代わりに説明的な名前を使用できるようにする
トークナイザーは、最初に入力テキストの言語を検出し、次に設定から適切なアナライザーを選択することで動作します。検出が失敗した場合または一致するアナライザーが存在しない場合は、自動的に default アナライザーにフォールバックします。
推奨: 直接名前マッチング
アナライザー名は、選択した言語検出エンジンの出力と完全に一致する必要があります。このアプローチは単純で、潜在的な混乱を回避します。
whatlang と lingua の両方について、それぞれのドキュメンテーションに示されている言語名を使用してください:
-
whatlang サポートされている言語 (「言語」列を使用)
analyzer_params = {
"tokenizer": {
"type": "language_identifier", # `language_identifier` でなければならない
"identifier": "whatlang", # または `lingua`
"analyzers": { # アナライザー設定のセット
"default": {
"tokenizer": "standard" # 言語検出が失敗した場合のフォールバック
},
"English": { # whatlang の出力と一致するアナライザー名
"type": "english"
},
"Mandarin": { # whatlang の出力と一致するアナライザー名
"tokenizer": "jieba"
}
}
}
}
代替アプローチ: マッピング付きのカスタム名
カスタムアナライザー名を使用することを好み、または既存の設定との互換性を維持する必要がある場合は、mapping パラメータを使用できます。これにより、アナライザーのエイリアスが作成され、元の検出エンジン名とカスタム名の両方が機能します。
analyzer_params = {
"tokenizer": {
"type": "language_identifier",
"identifier": "lingua",
"analyzers": {
"default": {
"tokenizer": "standard"
},
"english_analyzer": { # カスタムアナライザー名
"type": "english"
},
"chinese_analyzer": { # カスタムアナライザー名
"tokenizer": "jieba"
}
},
"mapping": {
"English": "english_analyzer", # 検出出力をカスタム名にマッピング
"Chinese": "chinese_analyzer"
}
}
}
analyzer_params を定義した後、コレクションスキーマを定義する際に VARCHAR フィールドに適用できます。これにより、Zilliz Cloud は指定されたアナライザーを使用して、そのフィールド内のテキストを効率的なトークナイズおよびフィルタリングのために処理できます。詳細については、使用例を参照してください。
例
一般的なシナリオのためのすぐに使用できる設定がいくつかあります。各例には、設定と検証コードが含まれており、すぐにセットアップをテストできます。
英語と中国語の検出
from pymilvus import MilvusClient
# 設定
analyzer_params = {
"tokenizer": {
"type": "language_identifier",
"identifier": "whatlang",
"analyzers": {
"default": {"tokenizer": "standard"},
"English": {"type": "english"},
"Mandarin": {"tokenizer": "jieba"}
}
}
}
# 設定をテスト
client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)
# 英語テキスト
result_en = client.run_analyzer("The Milvus vector database is built for scale!", analyzer_params)
print("English:", result_en)
# 出力:
# English: ['The', 'Milvus', 'vector', 'database', 'is', 'built', 'for', 'scale']
# 中国語テキスト
result_cn = client.run_analyzer("Milvus向量数据库专为大规模应用而设计", analyzer_params)
print("Chinese:", result_cn)
# 出力:
# Chinese: ['Milvus', '向量', '数据', '据库', '数据库', '专', '为', '大规', '规模', '大规模', '应用', '而', '设计']
アクセント正規化付きヨーロッパ言語
# フランス語、ドイツ語、スペイン語など向けの設定
analyzer_params = {
"tokenizer": {
"type": "language_identifier",
"identifier": "lingua",
"analyzers": {
"default": {"tokenizer": "standard"},
"English": {"type": "english"},
"French": {
"tokenizer": "standard",
"filter": ["lowercase", "asciifolding"]
}
}
}
}
# アクセント付きテキストでテスト
result_fr = client.run_analyzer("Café français très délicieux", analyzer_params)
print("French:", result_fr)
# 出力:
# French: ['cafe', 'francais', 'tres', 'delicieux']
使用に関する注意事項
-
フィールドごとの単一言語: 単一の均質なテキストユニットとしてフィールドを処理します。英語の文を含むレコードと次にフランス語の文を含むレコードなど、異なるレコード間で異なる言語を処理するように設計されています。
-
混合言語文字列はなし: 単一の文字列に複数の言語のテキストを含むことを処理するわけではありません。たとえば、英語の文と引用された日本語のフレーズの両方を含む単一の
VARCHARフィールドは、単一言語として処理されます。 -
主要言語処理: 混合言語シナリオでは、検出エンジンは主要言語を識別しそれに応じたアナライザーが全体のテキストに適用されます。これにより、埋め込まれた外国語のトークナイズが不適切または行われない結果になります。