メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Chinese

chinese アナライザーは中国語テキストを効果的に処理するために特別に設計されており、効率的なセグメンテーションとトークン化を提供します。

Definition

chinese アナライザーは以下のコンポーネントで構成されています:

  • トークナイザー: 語彙と文脈に基づいて中国語テキストをトークンに分割するための jieba トークナイザーを使用します。詳細については、Jieba を参照してください。

  • Filter: 中国語以外の文字を含むトークンを削除する cnalphanumonly フィルターを使用します。詳細については、Cnalphanumonly を参照してください。

chinese アナライザーの機能は、次のカスタムアナライザー設定と同等です:

analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}

設定

フィールドに chinese アナライザーを適用するには、analyzer_params 内で typechinese に設定します。

analyzer_params = {
"type": "chinese",
}
📘Notes

chinese アナライザーはオプションのパラメータを受け付けません。

コレクションスキーマにアナライザー設定を適用する前に、run_analyzer メソッドを使用してその動作を検証してください。

アナライザー設定

analyzer_params = {
"type": "chinese",
}

run_analyzer を使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Sample text to analyze
sample_text = "Milvus 是一个高性能、可扩展的向量数据库!"

# Run the standard analyzer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("English analyzer output:", result)

期待される出力

Chinese analyzer output: ['Milvus', '是', '一个', '高性', '性能', '高性能', '可', '扩展', '的', '向量', '数据', '据库', '数据库']