メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Chinese

chinese アナライザーは中国語テキストを処理するために特別に設計されており、効果的なセグメンテーションとトークナイズを提供します。

定義

chinese アナライザーは以下の要素で構成されます:

  • Tokenizer: jieba トークナイザーを使用して、語彙とコンテキストに基づいて中国語テキストをトークンにセグメント化します。詳細については、Jieba を参照してください。

  • Filter: cnalphanumonly フィルターを使用して、非中国語文字を含むトークンを削除します。詳細については、Cnalphanumonly を参照してください。

chinese アナライザーの機能性は、以下のカスタムアナライザー設定と同等です:

analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}

設定

chinese アナライザーをフィールドに適用するには、analyzer_paramstypechinese に設定するだけです。

analyzer_params = {
"type": "chinese",
}
📘注意

chinese アナライザーは任意のパラメータを受け入れません。

アナライザー設定をコレクションスキーマに適用する前に、run_analyzer メソッドを使用してその動作を確認してください。

アナライザー設定

analyzer_params = {
"type": "chinese",
}

run_analyzer を使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# アナライズするサンプルテキスト
sample_text = "Milvus 是一个高性能、可扩展的向量数据库!"

# 定義された設定で標準アナライザーを実行
result = client.run_analyzer(sample_text, analyzer_params)
print("English analyzer output:", result)

期待される出力

Chinese analyzer output: ['Milvus', '是', '一个', '高性', '性能', '高性能', '可', '扩展', '的', '向量', '数据', '据库', '数据库']