メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Chinese

chineseアナライザーは、中国語テキストを効果的に処理するように特別に設計され、効果的なセグメンテーションとトークン化を提供します。

定義

chineseアナライザーは以下の要素で構成されています:

  • Tokenizer: jiebaトークナイザーを使用して、語彙と文脈に基づいて中国語テキストをトークンにセグメント化します。詳細については、Jiebaを参照してください。

  • Filter: cnalphanumonlyフィルターを使用して、中国語以外の文字を含むトークンを削除します。詳細については、Cnalphanumonlyを参照してください。

chineseアナライザーの機能は、以下のカスタムアナライザー構成と同等です:

analyzer_params = {
"tokenizer": "jieba",
"filter": ["cnalphanumonly"]
}

構成

フィールドにchineseアナライザーを適用するには、analyzer_paramstypechineseに設定するだけです。

analyzer_params = {
"type": "chinese",
}
📘注意

chineseアナライザーは任意のオプションパラメータを受け入れません。

アナライザー構成をコレクションスキーマに適用する前に、run_analyzerメソッドを使用してその動作を検証してください。

アナライザー構成

analyzer_params = {
"type": "chinese",
}

run_analyzerを使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 解析するサンプルテキスト
sample_text = "Milvus 是一个高性能、可扩展的向量数据库!"

# 定義された構成でstandardアナライザーを実行
result = client.run_analyzer(sample_text, analyzer_params)
print("English analyzer output:", result)

期待される出力

Chinese analyzer output: ['Milvus', '是', '一个', '高性', '性能', '高性能', '可', '扩展', '的', '向量', '数据', '据库', '数据库']