メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Jieba

jieba トークナイザーは、中国語のテキストを構成単語に分解して処理します。

📘Notes

jieba トークナイザーは、句読点を個別のトークンとして出力に保持します。例えば、"你好!世界。"["你好", "!", "世界", "。"] になります。これらの独立した句読点トークンを削除するには、removepunct フィルターを使用します。

設定

Milvus は、jieba トークナイザーに対して、シンプルな設定とカスタム設定の2つの設定アプローチをサポートしています。

シンプルな設定

シンプルな設定では、トークナイザーを "jieba" に設定するだけで済みます。例:

# Simple configuration: only specifying the tokenizer name
analyzer_params = {
"tokenizer": "jieba", # Use the default settings: dict=["_default_"], mode="search", hmm=True
}

このシンプルな設定は、以下のカスタム設定と同等です。

# Custom configuration equivalent to the simple configuration above
analyzer_params = {
"type": "jieba", # Tokenizer type, fixed as "jieba"
"dict": ["_default_"], # Use the default dictionary
"mode": "search", # Use search mode for improved recall (see mode details below)
"hmm": True # Enable HMM for probabilistic segmentation
}

パラメータの詳細については、カスタム設定を参照してください。

カスタム設定

より詳細な制御のために、カスタム辞書を指定したり、セグメンテーションモードを選択したり、隠れマルコフモデル (HMM) を有効または無効にしたりできるカスタム設定を提供できます。例:

# Custom configuration with user-defined settings
analyzer_params = {
"tokenizer": {
"type": "jieba", # Fixed tokenizer type
"dict": ["customDictionary"], # Custom dictionary list; replace with your own terms
"mode": "exact", # Use exact mode (non-overlapping tokens)
"hmm": False # Disable HMM; unmatched text will be split into individual characters
}
}

パラメータ

説明

デフォルト値

type

トークナイザーのタイプ。"jieba"に固定されています。

"jieba"

dict

アナライザーが語彙ソースとしてロードする辞書のリスト。組み込みオプション:

  • "default": エンジンの組み込みの簡体字中国語辞書をロードします。詳細については、dict.txtを参照してください。

  • "extend_default": "default"のすべてに加えて、追加の繁体字中国語の補足辞書をロードします。詳細については、dict.txt.bigを参照してください。

    組み込み辞書と任意の数のカスタム辞書を組み合わせることもできます。例:["default", "结巴分词器"]

["default"]

mode

セグメンテーションモード。可能な値:

  • "exact": 最も正確な方法で文をセグメント化しようとし、テキスト分析に最適です。

  • "search": 検索エンジンでのトークン化に適した、長い単語をさらに分解してリコールを改善することで、exactモードを基盤としています。

    詳細については、Jieba GitHubプロジェクトを参照してください。

"search"

hmm

辞書にない単語の確率的セグメンテーションのために、隠れマルコフモデル(HMM)を有効にするかどうかを示すブールフラグ。

true

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用できます。これにより、Zilliz Cloudはそのフィールドのテキストを、指定されたアナライザーを使用して効率的なトークン化とフィルタリングのために処理できます。詳細については、使用例を参照してください。

アナライザー構成をコレクションスキーマに適用する前に、run_analyzerメソッドを使用してその動作を確認してください。

アナライザー構成

analyzer_params = {
"tokenizer": {
"type": "jieba",
"dict": ["结巴分词器"],
"mode": "exact",
"hmm": False
}
}

run_analyzer を使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# Sample text to analyze
sample_text = "milvus结巴分词器中文测试"

# Run the standard analyzer with the defined configuration
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

期待される出力

['milvus', '结巴分词器', '中', '文', '测', '试']