メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Jieba

jiebaトークナイザーは、中国語テキストを構成単語に分割することで処理します。

📘注意

jiebaトークナイザーは、句読点記号を出力内の独立したトークンとして保持します。例えば、"你好!世界。"["你好", "!", "世界", "。"]になります。これらの独立した句読点トークンを削除するには、removepunctフィルターを使用してください。

構成

Milvusはjiebaトークナイザーの2つの構成方法をサポートしています:シンプル構成とカスタム構成です。

シンプル構成

シンプル構成では、トークナイザーを"jieba"に設定するだけで済みます。例えば:

# シンプル構成:トークナイザー名のみを指定
analyzer_params = {
"tokenizer": "jieba", # デフォルト設定を使用:dict=["_default_"], mode="search", hmm=True
}

このシンプル構成は、以下のカスタム構成と同等です:

# 上記のシンプル構成と同等のカスタム構成
analyzer_params = {
"type": "jieba", # トークナイザーの種類、固定で"jieba"
"dict": ["_default_"], # デフォルト辞書を使用
"mode": "search", # 検索モードを使用してリコール率を向上(詳細はモード参照)
"hmm": True # HMMを有効にして確率的セグメンテーションを実行
}

パラメータの詳細については、カスタム構成を参照してください。

カスタム構成

より多くの制御を行うには、カスタム辞書を指定し、セグメンテーションモードを選択し、隠れマルコフモデル(HMM)を有効または無効にすることができるカスタム構成を提供できます。例えば:

# ユーザー定義設定によるカスタム構成
analyzer_params = {
"tokenizer": {
"type": "jieba", # 固定のトークナイザーの種類
"dict": ["customDictionary"], # カスタム辞書リスト;独自の用語に置き換えてください
"mode": "exact", # exactモードを使用(重複しないトークン)
"hmm": False # HMMを無効化;一致しないテキストは個別文字に分割されます
}
}

パラメータ

説明

デフォルト値

type

トークナイザーの種類。これは"jieba"に固定されています。

"jieba"

dict

アナライザーが語彙源として読み込む辞書のリスト。組み込みオプション:

  • "default": エンジンの組み込み簡体字中国語辞書を読み込みます。詳細については、dict.txtを参照してください。

  • "extend_default": "default"のすべてに、追加の繁体字中国語補足を読み込みます。詳細については、dict.txt.bigを参照してください。

    組み込み辞書を任意の数のカスタム辞書と混在させることもできます。例:["default", "结巴分词器"]

["default"]

mode

セグメンテーションモード。可能な値:

  • "exact": 文を最も正確な方法でセグメント化しようとし、テキスト分析に理想的です。

  • "search": exactモードを基盤とし、さらに長い単語を分解してリコール率を向上させ、検索エンジンのトークン化に適しています。

    詳細については、Jieba GitHubプロジェクトを参照してください。

"search"

hmm

辞書にない単語の確率的セグメンテーションのために隠れマルコフモデル(HMM)を有効にするかどうかを示すブールフラグ。

true

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用できます。これにより、Zilliz Cloudは、指定されたアナライザーを使用してそのフィールド内のテキストを効率的にトークン化およびフィルタリング処理できます。詳細については、使用例を参照してください。

コレクションスキーマにアナライザー構成を適用する前に、run_analyzerメソッドを使用してその動作を検証してください。

アナライザー構成

analyzer_params = {
"tokenizer": {
"type": "jieba",
"dict": ["结巴分词器"],
"mode": "exact",
"hmm": False
}
}

run_analyzerを使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 解析するサンプルテキスト
sample_text = "milvus结巴分词器中文测试"

# 定義された構成でstandardアナライザーを実行
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

期待される出力

['milvus', '结巴分词器', '中', '文', '测', '试']