ジエバ

ジエバトークナイザ（jieba）は、中国語のテキストを構成語に分解して処理します。

コンフィギュレーション

ジエバトークナイザを使用してアナライザを設定するには、analyzer_paramsでtokenizerをjiebaに設定します。

Python
Java

analyzer_params = {
    "tokenizer": "jieba",
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");

検光子_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下はjiebaトークナイザーがテキストを処理する方法の例です:

オリジナルテキスト:

"Milvus 是一个高性能、可扩展的向量数据库！"

予想される出力:

["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "！"]

コンフィギュレーション​

出力の例​

コンフィギュレーション

出力の例