メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

ジエバ
Public Preview

ジエバトークナイザ(jieba)は、中国語のテキストを構成語に分解して処理します。

コンフィギュレーション

ジエバトークナイザを使用してアナライザを設定するには、analyzer_paramstokenizerjiebaに設定します。

analyzer_params = {
"tokenizer": "jieba",
}

光子_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下はjiebaトークナイザーがテキストを処理する方法の例です:

オリジナルテキスト:

"Milvus 是一个高性能、可扩展的向量数据库!"

予想される出力:

["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]