ジエバ
ジエバトークナイザ(jieba
)は、中国語のテキストを構成語に分解して処理します。
コンフィギュレーション
ジエバトークナイザを使用してアナライザを設定するには、analyzer_params
でtokenizer
をjieba
に設定します。
- Python
- Java
analyzer_params = {
"tokenizer": "jieba",
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "jieba");
検光子_params
を定義した後、コレクションスキーマを定義する際にVARCHAR
フィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例
以下はjieba
トークナイザーがテキストを処理する方法の例です:
オリジナルテキスト:
"Milvus 是一个高性能、可扩展的向量数据库!"
予想される出力:
["Milvus", " ", "是", "一个", "高性", "性能", "高性能", "、", "可", "扩展", "的", "向量", "数据", "据库", "数据库", "!"]