標準トークナイザーPublic Preview
Zilliz Cloudの標準トークナイザー(standard
)Zilliz Cloudは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。
コンフィギュレーション{#}
アナライザーを標準トークナイザーで設定するには、analyzer_params
でトークナイザーをstandard
に設定します。
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
以下のコードは、標準トークナイザーと小文字フィルターを組み合わせて動作するアナライザーを定義しています。例えば、
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("lowercase"));
検光子_params
を定義した後、コレクションスキーマを定義する際にVARCHAR
フィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例{#}
以下は、標準
トークナイザーがテキストを処理する方法の例です。
オリジナルテキスト:
"The Milvus vector database is built for scale!"
予想される出力:
["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]