ホワイトスペースPublic Preview
ホワイトスペーストークナイザ(whitespace
)は、単語の間にスペースがあるときにテキストを用語に分割します。
コンフィギュレーション
ホワイトスペーストークナイザを使用してアナライザを設定するには、tokenizer
をwhitespace
に設定します。
- Python
- Java
analyzer_params = {
"tokenizer": "whitespace",
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "whitespace");
空白トークナイザーは、1つ以上のフィルターと組み合わせて使用できます。例えば、以下のコードは、ホワイトスペーストークナイザと小文字フィルターを使用するアナライザーを定義しています。
- Python
- Java
analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "whitespace");
analyzerParams.put("filter", Collections.singletonList("lowercase"));
analyzer_params
を定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例
以下は、空白
トークナイザーがテキストを処理する方法の例です。
オリジナルテキスト:
"The Milvus vector database is built for scale!"
予想される出力:
["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]