メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

ホワイトスペース
Public Preview

ホワイトスペーストークナイザ(whitespace)は、単語の間にスペースがあるときにテキストを用語に分割します。

コンフィギュレーション

ホワイトスペーストークナイザを使用してアナライザを設定するには、tokenizerwhitespaceに設定します。

analyzer_params = {
"tokenizer": "whitespace",
}

空白トークナイザーは、1つ以上のフィルターと組み合わせて使用できます。例えば、以下のコードは、ホワイトスペーストークナイザと小文字フィルターを使用するアナライザーを定義しています。

analyzer_params = {
"tokenizer": "whitespace",
"filter": ["lowercase"]
}

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下は、空白トークナイザーがテキストを処理する方法の例です。

オリジナルテキスト:

"The Milvus vector database is built for scale!"

予想される出力:

["The", "Milvus", "vector", "database", "is", "built", "for", "scale!"]