メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

標準トークナイザー

Zilliz Cloudの標準トークナイザー(standard)Zilliz Cloudは、スペースと句読点に基づいてテキストを分割するため、ほとんどの言語に適しています。

コンフィギュレーション{#}

アナライザーを標準トークナイザーで設定するには、analyzer_paramsでトークナイザーをstandardに設定します。

analyzer_params = {
"tokenizer": "standard",
}

以下のコードは、標準トークナイザーと小文字フィルターを組み合わせて動作するアナライザーを定義しています。例えば、

analyzer_params = {
"tokenizer": "standard",
"filter": ["lowercase"]
}
📘ノート

設定を簡単にするには、標準アナライザを使用します。これは、標準トークナイザと小文字フィルターを組み合わせたものです。

光子_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例{#}

以下は、標準トークナイザーがテキストを処理する方法の例です。

オリジナルテキスト:

"The Milvus vector database is built for scale!"

予想される出力:

["The", "Milvus", "vector", "database", "is", "built", "for", "scale"]