メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Cnalphanumonlyフィルター

cnalphanumonlyフィルターは、漢字、英字、数字以外の文字を含むトークンを削除します。

コンフィギュレーション

cnalphanumonlyフィルターは、Zilliz Cloudに組み込まれています。使用するには、単にフィルターセクション内のanalyzer_paramsで名前を指定してください。

analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}

cnalphanumonlyフィルターはトークナイザーによって生成された用語に作用するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

cnalphanumonlyフィルタがテキストを処理する方法の例次に示します。

オリジナルテキスト:

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

予想される出力:

["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]