メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Cncharonlyフィルター
Public Preview

cncharonlyフィルターは、中国語以外の文字を含むトークンを削除します。このフィルターは、他の文字、数字、または記号を含むトークンを除外して、中国語のテキストだけに焦点を当てたい場合に便利です。

コンフィギュレーション

cncharonlyフィルターは、Zilliz Cloudに組み込まれています。使用するには、単にフィルターセクション内のanalyzer_paramsで名前を指定してください。

analyzer_params = {
"tokenizer": "standard",
"filter": ["cncharonly"],
}

cncharonlyフィルターはトークナイザーによって生成された項に基づいて動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下は、cncharonlyフィルタがテキストを処理する方法例です。

オリジナルテキスト:

"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"

予想される出力:

["是", "下", "的", "一个", "开源", "项目", "以", "许可", "发布"]