Cnalphanumonlyフィルター
cnalphanumonly
フィルターは、漢字、英字、数字以外の文字を含むトークンを削除します。
コンフィギュレーション
cnalphanumonly
フィルターは、Zilliz Cloudに組み込まれています。使用するには、単にフィルターセクション内のanalyzer_params
で名前を指定してください。
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
"filter": ["cnalphanumonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("cnalphanumonly"));
cnalphanumonly
フィルターはトークナイザーによって生成された用語に作用するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。
analyzer_params
を定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例
cnalphanumonlyフィルタがテキストを処理する方法の例を
次に示します。
オリジナルテキスト:
"Milvus 是 LF AI & Data Foundation 下的一个开源项目,以 Apache 2.0 许可发布。"
予想される出力:
["Milvus", "是", "LF", "AI", "Data", "Foundation", "下", "的", "一个", "开源", "项目", "以", "Apache", "2.0", "许可", "发布"]