AlphanumonlyフィルターPublic Preview
アルファヌモンリーフィルター(Alphanumonly)は、非ASCII文字を含むトークンを削除し、英数字の用語のみを保持します。このフィルターは、特殊文字や記号を除いて、基本的な文字と数字のみが関連するテキストを処理するのに役立ちます。
コンフィギュレーション
アルファモンリー
フィルターは、Zilliz Cloudに組み込まれています。使用するには、フィルターセクション内のanalyzer_params
で名前を指定してください。
- Python
- Java
analyzer_params = {
"tokenizer": "standard",
"filter": ["alphanumonly"],
}
Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter", Collections.singletonList("alphanumonly"));
アルファヌモンリーフィルターはトークナイザーによって生成された用語で動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。
analyzer_params
を定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。
出力の例
アルファベット順のフィルタがテキストを処理する方法の例を
以下に示します。
オリジナルテキスト:
"Milvus 2.0 @ Scale! #AI #Vector_Databasé"
予想される出力:
["Milvus", "2", "0", "Scale", "AI", "Vector"]