長さフィルター

長さフィルター（length）は、指定された長さ の要件を満たさないトークンを削除するため、テキスト処理中に保持されるトークンの長さを制御できます。

コンフィギュレーション

この長さフィルタは、Zilliz Cloudにあるカスタムフィルタで、フィルタ設定で"type":"length"を設定することで指定できます。長さの制限を定義するために、analyzer_params内で辞書として設定できます。

Python
Java

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "length", # Specifies the filter type as length
        "max": 10, # Sets the maximum token length to 10 characters
    }],
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
    Collections.singletonList(new HashMap<String, Object>() {{
        put("type", "length");
        put("max", 10);
}}));

この長さフィルタは、以下の設定可能なパラメータを受け入れます。

パラメータ	説明する
`max`	トークンの最大長を設定します。この長さより長いトークンは削除されます。

トークナイザーによって生成された用語に対して長さフィルターが動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、使用例を参照してください。

出力の例

以下は、長さフィルタがテキストを処理する方法の例です。

テキストの例:

"The length filter allows control over token length requirements for text processing."

予想される出力（max: 10）:

["length", "filter", "allows", "control", "over", "token", "length", "for", "text"]

コンフィギュレーション​

出力の例​

コンフィギュレーション

出力の例