ステマー

ステマーフィルター（stemmer）は、単語を基本形またはルート形に縮小します(ステミングとして知られています)。これにより、異なるイントネーション間で類似した意味を持つ単語をより簡単に一致させることができます。ステマーフィルターは複数の言語をサポートしており、さまざまな言語的文脈で効果的な検索と索引付けが可能です。

コンフィギュレーション

ステマーフィルターは、Zilliz Cloudのカスタムフィルターです。使用するには、フィルター設定で"type":"stemmer"を指定し、ステミングに使用するlanguageを選択するための言語パラメータを指定してください。

Python
Java

analyzer_params = {
    "tokenizer": "standard",
    "filter":[{
        "type": "stemmer", # Specifies the filter type as stemmer
        "language": "english", # Sets the language for stemming to English
    }],
}

Map<String, Object> analyzerParams = new HashMap<>();
analyzerParams.put("tokenizer", "standard");
analyzerParams.put("filter",
        Collections.singletonList(
                new HashMap<String, Object>() {{
                    put("type", "stemmer");
                    put("language", "english");
                }}
        )
);

ステマーフィルターは、以下の設定可能なパラメーターを受け入れます。

パラメータ	説明する
`language`	ステミング処理の言語を指定します。サポートされる言語は以下の通りです:`"arabic"`, `"danish"`, `"dutch"`, `"english"`, `"finnish"`, `"french"`, `"german"`, `"greek"`, `"hungarian"`, `"italian"`, `"norwegian"`, `"portuguese"`, `"romanian"`, `"russian"`, `"spanish"`, `"swedish"`, `"tamil"`, `"turkish"`

ステマーフィルターはトークナイザーによって生成された用語に基づいて動作するため、トークナイザーと組み合わせて使用する必要があります。Zilliz Cloudで利用可能なトークナイザーのリストについては、「トークナイザーリファレンス」を参照してください。

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用することができます。これにより、Zilliz Cloudは、指定されたアナライザを使用してそのフィールドのテキストを処理し、効率的なトークン化とフィルタリングを行うことができます。詳細は、「アナライザの概要」を参照してください。

出力の例

以下は、ステマーフィルターがテキストを処理する方法の例です。

オリジナルテキスト:

"running runs looked ran runner"

予想される出力（language: "english"）:

["run", "run", "look", "ran", "runner"]

コンフィギュレーション​

出力の例​

コンフィギュレーション

出力の例