メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

Lindera

linderaトークナイザーは辞書ベースの形態素解析を実行します。これはスペースで区切られていない単語を持つ言語(日本語、韓国語、中国語など)に適した選択です。

📘注意

linderaトークナイザーは、句読点記号を出力内の独立したトークンとして保持します。例えば、"こんにちは!"["こんにちは", "!"]になります。これらの独立した句読点トークンを削除するには、removepunctフィルターを使用してください。

構成

linderaトークナイザーを使用したアナライザーを構成するには、tokenizer.typelinderaに設定し、dict_kindで辞書を選択します。

analyzer_params = {
"tokenizer": {
"type": "lindera",
"dict_kind": "ipadic"
}
}

パラメータ

説明

type

トークナイザーの種類。これは"lindera"に固定されています。

dict_kind

語彙を定義するために使用される辞書。可能な値:

  • ko-dic: 韓国語 - 韓国語形態素辞書(MeCab Ko-dic

  • ipadic: 日本語 - 標準形態素辞書(MeCab IPADIC

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用できます。これにより、Zilliz Cloudは、指定されたアナライザーを使用してそのフィールド内のテキストを効率的にトークン化およびフィルタリング処理できます。詳細については、使用例を参照してください。

コレクションスキーマにアナライザー構成を適用する前に、run_analyzerメソッドを使用してその動作を検証してください。

アナライザー構成

analyzer_params = {
"tokenizer": {
"type": "lindera",
"dict_kind": "ipadic"
}
}

run_analyzerを使用した検証

from pymilvus import (
MilvusClient,
)

client = MilvusClient(
uri="YOUR_CLUSTER_ENDPOINT",
token="YOUR_CLUSTER_TOKEN"
)

# 解析するサンプルテキスト
sample_text = "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅で"

# 定義された構成でstandardアナライザーを実行
result = client.run_analyzer(sample_text, analyzer_params)
print("Standard analyzer output:", result)

期待される出力

{tokens: ['東京', 'スカイ', 'ツリー', 'の', '最寄り駅', 'は', 'とう', 'きょう', 'スカイ', 'ツリー', '駅', 'で']}