メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

Lindera

lindera トークナイザーは、辞書ベースの形態素解析を実行します。これは、単語がスペースで区切られておらず、文法マーカー(助詞)が単語に直接付加される日本語と韓国語向けに設計されています。

📘Notes

中国語テキストの場合: linderacc-cedict 辞書を介して中国語をサポートしていますが、代わりに jieba トークナイザーを使用することをお勧めします。Jieba は中国語の単語分割のために特別に設計されており、より良い結果を提供します。

概要

日本語と韓国語は膠着語です。助詞と呼ばれる文法マーカーが名詞に直接付加され、多数の組み合わせを形成します。例:

言語

語根

  • 助詞

= 結合形

意味

韓国語

서울 (ソウル)

에서

서울에서

ソウルで

日本語

東京 (トウキョウ)

東京に

東京へ

lindera トークナイザーは次のことを行います。

  1. テキストを個々の形態素(単語と助詞)に分割します。

  2. 辞書から品詞(POS)情報を使用して、各トークンにタグ付けします。

  3. 不要なトークン(助詞、句読点など)を削除するためにフィルターを適用します。

この2段階のプロセス(分割とPOSベースのフィルタリング)により、検索のためにどのトークンをインデックス化するかを正確に制御できます。

設定

lindera トークナイザーを使用してアナライザーを設定するには、tokenizer.typelindera に設定し、dict_kind で辞書を選択し、必要に応じてフィルターを適用します。

analyzer_params = {
"tokenizer": {
"type": "lindera",
"dict_kind": "ko-dic",
"filter": [
{
"kind": "korean_stop_tags",
"tags": ["SP", "SSC", "SSO", "SC", "SE", "SF", "JKS", "JKC", "JKG", "JKO", "JKB", "JKV", "JKQ", "JX", "JC", "UNK", "EP", "ETM"]
}
]
}
}

パラメータ

説明

type

トークナイザーのタイプ。これは"lindera"に固定されています。

dict_kind

語彙を定義するために使用される辞書。可能な値:

filter

セグメンテーション後に適用するトークナイザーレベルのフィルターのリスト。各フィルターは以下のオブジェクトです。

  • kind: フィルタータイプ。サポートされている値:

    • korean_stop_tags: 指定された韓国語の品詞タグに一致するトークンを削除します。

    • japanese_stop_tags: 指定された日本語の品詞タグに一致するトークンを削除します。

  • tags: フィルタリングする品詞タグのリスト。利用可能なタグはkindによって異なります。

    • korean_stop_tagsの場合:正確なタグコード(例:JKSJKOSF)を使用します。韓国語のタグは正確な一致が必要です。世宗タグセットに基づく完全なリストについては、Lindera Korean stop tags sourceを参照してください。

    • japanese_stop_tagsの場合:正確なタグコード(例:助詞,格助詞助詞,係助詞助動詞)を使用します。日本語のタグは正確な一致が必要です。完全なリスト(IPADIC)については、Japanese POS tags referenceを参照してください。

analyzer_paramsを定義した後、コレクションスキーマを定義する際にVARCHARフィールドに適用できます。これにより、Zilliz Cloudはそのフィールドのテキストを、指定されたアナライザーを使用して効率的なトークン化とフィルタリングのために処理できます。詳細については、使用例を参照してください。

アナライザー設定をコレクションスキーマに適用する前に、run_analyzerメソッドを使用してその動作を確認してください。

韓国語の例

from pymilvus import MilvusClient

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

analyzer_params = {
"tokenizer": {
"type": "lindera",
"dict_kind": "ko-dic",
"filter": [
{
"kind": "korean_stop_tags",
"tags": ["SP", "SSC", "SSO", "SC", "SE", "SF", "JKS", "JKC", "JKG", "JKO", "JKB", "JKV", "JKQ", "JX", "JC", "UNK", "EP", "ETM"]
}
]
}
}

# Sample Korean text: "서울에서 맛있는 음식을 먹었습니다" (I ate delicious food in Seoul)
sample_text = "서울에서 맛있는 음식을 먹었습니다"

result = client.run_analyzer(sample_text, analyzer_params)
print("Analyzer output:", result)

期待される出力:

['서울', '맛있', '음식', '먹', '습니다']

korean_stop_tags がないと、出力には 에서 (in)、 (topic marker)、 (object marker) などの助詞が含まれますが、これらは通常、検索には役立ちません。

日本語の例

from pymilvus import MilvusClient

client = MilvusClient(uri="YOUR_CLUSTER_ENDPOINT")

analyzer_params = {
"tokenizer": {
"type": "lindera",
"dict_kind": "ipadic",
"filter": [
{
"kind": "japanese_stop_tags",
"tags": ["接続詞", "助詞,格助詞", "助詞,格助詞,一般", "助詞,格助詞,引用", "助詞,格助詞,連語", "助詞,係助詞", "助詞,終助詞", "助詞,接続助詞", "助詞,特殊", "助詞,副助詞", "助詞,副助詞/並立助詞/終助詞", "助詞,連体化", "助詞,副詞化", "助詞,並立助詞", "助動詞", "記号,一般", "記号,読点", "記号,句点", "記号,空白", "記号,括弧閉", "記号,括弧開", "その他,間投", "フィラー", "非言語音"]
}
]
}
}

# Sample Japanese text: "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です"
sample_text = "東京スカイツリーの最寄り駅はとうきょうスカイツリー駅です"

result = client.run_analyzer(sample_text, analyzer_params)
print("Analyzer output:", result)

期待される出力:

['東京', 'スカイ', 'ツリー', '最寄り駅', 'とう', 'きょう', 'スカイ', 'ツリー', '駅']

japanese_stop_tags がないと、出力には (所有格)、 (主題マーカー)、です (コピュラ) のような助詞が含まれます。