メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

JSON/JSON Lines ファイルからのインポート

JSON (JavaScript Object Notation) は、軽量で人間が読みやすいデータ形式であり、機械が簡単に解析および生成できます。言語に依存せず、C ファミリー言語のプログラマーに馴染みのある規約に従うため、理想的なデータ交換形式です。

JSON Line は、各行が完全で有効な JSON オブジェクトであるテキスト形式であり、標準のテキストツールでデータストリームを段階的に処理するのを容易にします。

次の表は、JSON または JSON Line ファイルのデータ例を示しています。

ファイル形式

JSON (.json)

 [     {"primary_key":89,"vector":[0.7857309327639853,0.6185684289533679]},     {"primary_key":-22,"vector":[0.7227987733802379,0.6910585598920134]},     {"primary_key":85,"vector":[0.7948503430666686,0.6068055142521362]} ]

JSON Lines (.ndjson, .jsonl)

 {"primary_key":89,"vector":[0.7857309327639853,0.6185684289533679]} {"primary_key":-22,"vector":[0.7227987733802379,0.6910585598920134]} {"primary_key":85,"vector":[0.7948503430666686,0.6068055142521362]}

生のデータを JSON ファイルに準備するには、BulkWriter ツールを使用することをお勧めします。次の図は、生のデータを JSON ファイルにマッピングする方法を示しています。

json_data_structure

📘Notes
  • AutoID を有効にするかどうか

id フィールドはコレクションのプライマリ フィールドとして機能します。プライマリ フィールドを自動的にインクリメントするには、スキーマで AutoID を有効にできます。この場合、ソース データ内の各行から id フィールドを除外する必要があります。

  • 動的フィールドを有効にするかどうか

ターゲット コレクションで動的フィールドが有効になっている場合、事前定義されたスキーマに含まれていないフィールドを保存する必要がある場合は、書き込み操作中に $meta 列を指定し、対応するキーと値のデータを提供できます。

  • 大文字と小文字の区別

辞書キーとコレクション フィールド名では大文字と小文字が区別されます。データ内の辞書キーがターゲット コレクションのフィールド名と正確に一致していることを確認してください。ターゲット コレクションに id という名前のフィールドがある場合、各エンティティ辞書には id という名前のキーが必要です。ID または Id を使用するとエラーが発生します。

ディレクトリ構造

データを JSON または JSON Lines ファイルに準備する場合は、以下のツリー図に示すように、すべてのファイルをソースデータフォルダに直接配置します。

├── json-folder
│ ├── 1.json
│ └── 2.json

データインポート

データが準備できたら、以下のいずれかの方法を使用してZilliz Cloudコレクションにインポートできます。

📘Notes

ファイルが比較的小さい場合は、フォルダまたは複数パスの方法を使用して一度にすべてインポートすることをお勧めします。このアプローチにより、インポートプロセス中に内部最適化が行われ、後のリソース消費を削減するのに役立ちます。

Zilliz CloudコンソールでMilvus SDKを使用してデータをインポートすることもできます。詳細については、データインポート(コンソール)およびデータインポート(SDK)を参照してください。

複数のパスからファイルをインポートする場合、各JSONファイルのパスを個別のリストに含め、以下のコード例のようにすべてのリストを上位レベルのリストにグループ化します。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder-1/1.json"],
["s3://bucket-name/json-folder-2/1.json"],
["s3://bucket-name/json-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'

フォルダーからファイルをインポートする

ソースフォルダーにインポートするファイルが含まれている場合、次のようにリクエストにソースフォルダーを含めることができます。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
📘Notes

フォルダに複数の形式のファイルが含まれている場合、リクエストは失敗します。

単一ファイルのインポート

準備したデータファイルが単一のJSONファイルである場合は、以下のコード例に示すようにインポートします。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/1.json"]
],
"accessKey": "",
"secretKey": ""
}'

ストレージパス

Zilliz Cloud は、クラウドストレージからのデータインポートをサポートしています。以下の表に、データファイルのストレージパスの可能性を示します。

クラウド

クイック例

AWS S3

s3://bucket-name/json-folder/

s3://bucket-name/json-folder/data.json

Google Cloud Storage

gs://bucket-name/json-folder/

gs://bucket-name/json-folder/data.json

Azure Blob

https://myaccount.blob.core.windows.net/bucket-name/json-folder/

https://myaccount.blob.core.windows.net/bucket-name/json-folder/data.json

制限

ローカルの JSON ファイルまたはクラウドストレージからの JSON ファイルをインポートする際には、いくつかの制限があります。

📘Notes

有効な JSON ファイルには、rows という名前のルートキーがあり、その対応する値は辞書のリストであり、それぞれがターゲットコレクションのスキーマに一致するエンティティを表します。

インポート方法

クラスタプラン

インポートあたりの最大ファイル数

最大ファイルサイズ

合計インポートサイズの上限

ローカルファイルから

すべてのプラン

1ファイル

1 GB

1 GB

オブジェクトストレージから

無料

1,000ファイル

1 GB

1 GB

Serverless & Dedicated

1,000ファイル

10 GB

1 TB

データファイルの準備 を参照してデータを自分で再構築するか、BulkWriter ツール を使用してソースデータファイルを生成できます。上記の図のスキーマに基づいた準備済みサンプルデータをダウンロードするには、ここをクリックしてください