メインコンテンツまでスキップ
バージョン: User Guides (BYOC)

JSON/JSON Lines ファイルからのインポート

JSON(JavaScript Object Notation)は、軽量で人間が読みやすく、かつ機械が簡単にパースおよび生成できるデータ形式です。言語に依存せず、Cファミリー言語のプログラマーに馴染みのある記法に従っているため、理想的なデータ交換フォーマットとなっています。

JSON Lines は、各行が完全で有効な JSON オブジェクトとなるテキスト形式です。これにより、標準的なテキスト処理ツールを使ってデータストリームを逐次的に処理することが容易になります。

以下の表は、JSON または JSON Lines ファイル内のデータ例を示しています。

File Format

Example

JSON (.json)

 [     {"primary_key":89,"vector":[0.7857309327639853,0.6185684289533679]},     {"primary_key":-22,"vector":[0.7227987733802379,0.6910585598920134]},     {"primary_key":85,"vector":[0.7948503430666686,0.6068055142521362]} ]

JSON Lines (.ndjson, .jsonl)

 {"primary_key":89,"vector":[0.7857309327639853,0.6185684289533679]} {"primary_key":-22,"vector":[0.7227987733802379,0.6910585598920134]} {"primary_key":85,"vector":[0.7948503430666686,0.6068055142521362]}

生データを JSON ファイルに変換するには、BulkWriter ツール の使用をお勧めします。次の図は、生データが JSON ファイルにどのようにマッピングされるかを示しています。

json_data_structure

📘Notes
  • AutoID を有効にするかどうか

id フィールドはコレクションの主キー(primary field)として機能します。AutoID をスキーマ内で有効にすると、主キーが自動的にインクリメントされます。この場合、ソースデータの各行から id フィールドを除外する必要があります。

  • 動的フィールドを有効にするかどうか

ターゲットコレクションで動的フィールドが有効になっている場合、事前に定義されたスキーマに含まれないフィールドを保存する必要があるときは、書き込み操作中に $meta 列を指定し、対応するキーと値のデータを提供できます。

  • 大文字・小文字の区別

辞書のキーおよびコレクションのフィールド名は大文字・小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と完全に一致していることを確認してください。たとえば、ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id というキーが必要です。IDId を使用するとエラーになります。

Directory structure

JSON または JSON Lines ファイルにデータを準備する場合は、以下のツリーダイアグラムのように、すべてのファイルをソースデータフォルダー直下に配置してください。

├── json-folder
│ ├── 1.json
│ └── 2.json

データのインポート

データの準備ができたら、以下のいずれかの方法で Zilliz Cloud コレクションにデータをインポートできます。

📘Notes

ファイルが比較的小さい場合は、フォルダまたは複数パス方式を使用して一度にすべてインポートすることを推奨します。この方法により、インポート処理中に内部で最適化が行われ、後続のリソース消費を削減できます。

また、Zilliz Cloud コンソールや Milvus SDK を使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。

複数のパスからファイルをインポートする場合、各 JSON ファイルのパスを個別のリストに含め、それらすべてのリストをより上位のリストにまとめてください。次のコード例を参照してください。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder-1/1.json"],
["s3://bucket-name/json-folder-2/1.json"],
["s3://bucket-name/json-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'

フォルダーからファイルをインポートする

ソースフォルダーにインポートするファイルが含まれている場合、リクエストに次のようにしてソースフォルダーを含めることができます。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
📘Notes

フォルダーに複数の形式のファイルが含まれている場合、リクエストは失敗します。

単一ファイルのインポート

準備したデータファイルが単一の JSON ファイルである場合は、以下のコード例に示すようにインポートします。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/1.json"]
],
"accessKey": "",
"secretKey": ""
}'

Storage paths

Zilliz Cloud は、クラウドストレージからのデータインポートをサポートしています。以下の表に、データファイルの可能なストレージパスを一覧示します。

Cloud

Quick Examples

AWS S3

s3://bucket-name/json-folder/

s3://bucket-name/json-folder/data.json

Google Cloud Storage

gs://bucket-name/json-folder/

gs://bucket-name/json-folder/data.json

Azure Bolb

https://myaccount.blob.core.windows.net/bucket-name/json-folder/

https://myaccount.blob.core.windows.net/bucket-name/json-folder/data.json

制限

ローカル JSON ファイルまたはクラウドストレージ上の JSON ファイルからデータをインポートする際に遵守すべきいくつかの制限があります。

📘Notes

有効な JSON ファイルには、rows という名前のルートキーがあり、その対応する値は辞書のリストです。各辞書は、ターゲットコレクションのスキーマに一致するエンティティを表します。

Import 方法

Max Files per Import

Max File Size

Max Total Import Size

From local file

1 File

1 GB

1 GB

From object storage

1,000 Files

10 GB

1 TB

データファイルの準備 を参照して独自にデータを再構築するか、BulkWriter ツール を使用してソースデータファイルを生成できます。上記の図のスキーマに基づいて準備されたサンプルデータをダウンロードするには、こちらをクリックしてください