JSON/JSON Lines ファイルからのインポート
JSON(JavaScript Object Notation)は、軽量で人間が読みやすく、かつ機械が簡単にパースおよび生成できるデータ形式です。言語に依存せず、Cファミリー言語のプログラマーに馴染みのある記法に従っているため、理想的なデータ交換フォーマットとなっています。
JSON Lines は、各行が完全で有効な JSON オブジェクトとなるテキスト形式です。これにより、標準的なテキスト処理ツールを使ってデータストリームを逐次的に処理することが容易になります。
以下の表は、JSON または JSON Lines ファイル内のデータ例を示しています。
File Format | Example | |
|---|---|---|
JSON (.json) | | |
JSON Lines (.ndjson, .jsonl) | |
生データを JSON ファイルに変換するには、BulkWriter ツール の使用をお勧めします。次の図は、生データが JSON ファイルにどのようにマッピングされるかを示しています。

- AutoID を有効にするかどうか
id フィールドはコレクションの主キー(primary field)として機能します。AutoID をスキーマ内で有効にすると、主キーが自動的にインクリメントされます。この場合、ソースデータの各行から id フィールドを除外する必要があります。
- 動的フィールドを有効にするかどうか
ターゲットコレクションで動的フィールドが有効になっている場合、事前に定義されたスキーマに含まれないフィールドを保存する必要があるときは、書き込み操作中に $meta 列を指定し、対応するキーと値のデータを提供できます。
- 大文字・小文字の区別
辞書のキーおよびコレクションのフィールド名は大文字・小文字を区別します。データ内の辞書キーがターゲットコレクションのフィールド名と完全に一致していることを確認してください。たとえば、ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id というキーが必要です。ID や Id を使用するとエラーになります。
Directory structure
JSON または JSON Lines ファイルにデータを準備する場合は、以下のツリーダイアグラムのように、すべてのファイルをソースデータフォルダー直下に配置してください。
├── json-folder
│ ├── 1.json
│ └── 2.json
データのインポート
データの準備ができたら、以下のいずれかの方法で Zilliz Cloud コレクションにデータをインポートできます。
ファイルが比較的小さい場合は、フォルダまたは複数パス方式を使用して一度にすべてインポートすることを推奨します。この方法により、インポート処理中に内部で最適化が行われ、後続のリソース消費を削減できます。
また、Zilliz Cloud コンソールや Milvus SDK を使用してデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。
複数のパスからファイルをインポートする(推奨)
複数のパスからファイルをインポートする場合、各 JSON ファイルのパスを個別のリストに含め、それらすべてのリストをより上位のリストにまとめてください。次のコード例を参照してください。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder-1/1.json"],
["s3://bucket-name/json-folder-2/1.json"],
["s3://bucket-name/json-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダーからファイルをインポートする
ソースフォルダーにインポートするファイルが含まれている場合、リクエストに次のようにしてソースフォルダーを含めることができます。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダーに複数の形式のファイルが含まれている場合、リクエストは失敗します。
単一ファイルのインポート
準備したデータファイルが単一の JSON ファイルである場合は、以下のコード例に示すようにインポートします。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/1.json"]
],
"accessKey": "",
"secretKey": ""
}'
Storage paths
Zilliz Cloud は、クラウドストレージからのデータインポートをサポートしています。以下の表に、データファイルの可能なストレージパスを一覧示します。
Cloud | Quick Examples |
|---|---|
AWS S3 | s3://bucket-name/json-folder/ s3://bucket-name/json-folder/data.json |
Google Cloud Storage | gs://bucket-name/json-folder/ gs://bucket-name/json-folder/data.json |
Azure Bolb | https://myaccount.blob.core.windows.net/bucket-name/json-folder/ https://myaccount.blob.core.windows.net/bucket-name/json-folder/data.json |
制限
ローカル JSON ファイルまたはクラウドストレージ上の JSON ファイルからデータをインポートする際に遵守すべきいくつかの制限があります。
有効な JSON ファイルには、rows という名前のルートキーがあり、その対応する値は辞書のリストです。各辞書は、ターゲットコレクションのスキーマに一致するエンティティを表します。
Import 方法 | Max Files per Import | Max File Size | Max Total Import Size |
|---|---|---|---|
From local file | 1 File | 1 GB | 1 GB |
From object storage | 1,000 Files | 10 GB | 1 TB |
データファイルの準備 を参照して独自にデータを再構築するか、BulkWriter ツール を使用してソースデータファイルを生成できます。上記の図のスキーマに基づいて準備されたサンプルデータをダウンロードするには、こちらをクリックしてください。