JSON/JSON Lines ファイルからのインポート
JSON (JavaScript Object Notation) は、軽量で人間が読みやすいデータ形式であり、マシンが簡単に解析および生成できます。言語に依存せず、C 系言語のプログラマーに馴染みのある規約に従うため、理想的なデータ交換形式となっています。
JSON Line は、各行が完全で有効な JSON オブジェクトとなるテキスト形式であり、標準的なテキストツールを使用してデータストリームを段階的に処理しやすくなっています。
次の表は、JSON または JSON Line ファイル内のデータの例を示しています。
ファイル形式 | 例 | |
|---|---|---|
JSON (.json) | | |
JSON Lines (.ndjson, .jsonl) | |
生データを JSON ファイルに準備するには、BulkWriter ツール の使用を推奨します。次の図は、生データを JSON ファイルにマッピングする方法を示しています。

- AutoID を有効にするかどうか
id フィールドはコレクションのプライマリフィールドとして機能します。プライマリフィールドを自動的にインクリメントするには、スキーマで AutoID を有効にできます。この場合、ソースデータ内の各行から id フィールドを除外する必要があります。
- 動的フィールドを有効にするかどうか
ターゲットコレクションで動的フィールドが有効になっている場合、事前定義されたスキーマに含まれていないフィールドを保存する必要がある場合、書き込み操作時に $meta 列を指定し、対応するキーと値のデータを提供できます。
- 大文字と小文字の区別
辞書のキーとコレクションのフィールド名は大文字と小文字が区別されます。データ内の辞書のキーが、ターゲットコレクション内のフィールド名と完全に一致することを確認してください。ターゲットコレクションに id という名前のフィールドがある場合、各エンティティ辞書には id という名前のキーが必要です。ID や Id を使用するとエラーが発生します。
ディレクトリ構造
データを JSON または JSON Lines ファイルに準備する場合は、以下のツリーダイアグラムに示すように、すべてのファイルをソースデータフォルダに直接配置してください。
├── json-folder
│ ├── 1.json
│ └── 2.json
データのインポート
データの準備ができたら、以下のいずれかの方法を使用して、Zilliz Cloud コレクションにインポートできます。
ファイルが比較的小さい場合は、フォルダまたは複数パス方式を使用して一度にすべてインポートすることをお勧めします。このアプローチにより、インポートプロセス中に内部最適化が行われ、後のリソース消費を削減するのに役立ちます。
また、Milvus SDK を使用して Zilliz Cloud コンソール上でデータをインポートすることもできます。詳細については、データのインポート(コンソール) および データのインポート(SDK) を参照してください。
複数のパスからファイルをインポート(推奨)
複数のパスからファイルをインポートする場合は、各 JSON ファイルのパスを個別のリストに含め、次に以下のコード例のようにすべてのリストを上位レベルのリストにグループ化します。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder-1/1.json"],
["s3://bucket-name/json-folder-2/1.json"],
["s3://bucket-name/json-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダーからファイルをインポートする
ソースフォルダーにインポートするファイルが含まれている場合、リクエストに次のようにしてソースフォルダーを含めることができます。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/"]
],
"accessKey": "",
"secretKey": ""
}'
フォルダーに複数の形式のファイルが含まれている場合、リクエストは失敗します。
単一ファイルのインポート
準備したデータファイルが単一の JSON ファイルである場合は、以下のコード例に示すようにインポートします。
curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/1.json"]
],
"accessKey": "",
"secretKey": ""
}'
ストレージパス
Zilliz Cloud は、クラウドストレージからのデータインポートをサポートしています。以下の表に、データファイルの可能なストレージパスを示します。
Cloud | クイック例 |
|---|---|
AWS S3 | s3://バケット名/jsonフォルダ/ s3://バケット名/jsonフォルダ/data.json |
Google Cloud Storage | gs://バケット名/jsonフォルダ/ gs://バケット名/jsonフォルダ/data.json |
Azure Blob | https://myaccount.blob.core.windows.net/バケット名/jsonフォルダ/ https://myaccount.blob.core.windows.net/バケット名/jsonフォルダ/data.json |
制限
ローカルの JSON ファイルまたはクラウドストレージの JSON ファイルからデータをインポートする際に、遵守すべき制限がいくつかあります。
有効な JSON ファイルには、rows という名前のルートキーがあり、その対応する値は辞書のリストで、各辞書はターゲットコレクションのスキーマに一致するエンティティを表します。
方法 | インポートあたりの最大ファイル数 | 最大ファイルサイズ | 最大合計インポートサイズ |
|---|---|---|---|
ローカルファイルから | 1 ファイル | 1 GB | 1 GB |
オブジェクトストレージから | 1,000 ファイル | 10 GB | 1 TB |
データファイルの準備 を参照して独自にデータを構築するか、BulkWriter ツール を使用してソースデータファイルを生成することができます。上記の図のスキーマに基づいて準備されたサンプルデータはこちらからダウンロードできます。