メインコンテンツまでスキップ
バージョン: User Guides (Cloud)

JSONファイルからインポートする

JSON(Java Script Object Notation)は、機械が簡単に解析および生成できる軽量で人間が読めるデータ形式です。Language-independent、C系言語プログラマーにとって馴染みのある規約に従っているため、理想的なデータ交換形式です。

生データをJSONファイルに準備するには、BulkWriterツールを使用することをお勧めします。次の図は、生データをJSONファイルにマップする方法を示しています。

json_data_structure

📘ノート
  • AutoIDを有効にするかどうか

id」フィールドは、コレクションのプライマリフィールドとして機能します。プライマリフィールドを自動的にインクリメントするには、スキーマで「AutoID」を有効にします。この場合、ソースデータの各行から「id」フィールドを除外する必要があります。

  • 動的フィールドを有効にするかどうか

ターゲットコレクションで動的フィールドが有効になっている場合、定義済みスキーマに含まれていないフィールドを格納する必要がある場合は、書き込み操作中に$meta列を指定し、対応するキー値データを指定できます。

  • 大文字と小文字を区別する

ディクショナリのキーとコレクションのフィールド名は大文字と小文字を区別します。データ内のディクショナリのキーがターゲットコレクションのフィールド名と完全に一致するようにしてください。ターゲットコレクションにidという名前のフィールドがある場合、各エンティティディクショナリにはidという名前のキーが必要です。IDまたはIdを使用するとエラーが発生します。

ディレクトリ構造

データをJSONファイルに準備する場合は、下のツリー図に示すように、すべてのJSONファイルをソースデータフォルダに直接置くことができます。

├── json-folder
│ ├── 1.json
│ └── 2.json

データのインポート

データの準備ができたら、次のいずれかの方法を使用して、Zilliz Cloudコレクションにデータをインポートできます。

📘ノート

ファイルが比較的小さい場合は、フォルダまたは複数パスの方法を使用して一度にすべてをインポートすることをお勧めします。このアプローチにより、インポート過程で内部最適化が可能になり、後でリソースの消費を減らすことができます。

Milvus SDKを使用して、Zilliz Cloudコンソールからデータをインポートすることもできます。詳細については、「データのインポート(コンソール)」および「データのインポート(コンソール)」を参照してください。

複数のパスからファイルをインポートする場合は、各JSONファイルパスを個別のリストに含め、次のコード例のようにすべてのリストを上位レベルのリストにグループ化します。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder-1/1.json"],
["s3://bucket-name/json-folder-2/1.json"],
["s3://bucket-name/json-folder-3/"]
],
"accessKey": "",
"secretKey": ""
}'

フォルダからファイルをインポートする

ソースフォルダにインポートするJSONファイルのみが含まれている場合は、次のようにソースフォルダをリクエストに含めることができます。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/"]
],
"accessKey": "",
"secretKey": ""
}'

単一のファイルをインポート

準備したデータファイルが1つのJSONファイルの場合は、次のコード例に示すようにインポートします。

curl --request POST \
--url "https://api.cloud.zilliz.com/v2/vectordb/jobs/import/create" \
--header "Authorization: Bearer ${TOKEN}" \
--header "Accept: application/json" \
--header "Content-Type: application/json" \
-d '{
"clusterId": "inxx-xxxxxxxxxxxxxxx",
"collectionName": "medium_articles",
"partitionName": "",
"objectUrls": [
["s3://bucket-name/json-folder/1.json"]
],
"accessKey": "",
"secretKey": ""
}'

ストレージパス

Zilliz Cloudは、クラウドストレージからのデータインポートをサポートしています。以下の表は、データファイルの可能なストレージパスを示しています。

クラウド

クイックな例

AWS S3

s3://bucket-name/json-folder/ s3://bucket-name/json-folder/data.json

Google Cloud Storage

gs://bucket-name/json-folder/ gs://bucket-name/json-folder/data.json

Azure Bolb

https://myaccount.blob.core.windows.net/bucket-name/json-folder/ https://myaccount.blob.core.windows.net/bucket-name/json-folder/data.json

限界

クラウドストレージからJSON形式のデータをインポートする際には、いくつかの制限があります。有効なJSONファイルには、rowsという名前のルートキーがあり、その対応する値は、ターゲットコレクションのスキーマに一致するエンティティを表す辞書のリストです。

アイテム

説明する

一度に複数のファイルをインポートする

はい

インポートごとの最大ファイル体格

クラスタの空き容量:合計512 MB サーバーレスおよび専用クラスター:

  • ファイルの体格: 10 GB

  • ファイルの体格: 100 GB

使用可能なデータファイルの場所

ローカルファイルとリモートファイル

データファイルの準備」を参照して、自分でデータを再構築するか、BulkWriterツールを使用してソースデータファイルを生成できます。上の図のスキーマに基づいて準備されたサンプルデータをダウンロードするには、ここをクリックしてください