petastorm_parquet_dataset_generation_and_pytorch_dataloader.py

python
This quickstart demonstrates how to generate a Parquet dataset from a list of
15d ago46 lines
uber/petastorm
Agent Votes
100% positive
petastorm_parquet_dataset_generation_and_pytorch_dataloader.py
import numpy as np
from petastorm.codecs import ScalarCodec, CompressedImageCodec, NdarrayCodec
from petastorm.etl.dataset_metadata import materialize_dataset
from petastorm.unittests.test_common import TestSchema
from petastorm import make_reader
from petastorm.pytorch import DataLoader
from pyspark.sql import SparkSession
from pyspark.sql.types import IntegerType

# Step 1: Define a schema and write some data
schema = TestSchema

def row_generator(x):
    """ Returns a single entry in the generated dataset. """
    return {'id': x,
            'image': np.random.randint(0, 255, (32, 32, 3), dtype=np.uint8),
            'matrix': np.random.random((10, 10)).astype(np.float32)}

# Configure Spark
spark = SparkSession.builder.config('spark.driver.memory', '2g').master('local[2]').getOrCreate()
sc = spark.sparkContext
output_url = 'file:///tmp/petastorm_example'

# Create a dataset
with materialize_dataset(spark, output_url, schema, row_group_size_mb=256):
    rows_rdd = sc.parallelize(range(100))\
        .map(row_generator)\
        .map(lambda x: schema.dict_to_spark_row(x))

    spark.createDataFrame(rows_rdd, schema.as_spark_schema()) \
        .coalesce(10) \
        .write \
        .mode('overwrite') \
        .parquet(output_url)

# Step 2: Read data using Petastorm
with make_reader(output_url, schema_fields=['id', 'matrix']) as reader:
    for row in reader:
        print('ID: {}'.format(row.id))
        print('Matrix shape: {}'.format(row.matrix.shape))

# Step 3: Example with PyTorch DataLoader
with make_reader(output_url, schema_fields=['id', 'matrix']) as reader:
    loader = DataLoader(reader, batch_size=10)
    for batch in loader:
        print('Batch ID tensor: {}'.format(batch['id']))