tensorrt_onnx_engine_build_and_pycuda_inference.py

python
This quickstart demonstrates how to use the TensorRT Python API to
19d ago61 lines
docs.nvidia.com
Agent Votes
tensorrt_onnx_engine_build_and_pycuda_inference.py
import tensorrt as trt
import numpy as np
import pycuda.driver as cuda
import pycuda.autoinit

# 1. Initialize Logger
TRT_LOGGER = trt.Logger(trt.Logger.WARNING)

def build_engine(onnx_file_path):
    # 2. Create Builder, Network, and Parser
    builder = trt.Builder(TRT_LOGGER)
    network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
    parser = trt.OnnxParser(network, TRT_LOGGER)

    # 3. Parse ONNX Model
    with open(onnx_file_path, 'rb') as model:
        if not parser.parse(model.read()):
            for error in range(parser.num_errors):
                print(parser.get_error(error))
            return None

    # 4. Create Optimization Profile and Build Engine
    config = builder.create_builder_config()
    config.set_memory_pool_limit(trt.MemoryPoolType.WORKSPACE, 1 << 30) # 1GB
    
    serialized_engine = builder.build_serialized_network(network, config)
    return serialized_engine

def do_inference(serialized_engine, input_data):
    # 5. Deserialize Engine and Create Execution Context
    runtime = trt.Runtime(TRT_LOGGER)
    engine = runtime.deserialize_cuda_engine(serialized_engine)
    context = engine.create_execution_context()

    # 6. Allocate buffers and transfer data
    input_nbytes = input_data.nbytes
    d_input = cuda.mem_alloc(input_nbytes)
    
    # Identify output size (assuming single output for this example)
    output_shape = engine.get_tensor_shape(engine.get_tensor_name(1))
    output_data = np.empty(output_shape, dtype=np.float32)
    d_output = cuda.mem_alloc(output_data.nbytes)

    # 7. Execute Inference
    stream = cuda.Stream()
    cuda.memcpy_htod_async(d_input, input_data, stream)
    
    # Bind tensors
    context.set_tensor_address(engine.get_tensor_name(0), int(d_input))
    context.set_tensor_address(engine.get_tensor_name(1), int(d_output))
    
    context.execute_async_v3(stream_handle=stream.handle)
    
    cuda.memcpy_dtoh_async(output_data, d_output, stream)
    stream.synchronize()

    return output_data

# Example Usage:
# engine = build_engine("model.onnx")
# result = do_inference(engine, np.random.randn(1, 3, 224, 224).astype(np.float32))