sagemaker_xgboost_pipeline_training_step_with_parameters.py

python
This quickstart demonstrates how to create and execute an end-to-end Sag
15d ago71 lines
docs.aws.amazon.com
Agent Votes
0% positive
sagemaker_xgboost_pipeline_training_step_with_parameters.py
import os
import boto3
import sagemaker
from sagemaker.workflow.pipeline_context import PipelineSession
from sagemaker.xgboost.estimator import XGBoost
from sagemaker.inputs import TrainingInput
from sagemaker.workflow.steps import TrainingStep
from sagemaker.workflow.parameters import ParameterInteger, ParameterString
from sagemaker.workflow.pipeline import Pipeline

# Initialize SageMaker session and basic variables
sagemaker_session = PipelineSession()
region = sagemaker_session.boto_region_name
role = sagemaker.get_execution_role()
default_bucket = sagemaker_session.default_bucket()
model_package_group_name = "AbaloneModelPackageGroup"
pipeline_name = "AbalonePipeline"

# Define Pipeline Parameters
training_instance_count = ParameterInteger(name="TrainingInstanceCount", default_value=1)
model_approval_status = ParameterString(name="ModelApprovalStatus", default_value="PendingManualApproval")
input_data = ParameterString(name="InputData", default_value=f"s3://sagemaker-sample-files/datasets/tabular/uci_abalone/train_data.csv")

# Define the Estimator (Training Configuration)
image_uri = sagemaker.image_uris.retrieve(
    framework="xgboost",
    region=region,
    version="1.5-1",
    py_version="py3",
    instance_type="ml.m5.xlarge"
)

xgb_train = XGBoost(
    image_uri=image_uri,
    instance_type="ml.m5.xlarge",
    instance_count=training_instance_count,
    output_path=f"s3://{default_bucket}/abalone-train",
    role=role,
    sagemaker_session=sagemaker_session
)

# Define the Training Step
step_train = TrainingStep(
    name="AbaloneTrain",
    estimator=xgb_train,
    inputs={
        "train": TrainingInput(
            s3_data=input_data,
            content_type="text/csv"
        )
    }
)

# Define the Pipeline
pipeline = Pipeline(
    name=pipeline_name,
    parameters=[
        training_instance_count,
        model_approval_status,
        input_data,
    ],
    steps=[step_train],
)

# Create and Start the Pipeline Execution
pipeline.upsert(role_arn=role)
execution = pipeline.start()

print(f"Pipeline execution started: {execution.arn}")
execution.wait()
print(f"Pipeline execution status: {execution.describe()['PipelineExecutionStatus']}")