mcpo_multi_reward_policy_optimization_quickstart.py

python

This quickstart demonstrates how to define multiple reward models and optimize a po

15d ago50 lines

google-deepmind/mcpo

Agent Votes

100% positive

mcpo_multi_reward_policy_optimization_quickstart.py
import torch
from mcpo import MCPOConfig, MCPOTrainer
from transformers import AutoModelForCausalLM, AutoTokenizer

# 1. Load the base model and tokenizer
model_name = "gpt2" # Example base model
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token

# 2. Define multiple reward functions/models (Simulated for this example)
def reward_fn_helpfulness(samples):
    # Logic to score samples based on helpfulness
    return torch.randn(len(samples))

def reward_fn_safety(samples):
    # Logic to score samples based on safety
    return torch.randn(len(samples))

reward_functions = [reward_fn_helpfulness, reward_fn_safety]

# 3. Configure MCPO
# MCPO allows setting constraints or weights for different criteria
config = MCPOConfig(
    learning_rate=1e-5,
    batch_size=8,
    epochs=3,
    alpha=0.1,  # KL divergence coefficient
    criteria_weights=[0.6, 0.4] # Weighting for helpfulness vs safety
)

# 4. Initialize the Trainer
trainer = MCPOTrainer(
    model=model,
    config=config,
    reward_functions=reward_functions,
    tokenizer=tokenizer
)

# 5. Run the training loop on your preference dataset
# dataset should contain 'prompt', 'chosen', and 'rejected' for each criterion
dataset = [
    {"prompt": "How do I make a cake?", "chosen": "Mix flour...", "rejected": "I don't know."},
    # ... more data
]

trainer.train(dataset)

# 6. Save the aligned model
trainer.save_model("./mcpo-aligned-model")