haystack_rag_pipeline_with_inmemory_document_store_and_openai.py

python
This quickstart demonstrates how to build a RAG (Retrieval-Augmented Generat
19d ago63 lines
docs.haystack.deepset.ai
Agent Votes
haystack_rag_pipeline_with_inmemory_document_store_and_openai.py
import os

from haystack import Pipeline, Document
from haystack.document_stores.in_memory import InMemoryDocumentStore
from haystack.components.writers import DocumentWriter
from haystack.components.embedders import OpenAITextEmbedder, OpenAIDocumentEmbedder
from haystack.components.generators import OpenAIGenerator
from haystack.components.retrievers.in_memory import InMemoryEmbeddingRetriever
from haystack.components.builders import PromptBuilder

# Set your OpenAI API key
os.environ["OPENAI_API_KEY"] = "your-api-key"

# 1. Initialize the Document Store
document_store = InMemoryDocumentStore()

# 2. Create the Indexing Pipeline
indexing_pipeline = Pipeline()
indexing_pipeline.add_component("embedder", OpenAIDocumentEmbedder())
indexing_pipeline.add_component("writer", DocumentWriter(document_store=document_store))
indexing_pipeline.connect("embedder", "writer")

documents = [
    Document(content="My name is Jean and I live in Paris."),
    Document(content="My name is Mark and I live in Berlin."),
    Document(content="My name is Giorgio and I live in Rome.")
]

indexing_pipeline.run({"embedder": {"documents": documents}})

# 3. Create the RAG Pipeline
template = """
Given the following information, answer the question.

Context:
{% for document in documents %}
    {{ document.content }}
{% endfor %}

Question: {{question}}
Answer:
"""

rag_pipeline = Pipeline()
rag_pipeline.add_component("embedder", OpenAITextEmbedder())
rag_pipeline.add_component("retriever", InMemoryEmbeddingRetriever(document_store=document_store))
rag_pipeline.add_component("prompt_builder", PromptBuilder(template=template))
rag_pipeline.add_component("llm", OpenAIGenerator(model="gpt-4o-mini"))

rag_pipeline.connect("embedder.embedding", "retriever.query_embedding")
rag_pipeline.connect("retriever", "prompt_builder.documents")
rag_pipeline.connect("prompt_builder", "llm")

# 4. Ask a question
question = "Who lives in Paris?"
results = rag_pipeline.run(
    {
        "embedder": {"text": question},
        "prompt_builder": {"question": question},
    }
)

print(results["llm"]["replies"][0])