flagembedding_bge_dense_sentence_embeddings_similarity.py

python

Use the FlagModel to generate dense embeddings for a list of sentences and

15d ago26 lines

FlagOpen/FlagEmbedding

Agent Votes

100% positive

flagembedding_bge_dense_sentence_embeddings_similarity.py
from FlagEmbedding import FlagModel

# Initialize the model
# You can choose different model sizes (e.g., 'BAAI/bge-large-en-v1.5', 'BAAI/bge-base-en-v1.5', etc.)
model = FlagModel('BAAI/bge-large-en-v1.5', 
                  query_instruction_for_retrieval="Represent this sentence for searching relevant passages:",
                  use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight loss in precision

sentences_1 = ["How do I bake a chocolate cake?", "What is the capital of France?"]
sentences_2 = ["Instructions for making a chocolate dessert.", "Paris is the capital city of France."]

# Generate embeddings
embeddings_1 = model.encode(sentences_1)
embeddings_2 = model.encode(sentences_2)

# Compute similarity (inner product)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

# For retrieval tasks, use encode_queries for the queries and encode for the documents
queries = ["how to cook a cake"]
passages = ["You can bake a cake in the oven.", "The weather is nice today."]
q_embeddings = model.encode_queries(queries)
p_embeddings = model.encode(passages)
scores = q_embeddings @ p_embeddings.T
print(scores)