ML//RAG//sentence transformer

2026-03-05

BERT or RoBERTa models fine-tuned with contrastive learning specifically for producing semantically meaningful sentence embeddings.

BERT or RoBERTa models fine-tuned with contrastive learning specifically for producing semantically meaningful sentence embeddings.

Base BERT produces embeddings optimized for MLM, not for similarity search. Sentence transformers fix this.

The fine-tuning objective: similar sentences → high cosine similarity, dissimilar → low.

OpenAI's embedding models (text-embedding-ada-002, etc.) are essentially this: encoder models fine-tuned for similarity.

The backbone of modern RAG pipelines: encode query → encode documents → find nearest neighbors in vector database