句嵌入

Sentence Embedding将整个句子或段落编码为固定维度的向量，适用于语义搜索等任务。

共 3 篇文章·阅读时间：约30分钟

01Sentence-BERT

SBERT是专门为Sentence Embedding任务优化的BERT变体，支持高效的语义相似度计算。

原始BERT的输出是token级别的表示，需要额外处理（如CLS token或mean pooling）才能得到句子向量。 SBERT在此基础上进行了针对性优化。

核心改进

给定锚点a、正例p、负例n：
优化目标：||a - p|| < ||a - n||

拉近正例对的距离，推远负例对的距离。
适合批量训练，效率更高。

在每个batch中选择最难的负例进行训练，加快收敛速度，提升模型区分能力。

应用场景

E5（Emebedding5）是微软提出的高效嵌入式模型，以简洁的设计取得优异性能。

E5的核心设计理念是区分"查询（Query）"和"内容（Passage）"的编码方式，这种不对称的编码方式更适合信息检索场景。

E5的查询-内容分离设计

查询（如搜索词）：加上"Query: "前缀
内容（如文档）：加上"Passage: "前缀

这种设计让模型学习到：查询关注的是"要找什么"，内容关注的是"包含什么"。

E5的优势

BGE（BAAI General Embedding）是智谱AI开源的高质量中文Embedding模型。

BGE-zh专门针对中文优化，同时支持英文。
BGE-en则是英文专用版本。

使用RetroMAE作为基础预训练任务，增强了模型学习句子级别表示的能力。

支持通过指令指定任务类型：
"query: xxx" 或 "passage: xxx"

选择建议