GritLM是什么？

稻草人 • 2025-10-12 12:40 下午 • 随笔 • 阅读 311

GritLM是什么？

GritLM是由ContextualAI开发的语言模型家族，包括GritLM-7B（基于Mistral-7B微调的7B参数模型）和GritLM-8x7B（基于Mistral-8x7B的8x7B参数模型）。这些模型独特之处在于，它们可以同时处理生成任务（如文本生成）和表示任务（如生成嵌入向量）。传统模型通常擅长其中一种，但GritLM通过GRIT方法实现了统一训练，在Massive Text Embedding Benchmark (MTEB) 上取得了state-of-the-art的表现（如GritLM-7B的66.8分），同时在生成任务上也优于同规模模型（如55.5分）。

https://github.com/ContextualAI/gritlm

GRIT方法的核心是通过特定指令让模型区分任务类型：

嵌入模式：使用如”<|user|>\n{instruction}\n<|embed|>\n”的提示，模型生成嵌入向量，使用双向注意力（bidirectional attention），并通过余弦相似度比较。
生成模式：使用聊天模板如”<|user|>\n{content}\n<|assistant|>\n”，模型生成文本，使用因果注意力（causal attention）。

这种设计的优势包括：

统一模型，无需切换不同模型。
在Retrieval-Augmented Generation (RAG) 中加速60%以上，因为可以缓存键-值对（key-value pairs），如文档缓存、查询缓存等，减少重复计算。

llama.cpp中gritlm示例的作用

在llama.cpp的Examples/gritlm下，这个示例是一个C++程序（gritlm.cpp），用于演示如何在llama.cpp框架中加载和运行GritLM模型。它展示了框架对多功能模型的支持，特别是如何根据提示切换模式：

生成文本：像标准LLM一样，输入提示，采样令牌生成响应。
生成嵌入：通过特定提示提取向量表示，用于搜索、相似度计算等。

程序的主要组件包括：

模型加载：使用llama.cpp的API加载GGUF格式的GritLM模型。
提示处理：根据用户输入添加GRIT特定的前缀来选择模式。
推理过程：对于生成，使用贪婪采样（greedy sampling）或温度采样生成文本；对于嵌入，计算最后一层隐藏状态或池化向量。
结束条件：检测EOS令牌停止生成。

从代码片段看，它包括令牌采样函数如llama_sample_token_greedy，并处理片段转换为字符串。

如何使用

虽然具体README可能因仓库版本而异，但典型用法是通过命令行运行：

编译llama.cpp，包括examples/gritlm。
下载GritLM模型（如从Hugging Face转换为GGUF格式）。
运行命令如：./gritlm -m path/to/model.gguf -p “Your prompt here” –mode embedding 或 generation。

它支持参数如：

-m：模型路径。
-p：提示文本。
可能的其他选项如–n_predict（生成长度）、–mode（选择嵌入或生成）。

这个示例的目的主要是教育性和演示性，帮助开发者理解如何在llama.cpp中集成类似的多模态模型，尤其是在RAG应用中高效利用嵌入功能。

分析与意义

gritlm示例突出了llama.cpp的灵活性，它不限于标准生成，还能处理高级功能如嵌入生成。这对构建高效的本地AI应用很有价值，例如在没有强大GPU的设备上运行RAG系统。相比传统方法，GritLM减少了模型切换开销，提高了长文档处理的效率。如果你想实际运行，建议检查最新llama.cpp仓库，确保gritlm已合并到主分支，或使用fork版本。

Paragoger衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/10025