`背景`

llama.cpp 最初于2023年3月由 Georgi Gerganov 创建，旨在提供一种轻量级、无依赖的 C/C++ 实现，用于在普通硬件（尤其是 CPU）上运行大型语言模型推理。它的灵感来源于 Gerganov 之前开发的 whisper.cpp，一个用于 OpenAI Whisper 语音转文字模型的 C/C++ 实现。llama.cpp 的核心目标是

高效推理：在资源受限的设备（如 CPU 或低端 GPU）上实现高效的 LLM 推理。
无依赖：纯 C/C++ 实现，避免复杂的外部依赖，简化部署。
跨平台支持：支持多种硬件架构，包括 x86、ARM、Apple Silicon、NVIDIA GPU 等。
开源与社区驱动：采用 MIT 许可证，鼓励社区贡献，推动技术创新。

`llama.cpp的主要目标`

llama.cpp是在本地和云端等各种硬件上以最少的设置和最先进的性能实现 LLM 推理

没有任何依赖关系的纯 C/C++ 实现
Apple 芯片是一流的——通过 ARM NEON、Accelerate 和 Metal 框架进行了优化
AVX、AVX2、AVX512 和 AMX 支持 x86 架构
1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，可加快推理速度并减少内存使用
用于在 NVIDIA GPU 上运行 LLM 的自定义 CUDA 内核（通过 HIP 支持 AMD GPU，通过 MUSA 支持 Moore Threads GPU）
Vulkan 和 SYCL 后端支持
CPU+GPU 混合推理，部分加速大于 VRAM 总容量的模型

该项目是开发ggmlllama.cpp库新功能的主要场所。

官方地址：

https://github.com/ggml-org/llama.cpp

目前这个工作室投入了更多的资料在研究。

核心功能与特性

llama.cpp 提供了一系列强大的功能，使其成为本地运行 LLM 的首选工具。以下是其核心特性：

2.1 高效的模型推理

纯 C/C++ 实现：无外部依赖，代码高度优化，适合在资源受限的设备上运行。
支持多种模型：最初为 Meta AI 的 Llama 模型设计，现已扩展支持多种模型，如 Gemma、Mistral、Qwen、DeepSeek 等。
多模态支持：自2025年起，llama.cpp 支持多模态模型（如图像处理和音频处理），例如 Ultravox、Qwen2-Audio、SmolVLM 等。

2.2 量化支持

整数量化：支持 1.5 位、2 位、3 位、4 位、5 位、6 位和 8 位整数量化，大幅降低内存占用。例如，7B 参数模型可通过量化在不到 4GB 内存中运行。
GGUF 文件格式：llama.cpp 引入了 GGUF（GGML Universal File）格式，用于存储模型权重和元数据，优化模型加载和向后兼容性。

2.3 硬件加速

CPU 优化：支持 x86（AVX、AVX2、AVX512、AMX）和 ARM（NEON）指令集优化。
GPU 加速：
- NVIDIA GPU：通过自定义 CUDA 内核支持。
- AMD GPU：通过 HIP 和 ROCm 支持。
- Apple Silicon：通过 ARM NEON、Accelerate 和 Metal 框架优化，Apple Silicon 是“一流公民”。
- Intel GPU：通过 SYCL 支持。
- Vulkan 和 OpenCL：支持更广泛的 GPU 硬件。
多 GPU 支持：支持多 GPU 并行推理，进一步提升性能。

2.4 工具与接口

命令行工具：提供 llama-cli、llama-server 等工具，支持交互式推理和 HTTP API 服务（兼容 OpenAI API）。
Web 界面：内置简单的 Web UI，方便用户通过浏览器与模型交互。
函数调用支持：支持工具调用（Tool Calling），如运行 Python 代码或处理复杂任务。
FIM（Fill-in-the-Middle）补全：通过 llama.vim 插件和 VS Code 扩展支持代码补全。

2.5 其他特性

滑动窗口注意力（SWA）：2025年新增支持，减少约 75% 的 KV 缓存内存需求，支持更长的上下文窗口（如 128k）。
语法格式化输出：支持 JSON 格式输出，便于结构化数据处理。
上下文管理：支持动态上下文大小调整，最大可达 128k 令牌。

3. 技术架构

llama.cpp 的核心是一个高效的 C/C++ 推理引擎，依赖于 Gerganov 开发的 ggml 库（一个用于机器学习的张量库）。以下是其主要架构组件：

3.1 GGML 库

功能：ggml 是一个通用的张量计算库，支持高效的矩阵运算和内存管理，专为机器学习推理优化。
灵感来源：受 Fabrice Bellard 的 LibNC 启发，注重严格的内存管理和多线程支持。
应用：llama.cpp 使用 ggml 作为后端，处理模型的张量计算和硬件加速。

3.2 模型加载与推理

模型格式：支持 GGUF 格式，模型权重和元数据存储在单一文件中，加载速度快且向后兼容。
计算图：模型加载后，llama.cpp 会构建一个计算图，推理时遍历该图以生成输出。
量化优化：通过提前量化（Ahead-of-Time Quantization）减少内存占用，提升推理速度。

3.3 硬件后端

CPU 后端：通过 AVX、NEON 等指令集优化，支持多线程并行计算。
GPU 后端：支持 CUDA、ROCm、Metal、SYCL、Vulkan 和 OpenCL，动态选择最优后端。
多模态支持：通过 mmproj 文件支持图像和音频处理，扩展了模型的应用场景。

3.4 API 与工具

C 风格接口：核心库通过 include/llama.h 提供 C 风格接口，便于集成到其他项目。
Python 绑定：通过 llama-cpp-python 提供 Python 接口，简化开发。
服务器模式：通过 llama-server 提供 REST API，支持远程推理和 Web 交互。

4. 性能优化

llama.cpp 的性能优化是其核心优势之一，主要体现在以下方面：

量化技术：通过低比特量化（如 4 位或 2 位），显著降低模型的内存需求。例如，30B 参数模型可在 6GB 内存中运行。
硬件加速：针对 Apple Silicon、NVIDIA GPU 和 AMD GPU 的优化使其在消费级硬件上表现优异。例如，Apple Silicon 的 Metal 框架支持显著提升了推理速度。
滑动窗口注意力：通过减少 KV 缓存的内存占用，支持更长的上下文窗口，适合处理长文本或复杂任务。
多线程与并行计算：充分利用多核 CPU 和多 GPU 架构，提升推理吞吐量。
内存映射（mmap）：通过零拷贝技术优化模型加载和数据访问，减少 I/O 开销。
Vulkan 优化：2024年底的 Vulkan 后端改进显著提升了跨平台 GPU 性能，尤其在 AMD 和 Intel GPU 上。

8. 与其他框架的比较

特性	llama.cpp	Hugging Face Transformers	MLX (Apple)
编程语言	C/C++	Python	Python/Swift
依赖	无	较多（PyTorch 等）	较少
硬件支持	CPU/GPU（CUDA、Metal、Vulkan 等）	主要 GPU	Apple Silicon 专属
模型格式	GGUF	PyTorch/ONNX	MLX 格式
内存占用	低（量化支持）	高	中等
推理速度	高（尤其 CPU 和 Apple Silicon）	中等（依赖 GPU）	高（Apple Silicon 优化）
易用性	中等（需配置）	高（Python API）	高（简单接口）
多模态支持	实验性	成熟	部分支持

总结：llama.cpp 在低资源设备和跨平台推理方面具有显著优势，适合资源受限或需要本地部署的场景。但在易用性和模型兼容性方面，Hugging Face Transformers 更适合快速开发和 GPU 环境，而 MLX 更专注于 Apple Silicon 生态。

Paragoger衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/9747

什么是llama.cpp

`背景`

`llama.cpp的主要目标`