Chrome 团队最近宣布将在 Chrome 113 中推出 WebGPU，这标志着 Web 作为高性能图形和数据并行计算平台的发展取得了重大里程碑。WebGPU 是一种新的 Web 图形 API，它公开了现代硬件功能并允许在 GPU 上进行渲染和计算操作，类似于 Direct3D 12、Metal 和 Vulkan。

Web LLM 是一个将语言模型聊天直接引入网络浏览器的项目，既能保护隐私，又能提供 GPU 加速。借助 WebGPU，这可以在浏览器内部完成，无需服务器。

Web LLM 利用开源生态系统，以 TVM Unity 项目为基础，支持使用 Python 进行机器学习编译 (MLC)。它在 TVM 中嵌入语言模型的 IRModule，并提供原生动态形状支持，无需填充至最大长度，同时减少计算量和内存使用量。

使用 WebGPU 使 Web LLM 能够充分利用现代硬件功能，从而直接在 Web 浏览器中实现高性能 AI 模型。Web LLM 使用 TensorIR 生成优化程序、使用启发式算法优化轻量级运算符以及使用 int4 量化技术压缩模型权重，这些都有助于高效利用硬件资源。

WebGPU 已经获得许多广泛使用的 WebGL 库的支持，例如 Babylon.js、PlayCanvas、TensorFlow.js 和 Three.js，其他库也正在实现 WebGPU 支持。这意味着使用 WebGPU 可能只需要在代码中更改一行。

Web LLM 是一个令人兴奋的新项目，它将语言模型聊天直接引入网络浏览器，让每个人都能使用 AI 助手，在享受 GPU 加速的同时保护隐私。该项目使用 WebGPU 来加速浏览器内的所有内容，让您无需服务器即可轻松构建个人使用的 AI 助手。

该项目建立在开源生态系统的基础之上，包括 Hugging Face、LLaMA 和 Vicuna 的模型变体、wasm 和 WebGPU。主要流程基于 Apache TVM Unity（Apache TVM 社区的一项持续开发）构建，以在 TVM 中嵌入语言模型的 IRModule，并提供原生动态形状支持。

Web LLM 是一个令人兴奋的项目，它将语言模型聊天直接引入网络浏览器，提供隐私和性能优势。它建立在开源生态系统之上，大量使用 TVM Unity，并利用 WebGPU 来加速浏览器内的所有内容。开发人员可以试用演示网页来探索这项新技术并构建供个人使用的 AI 助手。