WebGPU:在 Web 浏览器上启用高性能 AI 模型

Chrome 团队最近宣布将在 Chrome 113 中推出 WebGPU,这标志着 Web 作为高性能图形和数据并行计算平台的发展取得了重大里程碑。WebGPU 是一种新的 Web 图形 API,它公开了现代硬件功能并允许在 GPU 上进行渲染和计算操作,类似于 Direct3D 12、Metal 和 Vulkan。

Web LLM 是一个将语言模型聊天直接引入网络浏览器的项目,既能保护隐私,又能提供 GPU 加速。借助 WebGPU,这可以在浏览器内部完成,无需服务器。

Web LLM 利用开源生态系统,以 TVM Unity 项目为基础,支持使用 Python 进行机器学习编译 (MLC)。它在 TVM 中嵌入语言模型的 IRModule,并提供原生动态形状支持,无需填充至最大长度,同时减少计算量和内存使用量。

使用 WebGPU 使 Web LLM 能够充分利用现代硬件功能,从而直接在 Web 浏览器中实现高性能 AI 模型。Web LLM 使用 TensorIR 生成优化程序、使用启发式算法优化轻量级运算符以及使用 int4 量化技术压缩模型权重,这些都有助于高效利用硬件资源。

WebGPU 已经获得许多广泛使用的 WebGL 库的支持,例如 Babylon.js、PlayCanvas、TensorFlow.js 和 Three.js,其他库也正在实现 WebGPU 支持。这意味着使用 WebGPU 可能只需要在代码中更改一行。

Web LLM 是一个令人兴奋的新项目,它将语言模型聊天直接引入网络浏览器,让每个人都能使用 AI 助手,在享受 GPU 加速的同时保护隐私。该项目使用 WebGPU 来加速浏览器内的所有内容,让您无需服务器即可轻松构建个人使用的 AI 助手。

WebGPU:在 Web 浏览器上启用高性能 AI 模型

该项目建立在开源生态系统的基础之上,包括 Hugging Face、LLaMA 和 Vicuna 的模型变体、wasm 和 WebGPU。主要流程基于 Apache TVM Unity(Apache TVM 社区的一项持续开发)构建,以在 TVM 中嵌入语言模型的 IRModule,并提供原生动态形状支持。

Web LLM 是一个令人兴奋的项目,它将语言模型聊天直接引入网络浏览器,提供隐私和性能优势。它建立在开源生态系统之上,大量使用 TVM Unity,并利用 WebGPU 来加速浏览器内的所有内容。开发人员可以试用演示网页来探索这项新技术并构建供个人使用的 AI 助手。

更新:2023 年 5 月 16 日

一个例子是GitHub 上react-llm开发的项目@r2d4。该项目利用 WebGPU(一种公开 GPU 硬件功能的 API)直接在浏览器中运行大型语言模型 (LLM)。

GitHub – r2d4/react-llm:易于使用的无头 React Hooks,使用 WebGPU 在浏览器中运行 LLM……

易于使用的无头 React Hooks 可在浏览器中使用 WebGPU 运行 LLM。与 useLLM() 一样简单。功能:支持……

github.com

React-LLM 封装了一组无头 React Hooks,为开发人员提供了一个简化的界面,用于在 React 应用程序中集成和控制 LLM。该项目包括对自定义系统提示、模型缓存、持久浏览器存储以及增强的用户和助手角色名称自定义的全面支持。

易于使用且用途广泛

React-LLM 的设计理念是简单易用。它提供了广泛的 API 方法,允许开发人员自定义和控制 LLM 的行为。它具有最大令牌数、停止序列以及用户和助手的角色名称选项,使其成为适用于各种应用程序的灵活工具。

此外,react-llm 支持浏览器中对话的持久存储。此功能允许应用程序保存和加载对话历史记录,从而增强聊天机器人或虚拟助手等应用程序的可用性。

模型缓存

为了进一步提高性能,react-llm 提供了模型缓存。模型首次加载后,会缓存在浏览器存储中。这样可以加快后续加载速度,从而提升用户体验。

安装和使用

安装并集成 react-llm 到您的项目中就像安装 npm 包一样简单。API 提供了一个useLLM钩子,它公开了各种功能,例如消息发送、模型状态检查、对话管理等。

引擎盖下

React-LLM 利用 Vicuna 13B 模型,该模型被转换为 Apache TVM 格式以供执行。SentencePiece 标记器(对于文本预处理至关重要)通过 Emscripten 为浏览器编译。Apache TVM 和 MLC Relax 也使用相同的方法。

WebWorker 在主线程之外运行模型,与库捆绑在一起,以防止在密集计算期间阻塞 UI。所有这些组件(包括模型、标记器和 TVM 运行时)都是从 CDN(huggingface)加载的,通过减少初始加载时间进一步提高了性能。

RA/SD 衍生者AI训练营。发布者:chris,转载请注明出处:https://www.shxcj.com/archives/6147

(0)
上一篇 2024-09-20
下一篇 2024-09-20

相关推荐

发表回复

登录后才能评论
本文授权以下站点有原版访问授权 https://www.shxcj.com https://www.2img.ai https://www.2video.cn