简介

llm是一个 Rust 编写的在 CPU 上运行的跨平台部署大语言模型的工具。

可以快速地通过命令行调用多种模型进行推断和对话。

截图

安装

安装Rust

Linux用户可以通过命令安装:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

Windows用户可以下载rustup工具安装:

官网链接中寻找适合的版本。

安装llm

使用cargo包管理器安装:

cargo install --git https://github.com/rustformers/llm llm-cli

下载模型

推荐的模型

这些是经过测试的,表现良好的模型。

GPT-2

GPT-NeoX

BLOOM

其他模型

可以参考llm 仓库里的 Getting models 部分。

可以在Huggingface里寻找到ggml模型。

或者参考Reddit LocalLLaMA wiki里的模型。

使用

推断

使用命令行运行,注意替代<path>为模型文件的路径。

llm llama infer -m <path>/ggml-model-q4_0.bin -p "Tell me how cool the Rust programming language is:"

对话

llm llama chat -m <path>/ggml-model-q4_0.bin

模型转换

可以把 llama 模型的权重转换为 llm 可以使用的权重。

# 转换权重为 f16 ggml 格式
python3 scripts/convert-pth-to-ggml.py /path/to/your/models/7B/ 1

# 量化,转换权重为 4-bit ggml 格式
cargo run --release llama quantize /path/to/your/models/7B/ggml-model-f16.bin /path/to/your/models/7B/ggml-model-q4_0.bin q4_0

参考