简介
llm
是一个 Rust 编写的在 CPU 上运行的跨平台部署大语言模型的工具。
可以快速地通过命令行调用多种模型进行推断和对话。
安装
安装Rust
Linux
用户可以通过命令安装:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
Windows
用户可以下载rustup
工具安装:
在官网链接中寻找适合的版本。
安装llm
使用cargo
包管理器安装:
cargo install --git https://github.com/rustformers/llm llm-cli
下载模型
推荐的模型
这些是经过测试的,表现良好的模型。
GPT-2
GPT-NeoX
BLOOM
其他模型
可以参考llm 仓库里的 Getting models 部分。
可以在Huggingface里寻找到ggml
模型。
或者参考Reddit LocalLLaMA wiki里的模型。
使用
推断
使用命令行运行,注意替代<path>
为模型文件的路径。
llm llama infer -m <path>/ggml-model-q4_0.bin -p "Tell me how cool the Rust programming language is:"
对话
llm llama chat -m <path>/ggml-model-q4_0.bin
模型转换
可以把 llama 模型的权重转换为 llm 可以使用的权重。
# 转换权重为 f16 ggml 格式
python3 scripts/convert-pth-to-ggml.py /path/to/your/models/7B/ 1
# 量化,转换权重为 4-bit ggml 格式
cargo run --release llama quantize /path/to/your/models/7B/ggml-model-f16.bin /path/to/your/models/7B/ggml-model-q4_0.bin q4_0