llama.cpp Windows CUDA 安装配置

llama.cpp 下载和安装备注

这次主要是给 Windows 上的 NVIDIA 显卡装 llama.cpp，先把自己的环境记一下：

1
Windows x64
2
RTX 3070
3
NVIDIA 显卡
4
8GB VRAM

下载 release 的时候，优先选这两个包：

1
llama-bxxxx-bin-win-cuda-12.4-x64.zip
2
cudart-llama-bin-win-cuda-12.4-x64.zip

第一个是 llama.cpp 的程序本体，里面一般会有这些东西：

1
llama-cli.exe
2
llama-server.exe
3
ggml-cuda.dll
4
ggml-base.dll
5
ggml-cpu-*.dll

第二个是 CUDA 版本运行时需要的 CUDA runtime DLL。有些电脑已经装了完整 CUDA Toolkit，可能用不到这个包，但是为了少折腾缺 DLL 的问题，还是一起下了比较省心。两个包解压到同一个目录就行。

不要下载这些：

1
Source code
2
Windows arm64
3
Windows x64 CPU
4
Windows x64 Vulkan
5
Windows x64 SYCL
6
Windows x64 HIP
7
Linux / macOS
8
CUDA 13，除非 NVIDIA 驱动 >= 580

选择时其实就按这个判断：

1
NVIDIA 显卡 → 选 CUDA
2
RTX 3070 → 优先 CUDA 12.4
3
Windows 普通电脑 → 选 x64，不选 arm64
4
想用 GPU 加速 → 不选 CPU 版

安装过程也不用搞复杂：

1
1. 新建目录：D:\llama-new
2
2. 把两个 zip 解压到同一个目录
3
3. 不要混用旧版本 exe / dll
4
4. 模型文件可以继续放在 D:\llama\models
5
5. 先测试 llama-cli.exe 和 llama-server.exe 是否正常

如果 Windows 把下载文件锁住了，可以用 PowerShell 解除一下：

1
Get-ChildItem D:\llama-new -Recurse -File | Unblock-File

然后先测版本，不要上来就直接跑模型：

1
cd D:\llama-new
2
.\llama-cli.exe --version
3
.\llama-server.exe --version

能正常输出版本后，再跑模型：

1
.\llama-server.exe -m D:\llama\models\Qwen3.5-35B-A3B-Q4_K_M.gguf --reasoning-budget 0

最后几个注意点记一下：

1
同一个 release 的 llama zip 和 cudart zip 要配套使用。
2
不要把新版 exe 和旧版 ggml-cuda.dll 混在一起。
3
Latest 不是 LTS，只是最新版；出问题可以回退前一个 bxxxx 版本。