llama.cpp 下载和安装备注
这次主要是给 Windows 上的 NVIDIA 显卡装 llama.cpp,先把自己的环境记一下:
Windows x64RTX 3070NVIDIA 显卡8GB VRAM下载 release 的时候,优先选这两个包:
llama-bxxxx-bin-win-cuda-12.4-x64.zipcudart-llama-bin-win-cuda-12.4-x64.zip第一个是 llama.cpp 的程序本体,里面一般会有这些东西:
llama-cli.exellama-server.exeggml-cuda.dllggml-base.dllggml-cpu-*.dll第二个是 CUDA 版本运行时需要的 CUDA runtime DLL。有些电脑已经装了完整 CUDA Toolkit,可能用不到这个包,但是为了少折腾缺 DLL 的问题,还是一起下了比较省心。两个包解压到同一个目录就行。
不要下载这些:
Source codeWindows arm64Windows x64 CPUWindows x64 VulkanWindows x64 SYCLWindows x64 HIPLinux / macOSCUDA 13,除非 NVIDIA 驱动 >= 580选择时其实就按这个判断:
NVIDIA 显卡 → 选 CUDARTX 3070 → 优先 CUDA 12.4Windows 普通电脑 → 选 x64,不选 arm64想用 GPU 加速 → 不选 CPU 版安装过程也不用搞复杂:
1. 新建目录:D:\llama-new2. 把两个 zip 解压到同一个目录3. 不要混用旧版本 exe / dll4. 模型文件可以继续放在 D:\llama\models5. 先测试 llama-cli.exe 和 llama-server.exe 是否正常如果 Windows 把下载文件锁住了,可以用 PowerShell 解除一下:
Get-ChildItem D:\llama-new -Recurse -File | Unblock-File然后先测版本,不要上来就直接跑模型:
cd D:\llama-new.\llama-cli.exe --version.\llama-server.exe --version能正常输出版本后,再跑模型:
.\llama-server.exe -m D:\llama\models\Qwen3.5-35B-A3B-Q4_K_M.gguf --reasoning-budget 0最后几个注意点记一下:
同一个 release 的 llama zip 和 cudart zip 要配套使用。不要把新版 exe 和旧版 ggml-cuda.dll 混在一起。Latest 不是 LTS,只是最新版;出问题可以回退前一个 bxxxx 版本。