装个机
装个机 - 专业电脑重装系统指南教程网站,提供Windows/Mac重装系统教程、一键重装系统工具、U盘启动盘制作方法、PE工具、系统激活工具,助您轻松完成电脑系统安装
llama.cpp 是一个可以让大语言模型在本地电脑运行的推理框架。

llama.cpp 网站截图
.gguf 模型就能直接跑。llama-server 一键启动 HTTP 服务,接口格式和 OpenAI 完全一致。你可以直接把本地模型接入 ChatGPT-Next-Web、LobeChat 等前端,或者拿来跑自己的 RAG 应用。# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
# Nix
nix-shell -p llama.cpp
# 从 HuggingFace 自动下载并运行
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
docker run -v /path/to/models:/models -p 8080:8080 \
ghcr.io/ggml-org/llama.cpp:full \
-m /models/your_model.gguf --port 8080

llama-server -m model.gguf --port 8080 -c 4096 -np 4
-c 4096:上下文长度 4K-np 4:支持 4 个并发请求http://localhost:8080 就能聊天curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"messages":[{"role":"user","content":"你好"}]}'



