Spaces:
Runtime error
Runtime error
title: NanoV | |
emoji: 🏆 | |
colorFrom: green | |
colorTo: pink | |
sdk: gradio | |
sdk_version: 5.25.0 | |
app_file: app.py | |
pinned: false | |
license: mit | |
short_description: NanoV | |
# vLLM OpenAI 兼容API服务 | |
这个 Hugging Face Space 提供了一个基于 vLLM 的 OpenAI 兼容 API 服务。vLLM 是一个高性能的 LLM 推理引擎,提供了与 OpenAI API 兼容的接口,让你可以使用与 OpenAI 相同的客户端代码来调用开源模型。 | |
## 特点 | |
- 提供完全兼容 OpenAI 的 API 接口 | |
- 支持 Chat Completions API (/v1/chat/completions) | |
- 支持 Completions API (/v1/completions) | |
- 包含一个简单的控制面板来管理服务 | |
## 使用方法 | |
### 控制面板 | |
Space 启动后,会显示一个简单的控制面板,你可以: | |
1. 启动/停止 vLLM 服务 | |
2. 查看服务状态 | |
3. 查看服务日志 | |
4. 获取 API 测试信息 | |
### API 使用 | |
你可以使用任何支持 OpenAI API 的客户端库来调用这个服务。例如,使用官方的 Python 客户端: | |
```python | |
from openai import OpenAI | |
client = OpenAI( | |
base_url="https://你的HF_SPACE_URL/v1", | |
api_key="你设置的API_KEY(如果有)", | |
) | |
completion = client.chat.completions.create( | |
model="模型名称", | |
messages=[ | |
{"role": "user", "content": "Hello!"} | |
] | |
) | |
print(completion.choices[0].message) | |
``` | |
## 环境变量 | |
你可以在 Space 设置页面中设置以下环境变量来自定义服务: | |
- `MODEL_NAME`: 要加载的模型名称(默认: "NousResearch/Nous-Hermes-2-Yi-9B") | |
- `API_KEY`: API 访问密钥,如果设置了,则需要在请求中提供 | |
- `API_PORT`: API 服务端口(默认: 8000) | |
- `GRADIO_PORT`: Gradio UI 端口(默认: 7860) | |
## 注意事项 | |
- 首次启动服务时,需要下载模型,这可能需要几分钟时间 | |
- 请确保选择了足够的 GPU 资源来运行模型 | |
- 如果模型加载失败,请检查日志并考虑使用更小的模型 | |
## 支持的 API | |
- Chat Completions API (/v1/chat/completions) | |
- Completions API (/v1/completions) | |
- 其他 vLLM 支持的 OpenAI 兼容 API | |
## 技术细节 | |
这个 Space 使用 vLLM 的 OpenAI 兼容服务器功能,详情可参考 [vLLM 文档](https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html)。 |