File size: 2,239 Bytes
b248825
 
 
 
 
 
 
 
 
 
 
 
 
1337025
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
---
title: NanoV
emoji: 🏆
colorFrom: green
colorTo: pink
sdk: gradio
sdk_version: 5.25.0
app_file: app.py
pinned: false
license: mit
short_description: NanoV
---

# vLLM OpenAI 兼容API服务

这个 Hugging Face Space 提供了一个基于 vLLM 的 OpenAI 兼容 API 服务。vLLM 是一个高性能的 LLM 推理引擎,提供了与 OpenAI API 兼容的接口,让你可以使用与 OpenAI 相同的客户端代码来调用开源模型。

## 特点

- 提供完全兼容 OpenAI 的 API 接口
- 支持 Chat Completions API (/v1/chat/completions)
- 支持 Completions API (/v1/completions)
- 包含一个简单的控制面板来管理服务

## 使用方法

### 控制面板

Space 启动后,会显示一个简单的控制面板,你可以:

1. 启动/停止 vLLM 服务
2. 查看服务状态
3. 查看服务日志
4. 获取 API 测试信息

### API 使用

你可以使用任何支持 OpenAI API 的客户端库来调用这个服务。例如,使用官方的 Python 客户端:

```python
from openai import OpenAI

client = OpenAI(
    base_url="https://你的HF_SPACE_URL/v1",
    api_key="你设置的API_KEY(如果有)",
)

completion = client.chat.completions.create(
  model="模型名称",
  messages=[
    {"role": "user", "content": "Hello!"}
  ]
)

print(completion.choices[0].message)
```

## 环境变量

你可以在 Space 设置页面中设置以下环境变量来自定义服务:

- `MODEL_NAME`: 要加载的模型名称(默认: "NousResearch/Nous-Hermes-2-Yi-9B")
- `API_KEY`: API 访问密钥,如果设置了,则需要在请求中提供
- `API_PORT`: API 服务端口(默认: 8000)
- `GRADIO_PORT`: Gradio UI 端口(默认: 7860)

## 注意事项

- 首次启动服务时,需要下载模型,这可能需要几分钟时间
- 请确保选择了足够的 GPU 资源来运行模型
- 如果模型加载失败,请检查日志并考虑使用更小的模型

## 支持的 API

- Chat Completions API (/v1/chat/completions)
- Completions API (/v1/completions)
- 其他 vLLM 支持的 OpenAI 兼容 API

## 技术细节

这个 Space 使用 vLLM 的 OpenAI 兼容服务器功能,详情可参考 [vLLM 文档](https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html)。