Spaces:

zhangchenxu
/

NanoV

Runtime error

App Files Files Community

NanoV / README.md

zhangchenxu

update vllm

1337025 18 days ago

preview code

raw

history blame contribute delete

2.24 kB

	---
	title: NanoV
	emoji: 🏆
	colorFrom: green
	colorTo: pink
	sdk: gradio
	sdk_version: 5.25.0
	app_file: app.py
	pinned: false
	license: mit
	short_description: NanoV
	---

	# vLLM OpenAI 兼容API服务

	这个 Hugging Face Space 提供了一个基于 vLLM 的 OpenAI 兼容 API 服务。vLLM 是一个高性能的 LLM 推理引擎，提供了与 OpenAI API 兼容的接口，让你可以使用与 OpenAI 相同的客户端代码来调用开源模型。

	## 特点

	- 提供完全兼容 OpenAI 的 API 接口
	- 支持 Chat Completions API (/v1/chat/completions)
	- 支持 Completions API (/v1/completions)
	- 包含一个简单的控制面板来管理服务

	## 使用方法

	### 控制面板

	Space 启动后，会显示一个简单的控制面板，你可以：

	1. 启动/停止 vLLM 服务
	2. 查看服务状态
	3. 查看服务日志
	4. 获取 API 测试信息

	### API 使用

	你可以使用任何支持 OpenAI API 的客户端库来调用这个服务。例如，使用官方的 Python 客户端：

	```python
	from openai import OpenAI

	client = OpenAI(
	base_url="https://你的HF_SPACE_URL/v1",
	api_key="你设置的API_KEY（如果有）",
	)

	completion = client.chat.completions.create(
	model="模型名称",
	messages=[
	{"role": "user", "content": "Hello!"}
	]
	)

	print(completion.choices[0].message)
	```

	## 环境变量

	你可以在 Space 设置页面中设置以下环境变量来自定义服务：

	- `MODEL_NAME`: 要加载的模型名称（默认: "NousResearch/Nous-Hermes-2-Yi-9B"）
	- `API_KEY`: API 访问密钥，如果设置了，则需要在请求中提供
	- `API_PORT`: API 服务端口（默认: 8000）
	- `GRADIO_PORT`: Gradio UI 端口（默认: 7860）

	## 注意事项

	- 首次启动服务时，需要下载模型，这可能需要几分钟时间
	- 请确保选择了足够的 GPU 资源来运行模型
	- 如果模型加载失败，请检查日志并考虑使用更小的模型

	## 支持的 API

	- Chat Completions API (/v1/chat/completions)
	- Completions API (/v1/completions)
	- 其他 vLLM 支持的 OpenAI 兼容 API

	## 技术细节

	这个 Space 使用 vLLM 的 OpenAI 兼容服务器功能，详情可参考 [vLLM 文档](https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html)。