Spaces:

zhangchenxu
/

NanoV

Runtime error

App Files Files Community

NanoV / README.md

zhangchenxu's picture

update vllm

1337025 17 days ago

|

history blame contribute delete

2.24 kB

A newer version of the Gradio SDK is available: 5.28.0

Upgrade

metadata

title: NanoV
emoji: 🏆
colorFrom: green
colorTo: pink
sdk: gradio
sdk_version: 5.25.0
app_file: app.py
pinned: false
license: mit
short_description: NanoV

vLLM OpenAI 兼容API服务

这个 Hugging Face Space 提供了一个基于 vLLM 的 OpenAI 兼容 API 服务。vLLM 是一个高性能的 LLM 推理引擎，提供了与 OpenAI API 兼容的接口，让你可以使用与 OpenAI 相同的客户端代码来调用开源模型。

特点

提供完全兼容 OpenAI 的 API 接口
支持 Chat Completions API (/v1/chat/completions)
支持 Completions API (/v1/completions)
包含一个简单的控制面板来管理服务

使用方法

控制面板

Space 启动后，会显示一个简单的控制面板，你可以：

启动/停止 vLLM 服务
查看服务状态
查看服务日志
获取 API 测试信息

API 使用

你可以使用任何支持 OpenAI API 的客户端库来调用这个服务。例如，使用官方的 Python 客户端：

from openai import OpenAI

client = OpenAI(
    base_url="https://你的HF_SPACE_URL/v1",
    api_key="你设置的API_KEY（如果有）",
)

completion = client.chat.completions.create(
  model="模型名称",
  messages=[
    {"role": "user", "content": "Hello!"}
  ]
)

print(completion.choices[0].message)

环境变量

你可以在 Space 设置页面中设置以下环境变量来自定义服务：

MODEL_NAME: 要加载的模型名称（默认: "NousResearch/Nous-Hermes-2-Yi-9B"）
API_KEY: API 访问密钥，如果设置了，则需要在请求中提供
API_PORT: API 服务端口（默认: 8000）
GRADIO_PORT: Gradio UI 端口（默认: 7860）

注意事项

首次启动服务时，需要下载模型，这可能需要几分钟时间
请确保选择了足够的 GPU 资源来运行模型
如果模型加载失败，请检查日志并考虑使用更小的模型

支持的 API

Chat Completions API (/v1/chat/completions)
Completions API (/v1/completions)
其他 vLLM 支持的 OpenAI 兼容 API

技术细节

这个 Space 使用 vLLM 的 OpenAI 兼容服务器功能，详情可参考 vLLM 文档。