Spaces:

zhangchenxu
/

NanoV

Runtime error

App Files Files Community

zhangchenxu commited on 17 days ago

Commit

1337025

1 Parent(s): b248825

update vllm

Browse files

Files changed (4) hide show

README.md +68 -1
app.py +145 -4
packages.txt +1 -0
requirements.txt +6 -0

README.md CHANGED Viewed

@@ -11,4 +11,71 @@ license: mit
 short_description: NanoV
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 short_description: NanoV
 ---
+# vLLM OpenAI 兼容API服务
+这个 Hugging Face Space 提供了一个基于 vLLM 的 OpenAI 兼容 API 服务。vLLM 是一个高性能的 LLM 推理引擎，提供了与 OpenAI API 兼容的接口，让你可以使用与 OpenAI 相同的客户端代码来调用开源模型。
+## 特点
+- 提供完全兼容 OpenAI 的 API 接口
+- 支持 Chat Completions API (/v1/chat/completions)
+- 支持 Completions API (/v1/completions)
+- 包含一个简单的控制面板来管理服务
+## 使用方法
+### 控制面板
+Space 启动后，会显示一个简单的控制面板，你可以：
+1. 启动/停止 vLLM 服务
+2. 查看服务状态
+3. 查看服务日志
+4. 获取 API 测试信息
+### API 使用
+你可以使用任何支持 OpenAI API 的客户端库来调用这个服务。例如，使用官方的 Python 客户端：
+```python
+from openai import OpenAI
+client = OpenAI(
+    base_url="https://你的HF_SPACE_URL/v1",
+    api_key="你设置的API_KEY（如果有）",
+)
+completion = client.chat.completions.create(
+  model="模型名称",
+  messages=[
+    {"role": "user", "content": "Hello!"}
+  ]
+)
+print(completion.choices[0].message)
+```
+## 环境变量
+你可以在 Space 设置页面中设置以下环境变量来自定义服务：
+- `MODEL_NAME`: 要加载的模型名称（默认: "NousResearch/Nous-Hermes-2-Yi-9B"）
+- `API_KEY`: API 访问密钥，如果设置了，则需要在请求中提供
+- `API_PORT`: API 服务端口（默认: 8000）
+- `GRADIO_PORT`: Gradio UI 端口（默认: 7860）
+## 注意事项
+- 首次启动服务时，需要下载模型，这可能需要几分钟时间
+- 请确保选择了足够的 GPU 资源来运行模型
+- 如果模型加载失败，请检查日志并考虑使用更小的模型
+## 支持的 API
+- Chat Completions API (/v1/chat/completions)
+- Completions API (/v1/completions)
+- 其他 vLLM 支持的 OpenAI 兼容 API
+## 技术细节
+这个 Space 使用 vLLM 的 OpenAI 兼容服务器功能，详情可参考 [vLLM 文档](https://docs.vllm.ai/en/latest/serving/openai_compatible_server.html)。

app.py CHANGED Viewed

@@ -1,7 +1,148 @@
 import gradio as gr
-def greet(name):
-    return "Hello " + name + "!!"
-demo = gr.Interface(fn=greet, inputs="text", outputs="text")
-demo.launch()

+import os
+import sys
 import gradio as gr
+from subprocess import Popen, PIPE
+# 设置环境变量
+MODEL_NAME = os.environ.get("MODEL_NAME", "NousResearch/Nous-Hermes-2-Yi-9B")
+API_PORT = int(os.environ.get("API_PORT", 8000))
+GRADIO_PORT = int(os.environ.get("GRADIO_PORT", 7860))
+# vLLM server进程
+vllm_process = None
+def start_vllm_server():
+    global vllm_process
+    if vllm_process is not None:
+        return "vLLM 服务已经在运行"
+    # 构建启动命令
+    cmd = [
+        "vllm",
+        "serve",
+        MODEL_NAME,
+        "--host", "0.0.0.0",
+        "--port", str(API_PORT),
+        "--dtype", "auto",
+        "--max-model-len", "2048",  # 设置模型最大长度
+        "--gpu-memory-utilization", "0.9"  # 使用90%的GPU内存
+    ]
+    # 是否启用API密钥
+    api_key = os.environ.get("API_KEY", "")
+    if api_key:
+        cmd.extend(["--api-key", api_key])
+    # 打印启动命令
+    print(f"启动命令: {' '.join(cmd)}")
+    # 启动vLLM服务
+    try:
+        vllm_process = Popen(cmd, stdout=PIPE, stderr=PIPE, text=True)
+        return "vLLM 服务器已启动！请等待模型加载完成..."
+    except Exception as e:
+        return f"启动vLLM服务器时出错: {str(e)}"
+def stop_vllm_server():
+    global vllm_process
+    if vllm_process is None:
+        return "vLLM 服务未运行"
+    vllm_process.terminate()
+    vllm_process = None
+    return "vLLM 服务已停止"
+def check_server_status():
+    if vllm_process is None:
+        return "未运行"
+    return_code = vllm_process.poll()
+    if return_code is None:
+        return "运行中"
+    else:
+        return f"已停止 (返回码: {return_code})"
+def get_server_logs():
+    if vllm_process is None:
+        return "服务未运行，无日志可显示"
+    # 从进程读取输出
+    output = ""
+    while True:
+        line_out = vllm_process.stdout.readline()
+        line_err = vllm_process.stderr.readline()
+        if not line_out and not line_err:
+            break
+        if line_out:
+            output += line_out + "\n"
+        if line_err:
+            output += "[ERROR] " + line_err + "\n"
+    return output if output else "暂无新日志"
+def serve_test_ui():
+    """提供一个简单的测试UI"""
+    with gr.Blocks(title="vLLM OpenAI兼容API服务") as demo:
+        with gr.Row():
+            with gr.Column():
+                gr.Markdown("# vLLM OpenAI 兼容API服务控制面板")
+                with gr.Row():
+                    start_btn = gr.Button("启动服务", variant="primary")
+                    stop_btn = gr.Button("停止服务", variant="stop")
+                status_text = gr.Textbox(label="服务状态", value="未运行", interactive=False)
+                refresh_btn = gr.Button("刷新状态")
+                logs_text = gr.Textbox(label="服务日志", interactive=False, lines=15)
+                logs_refresh_btn = gr.Button("刷新日志")
+                # API测试部分
+                gr.Markdown("## API 信息")
+                api_info = gr.Markdown(f"""
+                API地址: `http://localhost:{API_PORT}/v1/...`
+                Hugging Face Space公开URL: 部署后查看Space详情获取
+                当前加载模型: `{MODEL_NAME}`
+                API密钥: `{os.environ.get("API_KEY", "未设置")}`
+                ## 测试命令
+                ```python
+                from openai import OpenAI
+                client = OpenAI(
+                    base_url="http://你的HF_SPACE_URL/v1",
+                    api_key="{os.environ.get("API_KEY", "None")}",
+                )
+                completion = client.chat.completions.create(
+                  model="{MODEL_NAME}",
+                  messages=[
+                    {"role": "user", "content": "Hello!"}
+                  ]
+                )
+                print(completion.choices[0].message)
+                ```
+                """)
+        # 设置事件处理
+        start_btn.click(start_vllm_server, inputs=[], outputs=status_text)
+        stop_btn.click(stop_vllm_server, inputs=[], outputs=status_text)
+        refresh_btn.click(check_server_status, inputs=[], outputs=status_text)
+        logs_refresh_btn.click(get_server_logs, inputs=[], outputs=logs_text)
+        # 页面加载时自动启动服务
+        demo.load(start_vllm_server, inputs=[], outputs=status_text)
+    return demo
+# 启动测试UI
+if __name__ == "__main__":
+    # 创建并启动UI
+    demo = serve_test_ui()
+    demo.queue().launch(server_name="0.0.0.0", server_port=GRADIO_PORT, share=True)

packages.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ build-essential

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+vllm>=0.8.2
+gradio>=4.0.0
+openai>=1.0.0
+pydantic>=2.0.0
+fastapi>=0.100.0
+uvicorn>=0.22.0