ten / README.md
3v324v23's picture
Fix TEN-Agent for HuggingFace Space: Replace Go server with Python wrapper
588adc0
metadata
title: TEN Agent
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: docker
sdk_version: latest
app_port: 7860
app_file: app.py
pinned: false

TEN Agent banner

Follow on X Discussion posts Commits Issues closed PRs Welcome GitHub license

TEN-Agent на Hugging Face Space

Это адаптированная версия TEN-Agent для работы на платформе Hugging Face Spaces.

Описание

TEN-Agent - это разговорный голосовой AI-агент, работающий на базе фреймворка TEN. Он интегрирует различные LLM модели, включая Deepseek, Gemini, OpenAI, технологии RTC и другие инструменты.

Особенности

  • 🗣️ Голосовое общение: Интеграция с ASR (распознавание речи) и TTS (синтез речи)
  • 👀 Зрение: Обработка и анализ изображений с камеры
  • 🧠 Различные LLM: Поддержка OpenAI, Gemini, DeepSeek и других
  • 🔗 Расширения: Модульная архитектура с возможностью добавления новых функций

Метод запуска (ВАЖНО!)

Для решения проблем с запуском в Hugging Face Space, мы используем:

  1. Python API Wrapper вместо оригинального Go-сервера
  2. Хранение всех файлов в директории /tmp/ten_user
  3. Запуск через app.py, а не через оригинальные скрипты

Эта версия специально адаптирована для Hugging Face Space и решает проблемы с правами доступа!

Настройка

В интерфейсе необходимо настроить следующие API ключи:

  1. OpenAI API Key: Для текстовой обработки
  2. Deepgram API Key: Для распознавания речи
  3. ElevenLabs API Key: Для генерации голоса
  4. Agora App ID и App Certificate: Для работы с RTC

Графы

В системе предустановлены два графа:

  1. Voice Agent: Голосовой агент с OpenAI и ElevenLabs
  2. Chat Agent: Текстовый чат с OpenAI

Как использовать

  1. Дождитесь полной загрузки интерфейса
  2. Нажмите на кнопку "Открыть TEN Agent UI"
  3. В новой вкладке настройте API ключи
  4. Выберите нужный график и начните общение с агентом

Ограничения

В текущей версии на Hugging Face Space имеются следующие ограничения:

  • Ограниченная производительность веб-интерфейса
  • Отсутствие постоянного хранилища для загружаемых файлов
  • Некоторые функции могут работать медленнее, чем в локальной установке

Запуск локально

Для локального запуска полной версии следуйте инструкциям в официальном репозитории.

Доступные функции

  • Голосовой агент: Взаимодействие с ИИ через голос
  • Чат-агент: Текстовое взаимодействие с ИИ
  • Интеграция с различными LLM: OpenAI, Gemini, Deepseek и другие
  • Мультимодальные возможности: Анализ изображений, интерпретация голоса и другие функции

Технические детали

Этот Space использует свой собственный метод запуска через Python-обертку:

python3 app.py

Ссылки