metadata
title: TEN Agent
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: docker
sdk_version: latest
app_port: 7860
app_file: app.py
pinned: false
TEN-Agent на Hugging Face Space
Это адаптированная версия TEN-Agent для работы на платформе Hugging Face Spaces.
Описание
TEN-Agent - это разговорный голосовой AI-агент, работающий на базе фреймворка TEN. Он интегрирует различные LLM модели, включая Deepseek, Gemini, OpenAI, технологии RTC и другие инструменты.
Особенности
- 🗣️ Голосовое общение: Интеграция с ASR (распознавание речи) и TTS (синтез речи)
- 👀 Зрение: Обработка и анализ изображений с камеры
- 🧠 Различные LLM: Поддержка OpenAI, Gemini, DeepSeek и других
- 🔗 Расширения: Модульная архитектура с возможностью добавления новых функций
Метод запуска (ВАЖНО!)
Для решения проблем с запуском в Hugging Face Space, мы используем:
- Python API Wrapper вместо оригинального Go-сервера
- Хранение всех файлов в директории
/tmp/ten_user
- Запуск через app.py, а не через оригинальные скрипты
Эта версия специально адаптирована для Hugging Face Space и решает проблемы с правами доступа!
Настройка
В интерфейсе необходимо настроить следующие API ключи:
- OpenAI API Key: Для текстовой обработки
- Deepgram API Key: Для распознавания речи
- ElevenLabs API Key: Для генерации голоса
- Agora App ID и App Certificate: Для работы с RTC
Графы
В системе предустановлены два графа:
- Voice Agent: Голосовой агент с OpenAI и ElevenLabs
- Chat Agent: Текстовый чат с OpenAI
Как использовать
- Дождитесь полной загрузки интерфейса
- Нажмите на кнопку "Открыть TEN Agent UI"
- В новой вкладке настройте API ключи
- Выберите нужный график и начните общение с агентом
Ограничения
В текущей версии на Hugging Face Space имеются следующие ограничения:
- Ограниченная производительность веб-интерфейса
- Отсутствие постоянного хранилища для загружаемых файлов
- Некоторые функции могут работать медленнее, чем в локальной установке
Запуск локально
Для локального запуска полной версии следуйте инструкциям в официальном репозитории.
Доступные функции
- Голосовой агент: Взаимодействие с ИИ через голос
- Чат-агент: Текстовое взаимодействие с ИИ
- Интеграция с различными LLM: OpenAI, Gemini, Deepseek и другие
- Мультимодальные возможности: Анализ изображений, интерпретация голоса и другие функции
Технические детали
Этот Space использует свой собственный метод запуска через Python-обертку:
python3 app.py