A
Реалізація попередньої обробки аудіо для систем розпізнавання
K
Демонстраційний застосунок для використання KeenASR SDK на iOS
S
Фреймворк для розпізнавання мовлення в середовищі SwiftUI
G
Бібліотека для розпізнавання мовлення на мові Go
S
Офлайн-розпізнавання команд для Node.js з підтримкою гарячих слів
V
Системи анонімізації голосу для захисту приватності
A
Адаптивна озвучка тексту з унікальним голосом
W
Оптимізований конвеєр перетворення мовлення на текст
O
Локальне розпізнавання мовлення та автоматичні субтитри прямо в OBS
V
Бібліотека для розпізнавання голосу у ваших React Native застосунках
T
Розпізнавання мовлення за допомогою архітектури Tacotron
A
Донавчання моделей Wav2vec 2.0 для розпізнавання голосу
S
Експериментальна база для тестування систем розпізнавання мови
V
Голосове введення тексту для VRChat
W
Повністю згорткова мережа для перетворення мовлення на текст
U
Нейронний вокодер для генерації високоякісного звуку
V
Автономне розпізнавання мовлення без хмарних сервісів
R
Клонування голосу в реальному часі за п'ять секунд
S
Покращення дифузійної моделі для ембедингів мовців
C
Потужне розширення для генерації аудіо в ComfyUI
D
Сучасна технологія перетворення голосу
A
Колекція інструментів для редагування медіа за допомогою текстових інструкцій
D
Генерація стилізованих жестів за допомогою дифузійних моделей
A
Генерація аудіо за текстом на основі дифузії та мовних моделей
D
Дифузійна модель для ієрархічного перетворення голосу
F
Ефективне підвищення якості аудіо за допомогою однокрокового потокового узгодження
A
Генерація довготривалого наративного аудіо за допомогою великих мовних моделей
D
Синтез співу через дифузійний механізм
F
Аудіокерована анімація обличчя для віртуальних моделей
S
Реалізація моделі SoundCTM для генерації звуку
A
Синтез музики та звукових ефектів через дифузійні моделі Hugging Face
M
Генеративна модель для створення аудіо за текстовим описом
A
База досліджень з розпізнавання та синтезу мовлення
M
Керована генерація музики за допомогою текстових запитів
F
Локальна генерація зображень та музики для Apple Silicon
A
Повний цикл навчання та донавчання моделей генерації аудіо
L
Перетворюйте власне бачення пісень на візуальний контент
R
Інструменти для маніпуляції аудіо за допомогою Riffusion
E
Потужна локальна ШІ-станція для роботи з графікою та кодом
R
Генерація акустичних імпульсних відгуків за допомогою дифузії
T
Озвучення тексту для ваших мобільних застосунків
S
Швидке та точне розпізнавання мовлення для ваших завдань
E
Практичні приклади роботи з векторними базами даних
S
Універсальний клієнт для керування персональним голосовим асистентом
S
Алгоритмічний набір для розпізнавання мови та тексту
A
Добірка ресурсів для створення приватних голосових асистентів
B
Синтез мовлення для доступності цифрового контенту
V
Голосовий асистент з відкритим кодом для настільних систем
S
Гнучкий фреймворк для впровадження голосових функцій в Android
V
Голосовий асистент на базі Whisper та ChatGPT