SmartVoiceControl

Тема: "Розробка алгоритму голосового керування розумним будинком" Теза: Головною метою є розробка алгоритму розпізнавання голосових команд та впровадження її в автономну комп’ютеризовану систему «Розумний дім». У данній роботі хотілося б зосередитись на локальній обробці даних за рахунок використання нейронні мережі для моделювання акустичних ознак і HMM для декодування послідовності. Локальна обробка потрібна для забезпечення високого рівня безпеки і надійності. Відкритий код проекту сприяє його доступності, прозорості та дозволяє користувачам адаптувати систему під індивідуальні потреби, забезпечуючи широкі можливості для модифікації та удосконалення. Крім того, велику увагу приділено локалізації інтерфейсу, зокрема українською мовою, що робить проект особливо цінним для вітчизняних користувачів. Система керування - це комплексна інфраструктура, яка об'єднує апаратні та програмні рішення для ефективного керування “розумними системами” за допомогою голосового інтерфейсу. Її основні компоненти включають клієнтський інтерфейс, веб-сервіс та мікроконтролери. Клієнтський інтерфейс відповідає за розпізнавання голосових команд користувача та забезпечення взаємодії з веб-сервісом, для мануального або віддаленого контролювання буде впроваджено мобільний застосунок. Цей компонент грає ключову роль у взаємодії з користувачем, забезпечуючи зручний та інтуїтивно зрозумілий інтерфейс. Веб-сервіс є проміжною ланкою між клієнтським інтерфейсом та мікроконтролерами. Апаратно об’єднаний з розпізнавачем голосових команд, вони будуть працювати на одній одноплатній операційній платформі як наприклад Raspberry Pi. Основні розробки будуть вестись на мові програмування Python 3. Попередньо, після захоплення мікрофоном голосового сигналу, будуть використані алгоритми для підсилення голосу, шумозаглушення що сприятиме підвищенню точності обробки голосових команд (наприклад, використання бібліотеки librosa для обробки аудіо). Після цього іде екстракція ознак: MFCC (Mel Frequency Cepstral Coefficients) для перетворення голосових сигналів в ознаки, які будуть ідти на вхід моделі. Буде використана комбінація CNN для моделювання акустичних ознак та HMM для декодування послідовностей. Бібліотеки TensorFlow або PyTorch можуть бути використані для реалізації нейронних мереж, в той час як Pomegranate може бути використана для реалізації HMM. Розпізнаний текст буде аналізуватись рядом скриптів для ассоціювання з доступним функціоналом команд. Для комунікації між веб-сервісом та пристроями “розумного будинку” буде використано протокол MQTT, він ідеально підходить для IoT пристроїв через низьку споживання енергії та високу надійність у комунікації. Мікроконтролер відповідає за виконання команд, отриманих від веб-сервісу, і апаратно контролює роботу усіх приладів безпосередньо “розумного будинку”. Крім того, він відправляє дані про поточний стан системи на веб-сервіс, якщо отримано відповідний запит.

Плановий стек: python3 Raspberry Pi vosk - библиотека для расспозначания речи sounddevice - перехватывает звук с микро и воспроизводит звук на динамики scikit-learn - библиотека ИИ и МЛ, для прогнозирования, для обработки текста pyttsx3 - оффлайн голос

Загальні вимоги до результатів практичного проекту:

Рекомендації які потрібно пропрацювати: метріка якості, щоб оцінювати мій особистий вклад в роботу системи, виконана як записанний матеріал який аналізуєтся на співпадіння та якість розбору після різних змін в базовій робочій версії