VocalRemover -- сервис для разделения аудио на различные инструменты, а также для анализа различных характеристик (темпа, тональности)
AceStudio -- сервис для синтеза вокаа на основе MIDI и текста песни
Musicfy -- сервис для создания музыки, превращающий голоса в различные инструменты
Suno AI -- сервис для создания музыкальных композиций из текста с вокалом и аккомпаниментом; апишка под нее
SPIN - AI music synthesizer на базе модели MusicGen
Microsoft MUZIC -- opensource проект от Microsoft с моделями, решающими отдельные задачи в анализе и генерации музыки
MidiSwing -- плагин для JetBrains IDE с поддержкой миди
SheetSage -- библиотека от Chris Donahue и др. для автоматической транскрипции музыки в ноты мелодии и аккорды, и дополнительными фишками
AiMidi -- сервис для перевода аудио в MIDI
ILLIAC Suite -- Experimental Music. Composition with an Electronic Computer by Lejaren A. Hiller, Jr., Leonard M. Isaacson; Journal of Music Theory Vol. 3, No. 2 (Nov., 1959)
"Уральские Напевы" -- Р. Х. Зарипов, “Об алгоритмическом описании процесса сочинения музыки”, Докл. АН СССР, 132:6 (1960)
EMOPIA -- распознавание эмоций в музыке
Music Genré Classification -- Deekshith Raya, Vinod Patidar, Yash Khatri, Sai Bhaskar Devatha, 2017
Теорема Котельникова -- Котельников В. А. О пропускной способности эфира и проволоки в электросвязи — Всесоюзный энергетический комитет. // Материалы к I Всесоюзному съезду по вопросам технической реконструкции дела связи и развития слаботочной промышленности, 1933
Spleeter -- Hennequin, Romain & Khlif, Anis & Voituret, Felix & Moussallam, Manuel. (2020). Spleeter: a fast and efficient music source separation tool with pre-trained models. Journal of Open Source Software. 5. 2154. 10.21105/joss.02154. демо на huggingface
DDSP, magenta -- + демо https://storage.googleapis.com/ddsp/index.html
StableAudio -- Zach Evans, CJ Carr, Josiah Taylor, Scott H. Hawley, and Jordi Pons. 2024, Fast Timing-Conditioned Latent Audio Diffusion
MuseGan -- Hao-Wen Dong, Wen-Yi Hsiao, Li-Chia Yang, and YiHsuan Yang. MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment. In AAAI Conference on Artificial Intelligence, pages 34–41, 2018.
Pop Music Transformer (REMI) -- Huang, Y., & Yang, Y. (2020). Pop Music Transformer: Beat-based Modeling and Generation of Expressive Pop Piano Compositions. Proceedings of the 28th ACM International Conference on Multimedia.
Hyperbolic Music Transformer -- Huang, Wenkai & Yu, Yujia & Xu, Haizhou & Su, Zhiwen & Wu, Yu. (2023). Hyperbolic Music Transformer for Structured Music Generation. IEEE Access. PP. 1-1. 10.1109/ACCESS.2023.3257381
SymFormer -- модель девайсов по генерации музыки в символьном домене; https://habr.com/ru/companies/sberdevices/articles/591441/
Maestro -- сервис для генерации музыки на основе SymFormer
DiffSvc -- Liu, Songxiang et al. “DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion.” 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU) (2021): 741-748.
Hybrib Transformers for Music Source Separation -- Rouard, Simon, Francisco Massa, and Alexandre Défossez. "Hybrid transformers for music source separation." ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023.
GigaChat -- https://developers.sber.ru/gigachat/login
AIphoria -- виртуальный музыкант на основе SymFormer
Подборка современных сервисов и стартапов, работающих с ИИ в музыке и аудио, сгруппированы по тематикам. https://github.com/csteinmetz1/ai-audio-startups
- Creation & Production
- Source separation
- Analysis / Recommendation
- Health & Wellbeing
- Radio / Podcast
- Hearing
- Sound detection
- Speech (Transciption, Synthesis, Enhancement & Manipulation)
Список вебсайтов с демо моделей для генерации музыки в аудио, символьном домене и многое другое из смежных задач, сгруппированы по тематикам! https://github.com/affige/genmusic_demo_list
- text-to-music/audio
- accompaniment generation
- performance generation
- singing (style transfer, synthesis, correction, etc.)
- voice (clonning, vocoder, etc.)
- cross-domain (image, video)