Este projeto trás uma estrutura básica de um data lake que armazenará dados de audios vindos do soundcloud.
- Landed : arquivos brutos, que acabaram de chegar;
- Raw : Arquivos otimizados, já em um formato mais estruturado;
- Modeled : Arquivo com agregações, joined e etc;
- Self : Arquivos pronto para uso
- python 3+
- FFmpeg (https://github.com/adaptlearning/adapt_authoring/wiki/Installing-FFmpeg)
- CMU Phinx (https://cmusphinx.github.io/wiki/download/)
- CMU-Sphinx para que usa ubuntu (http://jrmeyer.github.io/asr/2016/01/09/Installing-CMU-Sphinx-on-Ubuntu.html) verificado !
- Speech Recognition com Python: https://realpython.com/python-speech-recognition/
- Classificação de músicas: https://towardsdatascience.com/music-genre-classification-with-python-c714d032f0d8
- Data lake manifesto: https://tdwi.org/articles/2017/10/16/arch-all-data-lake-manifesto-10-best-practices.aspx
- Pipeline de dados na AWS: https://medium.com/@luanoliveira1992/criando-um-pipeline-model-na-aws-sem-sagemaker-727c0fb93aab
- Fundamentos de feature engineering : https://towardsdatascience.com/feature-engineering-for-machine-learning-3a5e293a5114
- Como melhor trabalha com Spark : https://medium.com/teads-engineering/spark-performance-tuning-from-the-trenches-7cbde521cf60
- sudo pip install virtualenv (instalar virtualenv)
- Na pasta do projeto, virtualenv .venv
- source .venv/bin/activate (Ativar ambiente virtual)
- pip install -r requirements.txt
- jupyter notebook
- sudo pip install pipenv
- na pasta do projeto pipenv shell
- pipenv install
- jupyter notebook