/favorite-datascience

Um repositório de Ciência de Dados para facilitar sua busca por conhecimento.

The Catcher in the Data Science 💻

Um repositório de Ciência de Dados para facilitar os estudos.

[AVISO] Os links citados aqui foram extraidos a partir de vários sites e são para uso de estudo, estou compartilhando para que possam assim como eu aprender, espero não ter infrigido nenhum direito autoral; e caso seu site, repositório ou qualquer outro link esteja aqui e o dono não gostaria que estivesse, por favor entre em contato para que possa retirar !AGRADEÇO A COMPREENSÃO!


Índice


Motivação

Esta parte é para Jovens Padawans em Ciência de Dados

Este é um repositório de atalhos para começar a estudar **Ciência de Dados **.

Um adendo importante é que pretendo focar na área de segurança. Então neste reposiório terei uma parte onde deixarei alguns links e informativos voltados a Segurança da Informação.

Começamos com um O que é Ciência de Dados?. Leituras básicas para você compreender mais sobre o que é Ciência de Dados e o que devo estudar para ser um profissinal desejado pelas empresas.

Os próximos passos estão separados em Cursos (MOOC´s), para aprendizados; Conjunto de Dados para estudo; Blogs que reunem os temas mais quentes e atualizados da área;links de computação para conhecimento geral; links do Youtube voltados aos melhores cursos mencionados pela comunidade; ferramentas para produção de análise; revistas onlines; links de livros para estudo e para comprar; sites que reuném competições para aumentar as skills de Cientista de Dados; Tutoriais de ferramentas principais; Algumas das melhores listas e repositórios para estudo de Ciência de Dados; links de pesquisa.

A ideia da lista não é fazer com que eu seja um Cientista de Dados Unicórnio, mas quando eu for um Cientista de Dados eu tenha um No hall de tudo que engloba a área, e possa conversar com os diversos profissionais envolvidos na área de forma que consiga definir os melhores projetos e approaches ao qual virei a trabalhar.

Foi reunido aqui referências que ao longo dos estudos foram aparecendoe de pesquisas diversas para facilitar os estudos e o entendimento. Não é um passo a passo para se tornar um Cientista de Dados, mas sim serve como um Guia para aqueles que buscam conhecimento na área, e um repositório para fácil acesso sem ficar com seu navegador lotado de favoritos desorganizados.

Por isso segue uma estrutura onde abordarei sobre:

  • Data Engineer
  • Data Scientist
  • Machine Learning Engineer

Data Engineer Responsável por pegar os dados crus de várias fontes e colocar os dados num Data Lake, um banco de dados onde outros membros da equipe vão acessar. Responsável por trazer, tratar e disponibilizar os dados de diversas fontes em um único lugar para a equipe. Em alguns lugares conhecido como Big Data Developer, que seria um Data Engineer, alguém que vai disponibilizar os dados, mas que tem conhecimento em Big Data, ou seja, tem conhecimento de programas que vão trabalhar com grandes conjuntos de dados como o Apache Spark ou o Apache Hadoop. A função do Data Lake é apenas para armazenar os dados, o tratamento será feito no momento da leitura dos dados. A ideia do Data Lake é porque um Data Warehouse tem dados tratados e limpos, seria mais demorado e consequentemente perderia dados/valor. Uma arquitetura de Data Pipeline suporta batch e processing e real-time. Em se falar de sistema distribuído, não necessariamente estamos falando apenas da arquitetura Hadoop.

Data Scientist Responsável por pegar os dados disponibilizados pelo Data Engineer e racionalizar esses dados. Pegar os dados e criar modelos de Machine Learning para resolver os problemas. Criar Modelos de Previsão ou Algoritmos de Classificação para resolver algumas coisas. Pegas as informações que provavelmente estão dentro de um Data Lake, e o Data Scientist vai racionalizar essas coisas, vai racionalizar esses modelos e vai tentar encontrar o melhor modelo possível para melhorar os resultados. É o cara que vai ficar tentando racionalizar os Dados, pensar nas melhores soluções e tentar resolver os problemas.

Machine Learning Engineer Ele vem para colocar o modelo que o Data Scientist criou em Produção. Basicamente pega o modelo que o Data Scientist e coloca isso de uma forma escalável


Introdutório da Área

Link de Ferramentas a se aprender: roteiro do desenvolvedor

Guia: Guia: Como contribuir em Open Source

Primeiro Aprenda Python:

Não precisa conhecer o Python no modo PRO, por exemplo, mas para entrar nesse mundo é preciso certos conhecimentos básicos:

Frameworks Python: Falcon, Starlette (fastapi), Quart, Python on Wheels, weppy, morepath.

Segundo Prepare o PC:

Sugiro o Anaconda Navigator para quem está iniciando os estudos nesse ramo. É Open Source para as linguagens de programação Python e R. E tem todas as ferramentas necessárias.

Terceiro Bibliotecas:

A seguir, algumas bibliotecas voltadas ao estudo em Ciência de Dados. Existem várias bibliotecas que podem ser utilizadas, facilitando a análise de dados. Algumas bibliotecas must-have para aprendizado:

  • Numpy - Biblioteca pra arrays e funções matemáticas.
  • Matplotlib - Para plotagem de gráficos e visualização de dados.
  • OpenCV - Para visualização e edição de imagens via Python.
  • Virtualenv - É uma ferramenta para criar ambientes Python isolados. O problema básico a ser resolvido é uma das dependências e versões e indiretamente permissões.
  • Pandas - É uma biblioteca Open Source, licenciada pelo BSD, que fornece estruturas de dados de alto desempenho e fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python.
  • CharmPy - É uma estrutura de programação paralela e distribuída de alto nível com uma API simples e poderosa, baseada em objetos migráveis do Python e invocação remota de métodos; construído em cima de um sistema de tempo de execução adaptável C / C ++ que fornece velocidade, escalabilidade e balanceamento dinâmico de carga.
  • Pip - É um sistema de gerenciamento de pacotes usado para instalar e gerenciar pacotes de software escritos na linguagem de programação Python.
  • SciPy - É uma biblioteca Open Source em linguagem Python que foi feita para matemáticos, cientistas e engenheiros.
  • Urllib - É um módulo Python para buscar URLs.
  • Beautiful Soup - É um pacote Python para analisar documentos HTML e XML.
  • Papermill - Uma ferramenta para parametrizar, executar e analisar os Jupyter Notebooks.
  • Nteract - É uma ferramenta dinâmica para dar flexibilidade ao escrever código, explorar dados e criar texto para compartilhar insights sobre os dados.
  • RISE - Extensão de apresentação de slides "Live" Reveal.js Jupyter / IPython.
  • Scikit-learn - Biblioteca em Python com tudo quanto é tipo de algoritmo.

Observação: Para quem pretende lidar com redes neurais/Deep Learning, é uma outra trilha. Existem quatro grandes frameworks: TensorFlow, Keras, PyTorch e Theano. Sendo TensorFolw o mais conhecido e utilizado.

Quarto TensorFlow:

Primeiro conheça o Playground Tensorflow

Depois de ler esse material, é hora da instalação:

  • Instale o CUDA Toolkit, e cheque se as variáveis do sistema estão corretas.
  • Instale os drivers do CUDA Toolkit
  • Instale o cuDNN
  • Instale o TensorFlow, versão CPU ou GPU (de preferência tenha só uma instalação)

Quando forem instalar, sigam o passo-a-passo do próprio TensorFlow

Um adendo: como podem perceber, o foco é com NVIDIA. Em relação a GPU AMD, eu desconheço.

Instalou? Testou? Rodou? Agora não sabe pode onde começar? Segue dicas:

Nos tutoriais isso fica claro, mas eu reforço: aprenda a usar o TensorBoard, gerenciador e visualizador das redes neurais do TensorFlow. Até salvar o estado atual da rede para recarregar depois é possível:

Quarto: Algumas coisas mais

Dicas Valiosas Segue abaixo algumas dicas para você poder ir trilhando seu caminho :

  1. Conheça a trilha feita por Leonardo Ferreira que em 1 ano e meio se tornou cientista de dados e está na posição 30 mundial como cientista de dados Kaggle.
  2. Organize seus estudos e não misture ou tente absorver muitos os ensinamentos.
  3. Tenha perfis no Linkedin, GitHub, Kaggle e Hacker Rank. Possua uma conta no Twitter developer para mineração de texto.
  4. Aprofunde-se bebendo ensinamento de varias fontes! exemplo: ao estudar Python, leia e-books e diversos outros materiais de diversas fontes pois cada curso possui uma didática diferente e se você "empacar" em alguma matéria ok, é comum: busque outras didáticas até entender.
  5. Se quiser e puder, invista em cursos pagos e especializações..
  6. Utilize e aprenda com mapas conceituais.

Meio que obrigatoriamente, entenda:

  • Modelagem Preditiva.
  • Naive Bayes.
  • Análise de Séries Temporais e Visualização.
  • Análise exploratória dos Dados.
  • Estatística.
  • Análise univariada.
  • Análise bivariada.
  • Gráficos para quando e como utilizar.
  • Variáveis Qualitativas e Quantitativas.
  • Requisitos básicos matemáticos..
  • Noções de otimização analítica e numérica.
  • Conheça ferramentas para extração de dados na web.
  • Básico de álgebra linear, autovetores, autovalores, mudanças de bases, entre outros.
  • Básico de probabilidade e estatística: probabilidade condicional, fórmulas básicas, distribuições mais comuns, métricas básicas, regressão, rˆ2, p-valor, inferência, entre outros.
  • Vale saber o mínimo que seja sobre: Servidor Amazon AWS e Amazon QuickSight e Microsoft Power BI.
  • E também: version control, markdown, git, GitHub, R e RStudio.

Como qualquer coisa que você queira aprender, você deve se envolver com ela, e uma dica sempre é não tente entender tudo de uma vez, vá com calma. Frequente as comunidades. A comunidade do Python no Brasil é uma das mais fortes e ativas que já vi.

E pronto: esse é o Pacotão Introdutório da Área. Agora você está apto a começar a experimentar com a área.


Observações:

  • O roteiro acima não é o único e nem necessariamente o melhor caminho para se aprender; ele reflete o que eu pretendo adquirir como conhecimento e tenho anotado em encontros e palestras e conversas em minha trajetória na área.

Lembrem-se!

Copiar tudo do StackOverflow, não te faz entender nada, apenas te torna um bom copiador!


O que é Ciência de Dados?

Segue abaixo uma lista de sites que dispõe de uma introdução sobre o que é Ciência de Dados:


Curso Online Aberto e Massivo (MOOC)

Segue abaixo uma lista de sites que dispõe de uma variedade cursos pagos e gratuitos:

  • edX [EN-US] - Aprendizagem flexível de programação.
  • Coursera [EN-US] - Aprenda habilidades com as melhores universidades gratuitamente.
  • Udacity [EN-US] - Cursos e Certificações.
  • Edraak [EN-US] - Edraak, é uma plataforma massiva de curso online aberto (MOOC), que é uma iniciativa da Fundação Queen Rania (QRF).
  • Open HPI [EN-US] - MOOC´S para Ler e Aprender.
  • MIT OPEN COURSEWARE [EN-US] - É uma publicação baseada na Web de praticamente todos os conteúdos do curso MIT, aberto e disponível para o mundo.
  • cK-12 [EN-US] - 100% de aprendizado gratuito e personalizado para cada aluno.
  • Udemy [EN-US] - A maior seleção de cursos do mundo.
  • SKILLSHARE [EN-US] - Skillshare é uma comunidade de aprendizagem on-line com milhares de classes em design, negócios, tecnologia e muito mais.
  • Codecademy [EN-US] - Aprenda as habilidades técnicas que você precisa para o trabalho que você quer.
  • P2PU [EN-US] - conecta os recursos educacionais abertos a caminhos de carreira de uma forma equitativa e capacitante.
  • Saylor Academy [EN-US] - Saylor Academy é uma iniciativa sem fins lucrativos trabalhando desde 2008 para oferecer livre e aberto cursos on-line para todos os que querem aprender.
  • Academic Earth [EN-US] - Encontre cursos on-line gratuitos, palestras e vídeos das melhores faculdades como Yale, MIT e Stanford.
  • Learn To Be [EN-US] - Organização sem fins lucrativos que traz 1-on-1, tutoria on-line para os jovens.
  • Floqq - FLOQQ é o maior curso de vídeo de língua espanhola motor de busca.
  • Course Talk [CA-ES] - Descobre os melhores cursos da Web com base em seus interesses e feedback de estudantes.
  • Marginal Revolution University [EN-US] - Cria vídeos econômicos gratuitos e engajados ministrados por professores de topo.
  • Alison [EN-US] - Cursos on-line gratuitos com certificados.
  • Data Science Academy [PT-BR] - Comunidade de especialistas em Ciência de Dados.
  • SOLYD [PT-BR] - Treinamentos e cursos online.
  • DataCamp [EN-US] - Aprenda Ciência de Dados online.
  • Google for Education [EN-US] - Classe Python do Google.
  • VEDUCA [PT-BR] - Aqui você estuda de graça e pode conquistar seu certificado por um preço que cabe no seu bolso.
  • Fundação Bradesco [PT-BR] - A Escola Virtual é um portal educacional que disponibiliza cursos livres, gratuitamente, na modalidade a distância.
  • Khan Academy [EN-US] - Oferece exercícios práticos, vídeos instrutivos e um painel de aprendizagem personalizado que capacita os alunos a estudar em seu próprio ritmo dentro e fora da sala de aula.
  • EADCCNA [PT-BR] - Variedade de cursos on-line em TI.
  • Canal do Ensino [PT-BR] - Cursos gratuitos e livros de domínio público.
  • 4Linux [PT-BR] - Cursos de linux e open software.
  • Impacta [PT-BR] - Cursos de TI, Gestão e Design.
  • Microsoft Academy [EN-US] - Programa Profissional Microsoft para Inteligência Artificial.
  • Microsoft Virtual Academy [EN-US] - Treinamento grátis da Microsoft oferecido por especialistas.
  • Universia [PT-BR] - A Universia Brasil reuniu 700 cursos online grátis das melhores universidades do Brasil e do mundo. Confira os cursos das áreas da Ciência da Computação e Inteligência Artificial.
  • Duolingo [EN-US] - Aprenda idiomas de graça, para sempre.
  • e-stude [EN-US] - Plataforma de e-learning voltada para a capacitação de equipes de desenvolvimento de software.
  • Google Developers [EN-US] - O Curso de Aprendizado de Aprendizado de Máquina.
  • Acclaim [EN-US] - Conclua uma série de cursos on-line de Ciência de Dados.
  • Data School [EN-US] - Cursos de Ciência de Dados.
  • Dataquest [PT-BR] - Aprenda Python, R, SQL, visualização de dados, análise de dados e aprendizado de máquina.

Datasets

Segue abaixo uma lista de sites que dispõe de uma variedade de datasets para estudo e aprendizagens:

  • DATAQUEST [EN-US] - 18 lugares para encontrar conjuntos de dados para projetos de ciência de dados.
  • Quora's Big Datasets Answer [EN-US] - Links de sites para encontrar grandes conjuntos de dados abertos ao público.
  • ISPDados [PT-BR] - Página de Dados Abertos do Instituto de Segurança Pública. Você poderá acessar as bases de dados de registros criminais e de atividade policial do estado do Rio de Janeiro.
  • PORTAL BRASILEIRO DE DADOS ABERTOS [PT-BR] - Mais de 6 mil conjuntos de dados.
  • Google Trends [EN-US] - Veja o que o mundo está pesquisando.
  • Dados Abertos Sorocaba [PT-BR] - Este portal disponibiliza, de forma pública, dados que são gerados por secretarias e órgãos da gestão municipal.
  • Portal da Transparência Sorocaba [PT-BR] - A publicação dos dados em formato aberto.
  • Dados Abertos da Capes [PT-BR] - Aqui você encontra dados e informações sobre a pós-graduação brasileira, sobre a formação de professores para educação básica e outros temas relacionados à educação.
  • GEOCAPES [PT-BR] - Sistema de Informações Georreferenciadas Capes.
  • Academic Torrents [EN-US] - Somos um repositório distribuído mantido pela comunidade para conjuntos de dados e conhecimento científico.
  • Hadoop Illuminated [EN-US] - Conjuntos de Big Data Publicamente Disponíveis.
  • United States Census Bureau [EN-US] - Indicadores econômicos do EUA Census Bureau.
  • US Government Data Sources [EN-US] - Serviços da Web do governo dos EUA e fontes de dados XML.
  • Enigma [EN-US] - Navegue pelo mundo dos dados públicos - Pesquise e analise rapidamente bilhões de registros públicos publicados por governos, empresas e organizações.
  • Datahub [EN-US] - Fornece dados importantes e comumente usados como pacotes de dados de alta qualidade, fáceis de usar e abertos.
  • Amazon - Open Data on AWS [EN-US] - Conjuntos de dados de pesquisa de dados abertos.
  • re3data [EN-US] - Compartilhamento de dados facilitado.
  • DataCite [EN-US] - Centro para dados de pesquisa.
  • Quandl [EN-US] - A principal fonte de conjuntos de dados financeiros, econômicos e alternativos, atendendo a profissionais de investimento.
  • figshare [EN-US] - Obter mais citações para todos os resultados de sua pesquisa acadêmica mais de 5000 citações de conteúdo de compartilhamento.
  • MAXMIND [EN-US] - Bancos de Dados e legados de GeoLite.
  • Kaggle Datasets [EN-US] - Conjunto de Dados para uso no Kaggle.
  • IGSR: O recurso de amostra internacional do genoma [EN-US] - Fornecendo suporte contínuo para os dados do Projeto 1000 Genomas.
  • World Bank Open Data [EN-US] - Acesso livre e aberto a dados globais de desenvolvimento.
  • Open Data Philly [EN-US] - É um catálogo de dados abertos na região da Filadélfia.
  • Grouplens [EN-US] - Amostra de conjuntos de dados de filme (com classificações), livro e wiki.
  • UC Irvine Machine Learning Repository [EN-US] - Atualmente, mantem 446 conjuntos de dados como um serviço para a comunidade de aprendizado de máquina.
  • NOAA - Centro Nacionail de Informações Ambientais [EN-US] - São responsáveis por preservar, monitorar, avaliar e fornecer acesso público ao tesouro da Nação de dados e informações climáticas e históricas sobre o clima.
  • MapLight [EN-US] - O MapLight rastreia vários conjuntos de dados que você pode procurar por evidências da influência do dinheiro na política.
  • GHDx [EN-US] - Um catálogo de conjuntos de dados de saúde e demográficos de todo o mundo e incluindo resultados do IHME.
  • UNICEF Data [EN-US] - Dados do UNICEF sobre estatísticas e monitoramento.
  • UN Data [EN-US] - Dados do UN sobre estatísticas e monitoramento.
  • The GDELT Project [EN-US] - Projeto GDELT monitora as notícias mundiais de transmissão, impressão e web de quase todos os cantos de todos os países.
  • San Fransisco Government Open Data [EN-US] - Pesquise centenas de conjuntos de dados da cidade e do condado de São Francisco.
  • Global Open Data Index [EN-US] - O Índice Global de Dados Abertos fornece o instantâneo mais abrangente disponível do estado da publicação de dados governamentais abertos.
  • GHTorrent [EN-US] - Um espelho de dados escalonável, consultável e offline oferecido pela API REST do Github.
  • Microsoft Research Open Data [EN-US] - Uma coleção de conjuntos de dados gratuitos da Microsoft Research para promover pesquisas de ponta em áreas como processamento de linguagem natural, visão computacional e ciências específicas de domínio.
  • Open Government Data Platform India [EN-US] - É uma plataforma para apoiar a iniciativa Open Data do Governo da Índia.
  • UCI Machine Learning Repository [EN-US] - Centro de Aprendizado de Máquina e Sistemas Inteligentes.
  • Google Dataset Search [EN-US] - Conjuntos de Dados do Google.
  • Brasil Datasets [EN-US] - Conjunto de Dados do Brasil.
  • Kaggle Datasets [EN-US] - Conjunto de Dados do Kaggle.

Blogs

Segue abaixo uma lista de sites pessoais e de companhias voltado a Ciência de Dados, Tecnologias, Computação e Nerdices em geral:

  • Blog Mineirando Dados [PT-BR] - Este projeto tem o objetivo de te ajudar a aprender mais sobre Data Science e áreas afins de uma maneira prática e rápida.
  • O Estatístico [PT-BR] - Blog com a missão é promover a estatística de um jeito simples, divertido e ao alcance de todos, como você nunca viu antes.
  • Pizza De Dados [PT-BR] - O podcast Brasileiro sobre Ciência de Dados.
  • Pós-Graduando [PT-BR] - Conteúdo e humor diário para alunos de Pós-Graduação.
  • Paulo Vasconcellos  -  Cientista de Dados Brasileiro [PT-BR] - Blog pessoal.
  • Déborah Mesquita [PT-BR] - Blog pessoal.
  • Lucas Caton [PT-BR] - Blog pessoal.
  • Hackernoon [EN-US] - Hacker Noon é tudo quanto é assunto que os hackers precisam ao meio-dia.
  • Towards Data Science [EN-US] - Rumo à Ciência de Dados, Compartilhando conceitos, idéias e códigos.
  • Data Science Central [EN-US] - Recurso on-line do setor para profissionais de dados.
  • Mining the Social Web [EN-US] - Um complementar do livro com o objetivo simples de integrar o mainstream social de mineração da web.
  • Greg Reda [EN-US] - Personal Blog.
  • Kevin Davenport [EN-US] - Personal Blog.
  • Julia Evans [EN-US] - Personal Blog.
  • Becoming a Data Scientist [EN-US] - Documentando o caminho de Analista de Dados SQL buscando um Mestrado em Engenharia para Cientista de Dados.
  • AllThings Data Science [EN-US] - Todas as coisas de Ciência de Dados.
  • MDM – A Geeks Point Of View [EN-US] - Blog de tecnologia no gerenciamento de dados mestre e cada zumbido em torno dele.
  • The Open Source Data Science Masters [EN-US] - O currículo de código aberto para o aprendizado da Ciência de Dados.
  • Data Science London [EN-US] - A Data Science London é uma organização sem fins lucrativos dedicada à divulgação livre e aberta da Ciência de Dados.
  • John Myles White [EN-US] - Personal Blog.
  • Open Source Research [EN-US] - Estudante de doutorado no campo de Pesquisa Operacional em Berkeley.
  • Louis Dorard [EN-US] - Um cara de tecnologia com uma queda pela web e por dados, grandes e pequenos.
  • Machine Learning Mastery [EN-US] - Sobre ajudar os programadores profissionais a aplicar com confiança algoritmos de aprendizado de máquina para resolver problemas complexos.
  • Daniel Forsyth [EN-US] - Personal Blog.
  • Data Science Weekly [EN-US] - Um boletim semanal gratuito com notícias curadas, artigos e trabalhos relacionados à Ciência de Dados.
  • Revolution Analytics [EN-US] - Notícias diárias sobre o uso do código aberto R para análise de big data, modelagem preditiva, ciência de dados e visualização.
  • R Bloggers [EN-US] - R-Bloggers.com é um agregador de blogs de conteúdo contribuído por blogueiros que escrevem sobre R.
  • Datascope Analytics [EN-US] - Consultoria e design orientados por dados.
  • Yet Another Data Blog [EN-US] - Reflexões sobre Inteligência Coletiva, Disputas de Dados, Ciência de Dados, Modelagem Preditiva, Start-ups e um repositório de idéias.
  • KDNuggets [EN-US] - Líder em Análise de Negócios, Big Data, Mineração de Dados, Ciência de Dados e Aprendizado de Máquina.
  • Meta Analysis [EN-US] - Personal Blog.
  • Data Scientist [EN-US] - Desenvolvido para que cientistas de dados colaborem no compartilhamento de conhecimento e experiências.
  • What´s The Big Data [EN-US] - Explora seu impacto na tecnologia da informação, no mundo dos negócios, nas agências governamentais e em nossas vidas.
  • Decisions & Discovery [EN-US] - Concentrando-se em ciência, Ciência de Dados, negócios, tecnologia,
  • New Data Scientist [EN-US] - Como um cientista social salta para o mundo dos grandes volumes de dados.
  • Data Science 101 [EN-US] - Aprendendo a ser um Cientista de Dados.
  • Data Scientist Journey [EN-US] - Casal nômade digital falando sobre Ciência de Dados.
  • Learning Lover [EN-US] - Personal Blog.
  • Dataists [EN-US] - Mais do que ver o seu modelo não possui erros heteroscedásticos.
  • Data-Mania [EN-US] - Personal Blog.
  • Data-Magnum [EN-US] - Fornece as informações, a educação e a avaliação necessárias para o planejamento e a implementação bem-sucedida de projetos de Big Data.
  • The MapR Blog [EN-US] - Encontre insights, práticas recomendadas e recursos úteis para ajudar você a aproveitar os dados de forma mais eficaz no crescimento de seus negócios.
  • P-value [EN-US] - Reflexões sobre ciência de dados, aprendizado de máquina e estatísticas.
  • Deepkapha [EN-US] - Personal Blog.
  • The File Drawer [EN-US] - Personal Blog.
  • Hilary Parker [EN-US] - Personal Blog.
  • Kenny Bastani [EN-US] - Personal Blog.
  • Adventures in Data Land [EN-US] - Personal Blog.
  • DATA MINERS BLOG [EN-US] - Um lugar para ler sobre tópicos de interesse para mineradores de dados, fazer perguntas aos especialistas em mineração de dados em data miners.
  • FlowingData [EN-US] - Visualização e Estatísticas.
  • O'reilly Learning Blog [EN-US] - Perspectivas sobre ferramentas de aprendizagem, tecnologias e métodos.
  • Dominodatalab [EN-US] - Inclui o post sobre Ciência de Dados.
  • i am trask [EN-US] - Artesanato para Aprendizado de Máquina.
  • Vademecum of Practical Data Science [EN-US] - Tem como objetivo compartilhar alguns dos problemas, soluções e soluções alternativas e práticas recomendadas dos autores que os ajudaram em sua jornada de dados.
  • Dataconomy [EN-US] - Sobre a nova economia emergente de dados.
  • Analytics Vidhya [EN-US] - Um site completo sobre ciência de dados e material de estudo de análise.
  • Colah's Blog [EN-US] - Para entender redes neurais.
  • Sebastian's Blog [EN-US] - Para entender PNL e transferência de aprendizado.
  • DATAVERSITY [EN-US] - Educação de Dados para Negócios e Profissionais de TI.
  • Ciência e Dados [PT-BR] - O objetivo é conversar sobre a fascinante aventura da Ciência de Dados.
  • Instituto de Inteligência Artificial Aplicada [PT-BR] - É uma organização sem fins lucrativos onde jovens estudantes recebem educação gratuita sobre inteligência artificial, desenvolvem projetos.
  • BiaData Bussiness [PT-BR] - Informações sobre Big Data.
  • Portal Action [PT-BR] - O maior portal estatístico do Brasil.
  • HackerRank [EN-US] - É uma plataforma de contratação de tecnologia que é o padrão para avaliar as habilidades dos desenvolvedores para mais de 1.000 empresas em todo o mundo.
  • Revista SQL Magazine [PT-BR] - Conteúdo sobre SQL.
  • DATAQUEST [EN-US] - Ciência de dados, análise de dados e tutoriais e artigos sobre engenharia de dados.
  • Data Elixir [EN-US] - É uma curadoria das melhores notícias, recursos e inspirações da Ciência de Dados.
  • Simply Statistics [EN-US] - Notícias e textos sobre estatística.
  • ClaoudML [EN-US] - Recursos gratuitos de ciência de dados e aprendizado de máquina.
  • PyData [EN-US] - Fórum para a comunidade internacional de usuários e desenvolvedores de ferramentas de análise de dados para compartilhar idéias e aprender uns com os outros.
  • freeCodeCamp [EN-US] - Aprenda novas habiliades de desenvolvedor.
  • Vooo [EN-US] - Notícias e textos sobre Ciência de Dados.
  • Bitfactor [EN-US] - Pensamentos sobre design, tecnologia e outras coisas muito importantes.
  • The Fashion Robot [EN-US] - Sobre tecnologias inspiradoras na indústria da moda.
  • OpenMined [EN-US] - Uma comunidade de código aberto focada na pesquisa, desenvolvimento e elevação de ferramentas para inteligência artificial segura.
  • Shivam Bansal's [EN-US] - Cientista de Dados e Kaggle Kernels Grandmaster.
  • 7WDATA [EN-US] - É o Hotspot sobre novas notícias de todas as coisas.
  • mathbabe [EN-US] - Explorar e desabafar sobre questões quantitativas.
  • Hipsters Ponto Tech [PT-BR] - Podcast onde o pessoal da Caelum e da Alura entra em discussões acaloradas sobre programação, design, ux, gadgets, startups e as últimas modinhas em tecnologia.
  • Shane Lynn [EN-US] - Personal Blog.

Ciência da Computação

Segue abaixo uma lista de sites preferidos que dispõe de uma variedade de assuntos relacionados a computação no geral:

  • The ACM Digital Library [EN-US] - É uma plataforma de pesquisa, descoberta e rede que contém a coleção de texto completo de todas as publicações da ACM, incluindo revistas, anais de congressos, revistas técnicas, boletins informativos e livros.
  • Communications Of The ACM [EN-US] - São as principais publicações impressas e on-line para os campos de computação e tecnologia da informação.
  • LNCC - Laboratório Nacional de Computação Científica [PT-BR] - O Laboratório Nacional de Computação Científica é uma instituição brasileira de pesquisa científica e desenvolvimento tecnológico do Ministério da Ciência, Tecnologia e Inovação e Comunicações, especializada em computação científica.
  • Intel Software Developer Zone [PT-BR] - Sua fonte oficial para desenvolvimento com hardware e software Intel®.
  • GUJ [PT-BR] - É o maior fórum de desenvolvimento do Brasil com mais de 1 milhão de mensagens. Participe agora no facebook com notícias e links.
  • DevMedia [PT-BR] - São milhares de Cursos, DevCasts, Rodas de Códigos, Artigos, MarketPlace e muito mais.
  • iMasters [PT-BR] - Comunidade de profissionais, estudantes e mestres em tecnologias e ferramentas voltadas para o desenvolvimento web.
  • SEI - Instituto de Engenharia de Software [EN-US] - Realiza pesquisas em engenharia de software, engenharia de sistemas, segurança cibernética e muitas outras áreas da computação, trabalhando para introduzir inovações do setor privado no governo.
  • ACM - Associação para Computação de Máquinas [EN-US] - Reúne educadores, pesquisadores e profissionais de computação para inspirar o diálogo, compartilhar recursos e abordar os desafios do campo.
  • Biblioteca Mundial da Ciência [EN-US] - Biblioteca on-line oferece conteúdo educacional de qualidade em pequenos eBooks e artigos, servindo como uma missão para equalizar o acesso a recursos de alta qualidade para educação científica para todas as comunidades em todo o mundo.
  • SBMAC - Sociedade de Matemática Aplicada e Computacional [PT-BR] - Desenvolver as aplicações da Matemática nas áreas científicas, tecnológicas e industriais.
  • SBC - Sociedade Brasileira de Computação [PT-BR] - Sociedade científica que reúne estudantes, professores e profissionais da Computação e Informática de todo o Brasil. O principal objetivo desta instituição é incentivar a pesquisa e o ensino em Computação.
  • Wikiversidade [PT-BR] - É uma wiki para organização de grupos de estudo ou pesquisa em todos os níveis e suas informações, como anotações, bibliografias, discussões e informações práticas.
  • DevBrasil [PT-BR] - A maior rede social para desenvolvedores de software no Brasil aprendendo, compartilhando e conquistando novas oportunidades.
  • Computing Research Repository [EN-US] - Repositório de Pesquisa em Computação. Permite que os pesquisadores pesquisem, naveguem e baixem documentos através de seu repositório online.

Matemática

  • Mathematics [EN-US] - E-prints da Cornell University relacionado a Matemática.
  • Quantitative Finance [EN-US] - E-prints da Cornell University relacionado a Finanças Quantitativas.
  • Statistics [EN-US] - E-prints da Cornell University relacionado a Estatística.
  • Econometria [PT-BR] - A econometria é um estudo que utiliza métodos matemáticos e estatísticos para que se possam avaliar teorias sobre economia e finanças.
  • Math and Science Done Right [EN-US] - Estudos de Matemática, Ciência e Engenharia por meio de experiências de aprendizado interativas de tamanho reduzido.

YouTube

Segue abaixo uma lista de Canais do Youtube, Vídeos que gostei e Playlist para estudo e se manter atualizado:


API PSI


Ferramentas

Segue abaixo uma lista de ferramentas que facilitam o trabalho do Cientista de Dados, não sei e não testei todas, porém vale a pena saberem que existem:

  • Jupyter - O Project Jupyter existe para desenvolver software de código aberto, padrões abertos e serviços para computação interativa em dezenas de linguagens de programação.
  • neptune.ml - Plataforma compatível com a comunidade que apóia cientistas de dados na criação e compartilhamento de modelos de aprendizado de máquina. Netuno facilita o trabalho em equipe, gerenciamento de infraestrutura, comparação de modelos e reprodutibilidade.
  • Steppy 1 - Leve, biblioteca Python para experimentação de aprendizado de máquina rápida e reproduzível. Apresenta uma interface muito simples que permite um projeto de pipeline de aprendizado de máquina limpo.
  • Steppy-toolkit 2 - Coleta curada de redes neurais, transformadores e modelos que tornam seu aprendizado de máquina mais rápido e eficaz.
  • Cloud Datalab Google - Explore, visualize, analise e transforme facilmente dados usando linguagens familiares, como Python e SQL, de forma interativa.
  • Hortonworks Sandbox - É um ambiente pessoal e portátil do Hadoop que vem com uma dúzia de tutoriais interativos do Hadoop.
  • R - É um ambiente de software livre para computação estatística e gráficos.
  • RStudio - IDE poderosa para R, gratuito e de código aberto, funciona no Windows, Mac e Linux.
  • Weka - Aplicação com interface gráfica para leitura de dados, pré-processamento e algoritmos de aprendizado de máquina.
  • Anaconda Cloud - Anaconda Cloud é onde cientistas de dados compartilham seu trabalho. Você pode pesquisar e baixar pacotes e cadernos populares de Python e R para iniciar seu trabalho de ciência de dados.
  • Data Science Toolbox - É um ambiente virtual baseado no Ubuntu Linux que é especificamente adequado para fazer ciência de dados.
  • Datadog Soluções, código e devops para ciência de dados de alta escala.
  • Kite Development Kit - É uma camada de dados de alto nível para o Hadoop. É uma API e um conjunto de ferramentas que aceleram o desenvolvimento. Você configura como o Kite armazena seus dados no Hadoop, em vez de criar e manter essa infraestrutura por conta própria.
  • Domino Data Labs - Execute, dimensione, compartilhe e implante seus modelos sem qualquer infraestrutura ou configuração.
  • Apache Flink Uma plataforma para processamento de dados eficiente, distribuído e de propósito geral.
  • Apache Hama - É um projeto de código aberto de alto nível da Apache, permitindo que você faça análises avançadas além do MapReduce.
  • Weka - É uma coleção de algoritmos de aprendizado de máquina para tarefas de mineração de dados.
  • Octave - É uma linguagem interpretada de alto nível, destinada principalmente a cálculos numéricos Free Matlab.
  • Apache Spark - Computação em cluster extremamente rápida.
  • Hydrosphere Mist - um serviço para expor os trabalhos de análise do Apache Spark e os modelos de aprendizado de máquina como serviços da Web em tempo real, em lotes ou reativos.
  • Torch - É uma estrutura de computação científica com amplo suporte para algoritmos de aprendizado de máquina que coloca as GPUs em primeiro lugar.
  • Neon - Nervana's Python based Deep Learning Framework - É a estrutura de aprendizagem profunda de referência da Intel, comprometida com o melhor desempenho em todo o hardware. Projetado para facilidade de uso e extensibilidade.
  • Skale - Processamento de Dados Distribuídos de Alto Desempenho no NodeJS.
  • Aerosolve - Um pacote de aprendizado de máquina criado para humanos.
  • Datawrapper 1 - Uma plataforma de visualização de dados de código aberto que ajuda todos a criar gráficos simples, corretos e incorporáveis.
  • Datawrapper 2 - Também está no GitHub.
  • Natural Language Toolkit - É uma plataforma líder para criar programas em Python para trabalhar com dados em linguagem humana.
  • nlp-toolkit for node.js - Este módulo aborda alguns princípios básicos e implementações do nlp.
  • Julia - Linguagem de programação dinâmica de alto nível e alto desempenho para computação técnica.
  • IJulia - Um backend de linguagem Julia combinado com o ambiente interativo Jupyter.
  • Apache Zeppelin - Notebook baseado em eb que permite o uso de dados, análise de dados interativos e documentos colaborativos com SQL, Scala e mais.
  • Featuretools - Uma estrutura de software livre para engenharia de recursos automatizada escrita em Python.
  • Optimus - Limpeza, pré-processamento, engenharia de recursos, análise exploratória de dados e fácil ML com back-end PySpark.
  • DVC - Um sistema de controle de versão de ciência de dados de código aberto. Ele ajuda a rastrear, organizar e tornar os projetos de ciência de dados reproduzíveis.
  • Markdown - Markdown Guide é um guia de referência gratuito e de código aberto que explica como usar o Markdown, a linguagem de marcação simples e fácil de usar que você pode usar para formatar praticamente qualquer documento.
  • Git - É um sistema de controle de versão distribuído gratuito e de código aberto projetado para lidar com tudo, de projetos pequenos a muito grandes, com velocidade e eficiência.
  • Bitbucket - É mais do que apenas gerenciamento de código do Git. O Bitbucket dá às equipes um lugar para planejar projetos, colaborar em código, testar e implantar.
  • GitHub - Plataforma de desenvolvimento inspirada na maneira como você trabalha. De código - fonte aberto a negócios , você pode hospedar e analisar códigos, gerenciar projetos e construir software.
  • GitBook - Documentação facilitada. Ajuda sua equipe a escrever, colaborar e publicar conteúdo online.
  • Pivotal Tracker - É a ferramenta de gerenciamento de projetos ágil de escolha para desenvolvedores em todo o mundo para colaboração em tempo real em torno de um backlog priorizado e compartilhado.
  • Stack Overflow - É a maior e mais confiável comunidade online para desenvolvedores aprenderem, compartilharem seus conhecimentos e construírem suas carreiras.
  • NotABug - Plataforma de colaboração de código de software livre para projetos licenciados livremente.
  • Kite - É um co-piloto baseado em nuvem que aumenta o seu ambiente de programação.
  • reddit - Oferece o melhor da internet em um só lugar. Receba uma atualização constante de notícias, histórias divertidas, fotos, memes e vídeos apenas para você.
  • Online Box Plot Generator - Calculadora de Estatística Box Plot.
  • Grafana - Visualização de dados e monitoramento com suporte para Graphite, InfluxDB, Prometheus, Elasticsearch e muitos outros bancos de dados.
  • Graph Viz - Plataforma líder de visualização e exploração para todos os tipos de gráficos e redes. Gephi é de código aberto e gratuito.
  • Tableau - Visualização de dados interativos focados em Business Intelligence.
  • Collaboratory - É um ambiente de notebook gratuito da Jupyter que não requer configuração e é executado inteiramente na nuvem.
  • Vega - Vega é um formato declarativo para criar, salvar e compartilhar projetos de visualização. Com o Vega, as visualizações são descritas em JSON e geram visualizações interativas usando HTML5 Canvas ou SVG.
  • Vega - VOYAGER - É um navegador de visualização para exploração de dados em aberto. Ele fornece uma galeria de visualizações recomendadas, produzida pelo mecanismo de recomendação de visualização Compass.
  • Python Anywhere - Hospede, execute e codifique Python na nuvem.
  • Neo4j - É um sistema de gerenciamento de banco de dados gráfico.
  • Docker - É uma tecnologia de software que fornece contêineres, fornecendo uma camada adicional de abstração e automação de virtualização de nível de sistema operacional no Windows e no Linux.
  • Binder - É um repositório Git que foi equipado com os arquivos de compilação apropriados para que seu conteúdo possa ser conectado a uma instância do BinderHub. Atualmente, esses repositórios vivem principalmente no GitHub, embora planejemos suportar mais repositórios online, como o GitLab ou o BitBucket.
  • IPython - Interpretador interativo para várias linguagens de programação, mas especialmente focado em Python.
  • Overleaf - LaTeX, Evoluído. O editor LaTeX fácil de usar, online e colaborativo.
  • draw.io - É um site de diagramação on-line com o exemplo GraphEditor do mxGraph como a base da parte da aplicação.
  • RED HAT - OpenShift - Implantação e gerenciamento de softwares baseados em container. Ele é uma distribuição suportada do Kubernetes usando Docker e ferramentas DevOps para desenvolvimento acelerado de aplicações.

Visualização

Segue abaixo uma lista de Ferramentas, Ambientes e Bibliotecas para nós Cientista de Dados:

  • Scikit-Learn - Aprendizado de Máquina em Python.
  • NumPy - É fundamental para computação científica com o Python. Suporta matrizes e matrizes grandes e multidimensionais e inclui uma variedade de funções matemáticas de alto nível para operar nesses arrays.
  • SciPy O SciPy trabalha com arrays NumPy e fornece rotinas eficientes para integração e otimização numérica.
  • Tensor Flow - TensorFlow é uma biblioteca de software de código aberto para inteligência de máquina.
  • nbviewer - Renderizar os Jupyter Notebooks como páginas da Web estáticas.
  • Matplotlib - Biblioteca de plotagem 2D em Python que produz números de qualidade de publicação em uma variedade de formatos impressos e ambientes interativos entre plataformas.
  • seaborn - Biblioteca de visualização de dados Python baseada no matplotlib . Ele fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos.
  • Auto PY para EXE - Converte .py para .exe usando uma interface gráfica simples.
  • plot.ly - Biblioteca de visualização de dados para Python.
  • Caffe - Estrutura de aprendizagem profunda feita com expressão, velocidade e modularidade em mente.
  • Albumentations - Uma biblioteca de aumento de imagem rápida e agnóstica de framework que implementa um conjunto diversificado de técnicas de aumento.
  • Ember Charts - Uma poderosa e fácil de usar biblioteca de gráficos para Ember.js.
  • amCharts - Bibliotecas e ferramentas para todas as suas necessidades de Visualização de Dados.
  • AnyChart - É um conjunto de bibliotecas JavaScript HTML5 flexíveis para todas as suas necessidades de visualização de dados.
  • cartodb - Ferramenta de mapeamento.
  • Cube - Sistema para coletar eventos com registro de data e hora e derivar métricas.
  • d3plus - Visualização de dados facilitada.
  • D3js - Data-Driven Documents - Biblioteca JavaScript para manipular documentos com base em dados.
  • dygraphs - Biblioteca de criação de gráficos JavaScript de código aberto flexível e rápida.
  • exhibit - Permite criar facilmente páginas da Web com funcionalidades avançadas de pesquisa e filtragem de texto, com mapas interativos, linhas do tempo e outras visualizações.
  • Gatherplot - Gráficos de dispersão generalizados para dados nominais.
  • ggplot2 - Sistema para criar gráficos de forma declarativa, baseado em The Grammar of Graphics .
  • Glue - Biblioteca Python para explorar relacionamentos dentro e entre conjuntos de dados relacionados.
  • Google Chart Gallery - Fornece uma variedade de gráficos projetados para atender às suas necessidades de visualização de dados.
  • jqplot - Plugin de plotagem e gráficos para o framework JavaScript jQuery.
  • nvd3 - Construir gráficos reutilizáveis e componentes de gráficos.
  • Opendata-tools - Lista de ferramentas para explorar, publicar e compartilhar conjuntos de dados públicos.
  • Openrefine - Uma ferramenta poderosa e gratuita para trabalhar com dados confusos.
  • raw - O elo perdido entre planilhas e visualização de dados.
  • techanjs - Uma análise visual e técnica e uma biblioteca de gráficos baseada na D3 . Crie gráficos financeiros interativos para navegadores modernos e móveis.
  • Timeline - Ferramenta de código aberto que permite a qualquer um construir timelines interativas e visualmente ricas.
  • variancecharts - Permite que engenheiros, designers, jornalistas, cientistas e analistas criem gráficos de dados elegantes e personalizados para a Web, usando apenas HTML e CSS.
  • vida - Visualização de dados de código aberto.
  • Wrangler - Ferramenta interativa para limpeza e transformação de dados.
  • r2d3 - É um experimento em expressar o pensamento estatístico com design interativo.
  • NetworkX - Pacote Python para a criação, manipulação e estudo da estrutura, dinâmica e funções de redes complexas.
  • Redash - Construído para permitir acesso rápido e fácil a bilhões de registros.
  • C3 - Biblioteca de gráficos reutilizável baseada em D3.
  • Heroku - É uma plataforma como serviço (PaaS) que permite aos desenvolvedores criar, executar e operar aplicativos inteiramente na nuvem.
  • OpenStack - É um software de código aberto, capaz de gerenciar os componentes de múltiplas infraestruturas virtualizadas.
  • DigitalOcean - Fornece aos desenvolvedores e empresas uma plataforma de computação em nuvem confiável e fácil de usar para servidores virtuais (Droplets), armazenamento de objetos (Spaces) e muito mais.
  • Google Cloud Platform - É uma suíte de computação em nuvem oferecida pelo Google, funcionando na mesma infraestrutura que a empresa usa para seus produtos dirigidos aos usuários, dentre eles o Buscador Google e o Youtube.
  • Amazon Web Services Cloud - É uma plataforma de serviços de computação em nuvem, que formam uma plataforma de computação na nuvem oferecida pela Amazon.
  • nbextensions - Este repositório contém uma coleção de extensões que adicionam funcionalidade ao notebook Jupyter.
  • tqdm - Faça instantaneamente seus loops mostrarem um medidor de progresso inteligente.
  • hchart - Esta função genérica pode fazer o gráfico de vários objetos R em tempo real.
  • pyswarms - Um kit de ferramentas de pesquisa para otimização de enxame de partículas em Python.
  • MoviePy - Módulo Python para edição de vídeo, composição de vídeo, processamento de vídeo ou para criar efeitos avançados.

Revistas

Segue abaixo uma lista de sites preferidos para se manter informado, tanto em tecnologias quanto em Ciência de Dados, e porque não uns ativismos:

  • TECNOLOGIA | EXAME [PT-BR] - Informações sobre tecnologia, internet, ciências, redes sociais, gadgets e empresas que moldam esse mercado.
  • Pplware [PT-BR] - Tudo sobre tecnologia, software, peopleware, informatica, tutoriais, truques, dicas, windows, mac, linux e internet em portugues.
  • Revista Galileu [PT-BR] - Ciência, tecnologia, cultura, comportamento e lifehacks.
  • Universo Racionalista [PT-BR] - Temos como missão divulgar ciência e promover o pensamento crítico.
  • Consumidor Moderno [PT-BR] - Uma plataforma de interação e discussão de ideias, conceitos e tendências que definem as melhores práticas de relacionamento entre consumidor e empresa.
  • Tecnoblog [PT-BR] - Encontre notícias, dicas e tutoriais e fica por dentro dos assuntos .
  • Becode [PT-BR] - Diversos materiais gratuitos, ebooks, posts, quizes, além de recomendações para os melhores cursos online da web.
  • O Futuro das Coisas [PT-BR] - O futuro visível para todos, Inteligência Artificial, Robotics, inovações e novas tecnologias médicas.
  • Oficina Antivigilância [PT-BR] - Estudo de Princeton expõe vigilância descontrolada dos trackers na Web.
  • Nexo Jornal [PT-BR] - Informação clara e bem explicada você encontra aqui. Leitura obrigatória para quem quer entender o contexto das principais notícias do Brasil e do Mundo.
  • Chupadados [PT-BR] - Este projeto reúne histórias latino americanas sobre a coleta e processamento massivos de dados por governos, empresas e por nós mesmos para monitorar cidades, casas, bolsos e corpos.
  • InfoMoney [PT-BR] - Encontre tudo o que precisa sobre dinheiro. Ações, investimentos, bolsas de valores e muito mais.
  • PCWorld [EN-US] - Consultor de tecnologia, com análises e guia de produtos, testes, reviews, dicas e download.
  • Portal GSTI [PT-BR] - Conteúdo, área para tirar dúvidas, informações sobre vagas de trabalho, concursos e certificações.
  • The Next Web [EN-US] - Perspectivas originais e orgulhosamente opinativas sobre histórias notáveis para a Geração T.
  • Intel IT Center [EN-US] - Recursos para Líderes de TI.
  • indy100: discover [EN-US] - Notícias diversas sobre tudo.
  • Skynet Today [EN-US] - Cobertura acessível e informada do mais recente hype AI e Pânico.
  • Hacker News Bulletin [EN-US] - Descubra as últimas tendências, novidades interessantes e dicas úteis sobre hackers, hackers, segurança cibernética, tecnologia e anônimos em todo o mundo.
  • Datatau [EN-US] - Como Hacker News, mas para dados.
  • Fossbytes [EN-US] - Fonte líder de notícias sobre tecnologia, com foco em lançamentos de distro Linux, segurança e notícias sobre hackers, tutoriais, dicas e truques, VPNs e muito mais.
  • ICML [EN-US] - International Conference on Machine Learning
  • EPJ Data Science [EN-US] - Plataforma de publicação para abordar essa evolução, reunindo todas as disciplinas acadêmicas relacionadas a ciências.
  • Journal of Data Science [EN-US] - Uma revista internacional dedicada a aplicações de métodos estatísticos em geral.
  • Big Data Research [EN-US] - Tem como objetivo promover e comunicar os avanços na pesquisa de big data , fornecendo um fórum rápido e de alta qualidade para pesquisadores, profissionais e decisores políticos das muitas comunidades diferentes trabalhando com este tópico.
  • Journal of Big Data [EN-US] - Publica trabalhos acadêmicos de alta qualidade, metodologias e estudos de caso abrangendo uma ampla gama de tópicos, desde análise de big data a computação intensiva em dados e todas as aplicações de pesquisa em big data.
  • Big Data & Society [EN-US] - É um periódico acadêmico revisado por pares que publica trabalhos interdisciplinares principalmente em ciências sociais, humanidades e computação e suas interseções com as artes e ciências naturais sobre as implicações do Big Data para as sociedades.
  • Data Science Journal [EN-US] - Permite que você pesquise, navegue e cite com facilidade os artigos mais recentes publicados por sociedades acadêmicas no Japão e você pode acessar documentos usando a referência de referência ou a ligação citada.

Bons Textos Separados

Segue abaixo uma lista de links salvos de fui juntando ao longo dos estudos para Ciência de Dados:



Livros

Segue abaixo uma lista livros pagos e gratuitos:


Competições

Segue abaixo uma lista de sites para por em prática o conhecimento de Análise de Dados:

  • Lista De Exercicio para Python [PT-BR] - Esta é uma lista com sugestões de programas para iniciantes em programação.
  • URI Online Judge [EN-US] - O principal objetivo é promover a prática de programação e o compartilhamento de conhecimento.
  • Kaggle [EN-US] - Kaggle é o lugar para fazer projetos de Ciência de Dados.
  • DrivenData [EN-US] - Competições de Ciência de Dados para salvar o mundo.
  • Analytics Vidhya [EN-US] - O último campo de batalha dos Cientistas de Dados.
  • The Data Science Game [EN-US] - Um desafio estudantil internacional.
  • InnoCentive [EN-US] - Pioneira global em inovação em crowdsourcing.
  • TuneedIT [EN-US] - Desafios de Algoritmos de Aprendizado de Máquina e Mineração de Dados.

Tutoriais

Segue abaixo uma lista de tutoriais que fiz e mantenho salvo para que possam ajudar mais pessoas:

  • Redes Neurais Artificiais [PT-BR] - Você verá nesta página um tutorial introdutório sobre Redes Neurais Artificiais, em especial sobre as Redes Multi Layer Perceptron treinadas com BackPropagation.
  • Ciência de Dados usando Python e R [EN-US] - Formas de fazer Engenharia de Dados e Aprendizagem de Máquina em R e Python

MARKDOWN:


DOCKER (SOFTWARE):


BINDER (BETA):

Links referente a instalação no Binder usando Docker e Amazon AWS:


TUTORIAL PARA INSTALAR E CONFIGURAR O JUPYTERLAB NO AWS:

Forma facil e correta de fazer a instalação e a configuração:


Outras Listas Impressionantes

Segue abaixo listas com mais conteudos de Ciência de Dados que elevam em x1000 a capacidade desta lista para se conhecer Ciência de Dados:

  • Awesome Machine Learning On Source Code [EN-US] - Links legais e artigos de pesquisa relacionados ao Aprendizado de Máquina aplicados ao código-fonte (MLonCode).
  • Awesome Data Science [EN-US] - Um repositório de ciência de dados de código aberto para aprender e aplicar na solução de problemas do mundo real.
  • Awesome [EN-US] - Lista com curadoria de listas impressionantes.
  • Open Data Sources [EN-US] - Fontes de Dados abertas.
  • Github free data source list [EN-US] - Grande lista do Github de conjuntos de dados públicos.
  • Public Git Archive [EN-US] - Arquivo Git público.
  • Datasharing [EN-US] - O guia do grupo Leek para compartilhamento de dados.
  • Awesome Awesomeness [EN-US] - Uma lista com curadoria de impressionante.
  • Awesome Machine Learning [EN-US] - Uma lista com curadoria de incríveis estruturas, bibliotecas e software de Aprendizado de Máquina.
  • Lists [EN-US] - Lista de listas úteis, tolas e impressionantes, selecionadas no GitHub.
  • Awesome dataviz [EN-US] - Uma lista de curadoria de bibliotecas e recursos impressionantes de visualização de dados.
  • Awesome Python [EN-US] - Uma lista com curadoria de estruturas, bibliotecas, software e recursos impressionantes do Python.
  • Data Science IPython Notebooks [EN-US] - Ciência de Dados: notebooks Python: Aprendizado profundo (TensorFlow, Theano, Caffe, Keras), scikit-learn, Kaggle, big data (Spark, Hadoop MapReduce, HDFS), matplotlib, pandas, NumPy, SciPy, Python essentials, AWS e vários comandos linhas.
  • Awesome R [EN-US] - Uma lista curada de incríveis pacotes R, frameworks e software.
  • Awesome Public Datasets [EN-US] - Uma lista centrada em tópicos de conjuntos de dados abertos de alta qualidade em domínios públicos.
  • Machine Learning & Deep Learning Tutorials [EN-US] - Este repositório contém uma lista com curadoria de tópicos de tutoriais de Aprendizado de Máquina e Aprendizado Detalhado, artigos e outros recursos. Outras listas impressionantes podem ser encontradas nesta lista .
  • Awesome Artificial Intelligence use cases [EN-US] - Uma lista de casos e aplicativos de inteligência artificial impressionantes e comprovados.
  • Top-down learning path: Machine Learning for Software Engineers [EN-US] - Um plano diário completo para estudar para se tornar um engenheiro de aprendizado de máquina.
  • Data Science Tutorials and Courses [EN-US] - Aprenda Ciência de Dados on-line a partir dos melhores cursos e tutoriais de Ciência de Dados submetidos e votados pela comunidade de programação. Cursos de Matemática e Estatística necessários para Ciência de Dados também estão incluídos aqui.
  • The Free Big Data Sources Everyone Should Know [EN-US] - As fontes gratuitas de Big Data que todos devem conhecer.
  • 20 Big Data Repositories You Should Check Out [EN-US] - 20 grandes repositórios de dados que você deve verificar.
  • Awesome Public Datasets [EN-US] - Conjuntos de dados públicos.
  • Awesome Public Datasets [EN-US] - Uma lista de conjuntos de dados abertos de alta qualidade em domínios públicos.
  • Cursos de Python [PT-BR] - Cursos e apostilas gratuitos online de Python.
  • Guia do Cientista de Dados das Galáxias [PT-BR] - Este repositório foi feito pela e para a comunidade.
  • Awesome production machine learning [EN-US] - Este repositório contém uma lista com curadoria de incríveis bibliotecas de código aberto que ajudarão você a implantar, monitorar, versão, dimensionar e proteger o aprendizado de máquina de produção.

Links de Pesquisa Pirata

Como achar mais coisas sobre qualquer coisa, incluindo a temática Data Science?

A maioria dos artigos e livros são pagos, pois o conhecimento não é livre em nossa sociedade. Porém um conjunto de pesquisadores se reuniu para libertar o conhecimento, fundando o Sci-Hub, o LibGen e outras iniciativas, por isso são processados pelas editoras em milhões de dólares, pois elas lucram mantendo a população na ignorância.

LibGen - É um motor de busca de artigos científicos e livros de ficção, tem mais de 2 milhões de artigos científicos (que são publicados por pesquisadores de universidades de todo o mundo) e 2.7 milhões de livros de ficção em várias línguas, principalmente o inglês, mas é possível achar conteúdos em português

Sci-Hub - É um repositório online com mais de 64 milhões artigos científicos , disponíveis no seu website. Novos documentos são enviados diariamente através de domínios de instituições de ensino, que contornam sistemas que restringem o acesso a usuários da Internet sem registros pagos em seus sites. Foi fundado por uma neurocientista do Cazaquistão. Para conseguir um artigo científico, basta colocar o DOI (Digital Objeto Identifier - um padrão para identificar objetos digitais) no campo de pesquisa e o site vai te redirecionar para adquirir o artigo. Um bom site para pegar DOIs é no ScienceDirect

Scielo - Artigos científicos em português A Scielo é uma biblioteca digital da FAPESP, CNPq, Organização Pan-Americana de Saúde, Biblioteca Virtual de Saúde e da Fundação de Apoio à universidade Federal de SP, onde milhares de artigos de todas as áreas podem ser encontrados em português e facilmente baixados.

Z-Library - A biblioteca Z é uma das maiores bibliotecas online do mundo. Pretendemos tornar a literatura acessível a todos.

startpage - Mecanismo de pesquisa mais privado do Mundo.

Open Library - Este site permite pegar livros digitais em inglês emprestados.


Links de Cursos

Data Science Academy

  • Curso Gratuito de Microsoft Power BI (Carga Horária: 54 Horas): LINK
  • Curso Gratuito de Fundamentos de Big Data (Carga Horária: 8 Horas): LINK
  • Curso Gratuito de Python Fundamentos para Análise de Dados (Carga Horária: 54 Horas): LINK
  • Curso Gratuito de Introdução a Ciência de Dados (Carga Horária: 8 Horas): LINK
  • Curso Gratuito de Fundamentos de Inteligência Artificial (Carga Horária: 8 Horas): LINK

Cursos

  • Introdução à Ciência da Computação com Python Parte 1 (USP): PT-BR LINK
  • Python Fundamentos para Análise de Dados: PT-BR LINK
  • Python Básico: PT-BR LINK
  • Python Programming: A Concise Introduction (Wesleyan University): EN-US LINK
  • Data Analysis and Interpretation Specialization (Wesleyan University): EN-US LINK
  • Data Management and Visualization: EN-US LINK
  • Data Analysis Tools: EN-US LINK
  • Regression Modeling in Practice: EN-US LINK
  • Machine Learning for Data Analysis: EN-US LINK
  • Data Analysis and Interpretation Capstone: EN-US LINK
  • Introduction to Computer Science and Programming Using Python (MIT): EN-US LINK
  • Using Python for Research (Harvard): EN-US LINK
  • Intro to Python for Data Science: EN-US LINK
  • Introduction To Python Programming: EN-US LINK
  • Learn Python: Python for Beginners: EN-US LINK
  • Python for Beginners with Examples: EN-US LINK
  • Python for Absolute Beginners: EN-US LINK
  • Learn Python, it's CAKE (Beginners): EN-US LINK
  • Deep Learning Prerequisites: The Numpy Stack in Python: EN-US LINK
  • Start Programming Today with Python!: EN-US LINK
  • Making Graphs in Python using Matplotlib for Beginners: EN-US LINK
  • Python Object Oriented Full Guide: EN-US LINK
  • Google's Python Class: EN-US LINK

Relacionados


Imagens

Sim! Valem mais que mil Palavras..

Na pasta img, você encontra um compilado de imagens referentes a Ciência de Dados.

Lembrem-se!

Copiar tudo do StackOverflow, não te faz entender nada, apenas te torna um bom copiador!


Aonde Colocar (Diversos)

Github:

Outros:

Segurança

Os links abaixo vieram de: sindresorhus/awesome.


A Criar

Desenvolvimento Front-End

Desenvolvimento Back-End

Big Data

Teoria

Ambiente de Desenvolvimento

Bases de Dados

Meios de Comunicação

Aprender

Negócios