/hadoop-minimal

Máquina virtual mínima con Hadoop (MapReduce), Spark y Anaconda Python sobre Ubuntu 18.04 LTS

Primary LanguageJava

hadoop-minimal

Máquina virtual mínima con Anaconda3 5.3, Hadoop 3.1.1 y Spark 2.3.2 en Ubuntu 18.04 LTS

Uso (en Windows)

Antes de nada instalar VirtualBox (https://www.virtualbox.org/wiki/Downloads) y vagrant (https://www.vagrantup.com/downloads.html).

  1. Descargar la carpeta en vuestro equipo
  2. Abrir un terminal y acceder a la carpeta que acabáis de descargar
  3. $ vagrant up
  4. $ vagrant ssh
  5. A partir de este momento estaréis dentro de la máquina virtual en modo consola. La carpeta /vagrant de la máquina virtual es una carpeta compartida que está sincronizada con la carpeta de la máquina anfitriona que contiene el fichero Vagrantfile (es decir, la carpeta en la que habéis ejecutado los comandos). Podéis usar los ejemplos en /vagrant/hadoop y /vagrant/spark para probar que todo funciona. Todos los binarios (pyspark, spark-submit, python, etc.) están en el PATH.

Si estos pasos fallan, realizar los pasos de manera manual:

  1. Descargar la carpeta en vuestro equipo.
  2. Eliminar el fichero Vagrantfile
  3. Abrir un terminal y acceder a la carpeta que acabáis de descargar
  4. $ vagrant init ubuntu/bionic64
  5. $ vagrant up
  6. $ vagrant ssh
  7. $ /vagrant/provision.sh
  8. $ source .bashrc

Importante: salir siempre de manera limpia de la máquina virtual:

  1. $ exit
  2. $ vagrant halt