Iniciarse en Apache Spark: Instalación y directorios importantes

Después de comentar de forma teórica y muy por encima qué es Spark y el lenguaje Scala, es hora de dar un pasito más en esta tecnología: La instalación y ejecución básica en forma local, es decir, vamos a instalar este framework y de momento vamos a nombrar los directorios y archivos más importantes.

Instalación

Como requisito para instalar y hacer uso de Spark, es necesario haber instalado en el equipo:

  • Máquina virtual de Java.
  • API con la que vayamos a trabajar, en mi caso: Scala.

NOTA: Al instalar Scala se instalará automáticamente la máquina virtual de Java, por lo que no es necesario hacer los pasos separados; con seguir el tutorial de instalación es suficiente 😉 .

El siguiente paso es descargar Spark desde su página oficial, donde podemos elegir versión, paquete y tipo de descarga. En mi caso, usé:

  • Spark 1.6.0
  • Precompilado para Hadoop 2.6 (por si luego integramos con HDFS).

Cuando se haya completado la descarga, lo descomprimimos y ubicamos en el directorio donde alojemos nuestros programas:

tar -xvf spark-1.6.0-bin-hadoop2.6.tgz
sudo mv spark-1.6.0-bin-hadoop2.6 /usr/local/spark

OPCIONAL: Para no estar accediendo al directorio ../bin/ para ejecutar los comandos de Spark, añadí las variables de entorno.

Los directorios importantes

La estructura de directorios de Spark no es pequeña, por lo que de momento nos vamos a centrar  en 3 directorios:

  1. bin: Contiene los entornos de ejecución en los que se puede arrancar, además de los comandos para lanzar aplicaciones y ejemplos. Cuando hablo de entornos de ejecución me refiero a arrancarlo usando la API de Scala (spark-shell), Python (pyspark), R (sparkR) o SQL (spark-sql).
  2. conf: En este directorio se encuentran los archivos de configuración del clúster. No vamos a entrar en detalle, le dedicaremos una entrada sólamente a ellos 😛
  3. sbin: Scripts para levantar y parar el clúster y sus componentes.

5 comentarios en “Iniciarse en Apache Spark: Instalación y directorios importantes

  1. Bueno, ya tenemos la configuración básica lista y conocemos tanto la tecnología (Spark) como el lenguaje de programación que usaremos (Scala)

    ¿Con qué nos sorprenderás en el próximo artículo, Pepe? (siento curiosidad por saber hacia dónde vamos) 😉

    • josftm dijo:

      Estoy dudando entre hacer algunos ejemplos sencillos con Scala y ejecutarlo en modo local para hacernos a la interfaz o crear el clúster con un par de máquinas y luego los ejemplos 😛

      Me alegra que te “pique” la curiosidad 🙂

      • Personalmente, como me gusta poco el cacharreo, seguiría por el cluster de máquinas (para quitármelo ya) antes de pasar al «turrón» de la programación 😉

        ¿Qué opináis los demás? (vamos a aprovechar que Pepe está de oferta 😉 )

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s