Wiki do CiTIUS

Tabla de Contenidos

Cluster Big Data 1

Descripción del servicio

Cluster de experimentación e investigación en Big Data. El objetivo del cluster es proporcionar una plataforma hardware adecuada para la tipología de trabajos asociada con el Big Data cuya configuración pueda cambiar de forma flexible, de modo que sea posible investigar y experimentar sobre ella.

Alta en el servicio

El alta debe solicitarse mediante es formulario de peticiones e incidencias. Para acceder al formulario necesitas el usuario y contraseña del CITIUS.

Acceso

Una vez otorgada el alta el acceso se realiza a través del nodo master que actua como frontend de todo el cluster:

ssh -X <usuario citius>@master-bd1.inv.usc.es

Para poder acceder a la interfaz de gestión de Ambari, es necesario redirigir el puerto 8080 del nodo1 usando SSH. En caso de querer usar la interfaz de gestión, debe emplearse este comando:

ssh -L 8080:nodo1:8080 <usuario citius>@master-bd1.inv.usc.es

Uso

Para gestionar el cluster desde la interfaz de Apache Ambari, una vez conectado por SSH con la opción -L 8080:nodo1:8080, conectarse a http://localhost:8080/

El usuario y contraseña son admin/admin.

Software

Desde la consola de Ambari se puede gestionar el siguiente software:

HDFS 2.7.3
YARN 2.7.3
Tez 0.7.0
Hive 1.2.1000
Pig 0.16.0
ZooKeeper 3.4.6
Storm 1.1.0
Spark 1.6.3
Spark2 2.2.0
Zeppelin Notebook 0.7.3
Slider 0.92.0

Ademáis en la siguiente tabla se indican otros proyectos gestionados por usuarios en el cluster:

Usuario	Software	Nodos	Notas
David Luaces Cachaza	MongoDB Sharding	Todos	Hasta 12/19
Cesar Piñeiro Pomar	GlusterFS	Todos
Rodrigo Martinez Castaño	Docker	3 y 4

Hardware

16 Servidores Dell EMC PowerEdge R730, cada uno con la siguiente configuración:

2 x Intel Xeon E5-2630 v4 (2,2Ghz 10c)
384 GB de RAM: 12 x 32GB RDIMM 2400MT/s
32 TB HDD: 8 x 4TB 7.2k SATA 6Gbps en JBOD
2 x 10Gb BaseT y 2 x 1Gb BaseT

Cluster Big Data 1