Cluster Big Data 1
Descripción del servicio
Cluster de experimentación e investigación en Big Data. El objetivo del cluster es proporcionar una plataforma hardware adecuada para la tipología de trabajos asociada con el Big Data cuya configuración pueda cambiar de forma flexible, de modo que sea posible investigar y experimentar sobre ella.
Alta en el servicio
El alta debe solicitarse mediante es formulario de peticiones e incidencias. Para acceder al formulario necesitas el usuario y contraseña del CITIUS.
Acceso
Una vez otorgada el alta el acceso se realiza a través del nodo master que actua como frontend de todo el cluster:
ssh -X <usuario citius>@master-bd1.inv.usc.es
Para poder acceder a la interfaz de gestión de Ambari, es necesario redirigir el puerto 8080 del nodo1
usando SSH. En caso de querer usar la interfaz de gestión, debe emplearse este comando:
ssh -L 8080:nodo1:8080 <usuario citius>@master-bd1.inv.usc.es
Uso
Para gestionar el cluster desde la interfaz de Apache Ambari, una vez conectado por SSH con la opción -L 8080:nodo1:8080
, conectarse a http://localhost:8080/
El usuario y contraseña son admin/admin
.
Software
Desde la consola de Ambari se puede gestionar el siguiente software:
- HDFS 2.7.3
- YARN 2.7.3
- Tez 0.7.0
- Hive 1.2.1000
- Pig 0.16.0
- ZooKeeper 3.4.6
- Storm 1.1.0
- Spark 1.6.3
- Spark2 2.2.0
- Zeppelin Notebook 0.7.3
- Slider 0.92.0
Ademáis en la siguiente tabla se indican otros proyectos gestionados por usuarios en el cluster:
Usuario | Software | Nodos | Notas |
---|---|---|---|
David Luaces Cachaza | MongoDB Sharding | Todos | Hasta 12/19 |
Cesar Piñeiro Pomar | GlusterFS | Todos | |
Rodrigo Martinez Castaño | Docker | 3 y 4 |
Hardware
16 Servidores Dell EMC PowerEdge R730, cada uno con la siguiente configuración:
- 2 x Intel Xeon E5-2630 v4 (2,2Ghz 10c)
- 384 GB de RAM: 12 x 32GB RDIMM 2400MT/s
- 32 TB HDD: 8 x 4TB 7.2k SATA 6Gbps en JBOD
- 2 x 10Gb BaseT y 2 x 1Gb BaseT