Wiki do CiTIUS

Esta é unha revisión antiga do documento!

Descrición do servizo

Cluster de experimentación e investigación en Big Data. O obxectivo do cluster é proporcionar unha plataforma hardware axeitada para a tipoloxía de traballos asociada co Big Data cunha configuración que poida mudar flexiblemente, facendo posible investigar e experimentar con ela.

Alta no servizo

A alta debe solicitarse mediante o formulario de peticións e incidencias. Para acceder ó formulario precisas usuario e contrasinal do CITIUS.

Acceso

Unha vez otorgada a alta o acceso faise a través do nodo master que actúa como frontend de todo o cluster:

ssh <usuario citius>@master-bd1.inv.usc.es

Para poder acceder á interface de xestión de Ambari, é preciso redirixir o porto 8080 do nodo1 usando SSH. En caso de querer usar a interface de xestión, debe empregarse este comando:

ssh -L 8080:nodo1:8080 <usuario citius>@master-bd1.inv.usc.es

Uso

Para xestionar o cluster dende a interface de Apache Ambari, unha vez conectado por SSH coa opción -L 8080:nodo1:8080, conectarse a http://localhost:8080/

O usuario e contrasinal son admin/admin.

Software

Dende a consola de Ambari pode xestionarse o seguinte software:

HDFS 2.7.3
YARN 2.7.3
Tez 0.7.0
Hive 1.2.1000
Pig 0.16.0
ZooKeeper 3.4.6
Storm 1.1.0
Spark 1.6.3
Spark2 2.2.0
Zeppelin Notebook 0.7.3
Slider 0.92.0

Ademáis na seguinte táboa se indican outros proxectos xestionados por usuarios no cluster:

Usuario	Software	Nodos	Notas
David Luaces Cachaza	MongoDB Sharding	Todos	Hasta 12/19
Cesar Piñeiro Pomar	GlusterFS	Todos

Hardware

16 Servidores Dell EMC PowerEdge R730, cada un coa seguinte configuración:

2 x Intel Xeon E5-2630 v4 (2,2Ghz 10c)
384 GB de RAM: 12 x 32GB RDIMM 2400MT/s
32 TB HDD: 8 x 4TB 7.2k SATA 6Gbps en JBOD
2 x 10Gb BaseT y 2 x 1Gb BaseT

Cluster Big Data 1