Esta é unha revisión antiga do documento!
Cluster Big Data 1
Descrición do servizo
Cluster de experimentación e investigación en Big Data. O obxectivo do cluster é proporcionar unha plataforma hardware axeitada para a tipoloxía de traballos asociada co Big Data cunha configuración que poida mudar flexiblemente, facendo posible investigar e experimentar con ela.
Alta no servizo
A alta debe solicitarse mediante o formulario de peticións e incidencias. Para acceder ó formulario precisas usuario e contrasinal do CITIUS.
Acceso
Unha vez otorgada a alta o acceso faise a través do nodo master que actúa como frontend de todo o cluster:
ssh <usuario citius>@master-bd1.inv.usc.es
Para poder acceder á interface de xestión de Ambari, é preciso redirixir o porto 8080 do nodo1
usando SSH. En caso de querer usar a interface de xestión, debe empregarse este comando:
ssh -L 8080:nodo1:8080 <usuario citius>@master-bd1.inv.usc.es
Uso
Para xestionar o cluster dende a interface de Apache Ambari, unha vez conectado por SSH coa opción -L 8080:nodo1:8080
, conectarse a http://localhost:8080/
O usuario e contrasinal son admin/admin
.
Software
Dende a consola de Ambari pode xestionarse o seguinte software:
- HDFS
- YARN
- MapReduce2
- Tez
- Hive
- Pig
- ZooKeeper
- Storm
- Spark
- Spark2
- Zeppelin
- Notebook
- Slider
Ademáis na seguinte táboa se indican outros proxectos xestionados por usuarios no cluster:
Hardware
16 Servidores Dell EMC PowerEdge R730, cada un coa seguinte configuración:
- 2 x Intel Xeon E5-2630 v4 (2,2Ghz 10c)
- 384 GB de RAM: 12 x 32GB RDIMM 2400MT/s
- 32 TB HDD: 8 x 4TB 7.2k SATA 6Gbps en JBOD
- 2 x 10Gb BaseT y 2 x 1Gb BaseT