bd_gdc

PR0203: Uso de cliente HDFS(2)

1. Preparación el espacio de trabajo en HDFS

hdfs dfs -mkdir /proyectos
hdfs dfs -mkdir /proyectos/ecommerce
hdfs dfs -mkdir /proyectos/ecommerce/raw
hdfs dfs -mkdir /proyectos/ecommerce/procesados
hdfs dfs -mkdir /proyectos/ecommerce/backup

2. Carga inicial de logs

Descargamos los logs

wget -O log1.log https://vgonzalez165.github.io/practicas_bigdata/practicas/bda/ut02/access_log_20251002-131938.log
wget -O log2.log https://vgonzalez165.github.io/practicas_bigdata/practicas/bda/ut02/access_log_20251002-131952.log
wget -O log3.log https://vgonzalez165.github.io/practicas_bigdata/practicas/bda/ut02/access_log_20251002-132005.log

Los subimos a la carpeta

hdfs dfs -put log1.log /proyectos/ecommerce/raw
hdfs dfs -put log2.log /proyectos/ecommerce/raw
hdfs dfs -put log3.log /proyectos/ecommerce/raw

3. Inspección de datos

Listamos el contenido de /raw

hdfs dfs -ls /proyectos/ecommerce/raw

alt text

Visualizamos el contenido

hdfs dfs -cat /proyectos/ecommerce/raw/log1.log
hdfs dfs -cat /proyectos/ecommerce/raw/log2.log
hdfs dfs -cat /proyectos/ecommerce/raw/log3.log

alt text

Vemos cuantas lineas tiene

hdfs dfs -cat /proyectos/ecommerce/raw/log1.log | wc -l
hdfs dfs -cat /proyectos/ecommerce/raw/log2.log | wc -l
hdfs dfs -cat /proyectos/ecommerce/raw/log3.log | wc -l

alt text

4. Organización de los logs

Copiamos los archivos de /raw a /backup

hdfs dfs -cp /proyectos/ecommerce/raw/log* /proyectos/ecommerce/backup

Movemos los originales a procesados

hdfs dfs -mv /proyectos/ecommerce/raw/log* /proyectos/ecommerce/procesados

5. Acceso compartido para analistas

Verificamos los permisos

hdfs dfs -ls /proyectos/ecommerce/

alt text

Cambiamos los permisos de procesados

hdfs dfs -chmod 444 /proyectos/ecommerce/procesados

alt text

6. Simulación de trabajo con analistas

hdfs dfs -get /proyectos/ecommerce/procesados/log1.log

7. Mantenimiento y limpieza

hdfs dfs -put prueba.txt /proyectos/ecommerce/procesados/
hdfs dfs -rm /proyectos/ecommerce/procesados/prueba.txt

8. (Opcional, avanzado)

hdfs dfsadmin -setSpaceQuota 10M /proyectos/ecommerce/backup

alt text