bd_gdc

PR0202: Uso del cliente HDFS

1. Preparación del entorno

hdfs dfs -mkdir /guille
hdfs dfs -mkdir /guille/proyecto_datos

2. Carga de datasets

curl -L -o ~/Downloads/vehicle-price-prediction.zip\
  https://www.kaggle.com/api/v1/datasets/download/metawave/vehicle-price-prediction
unzip vehicle-price-prediction.zip
hdfs dfs -put /home/hadoop/Downloads/vehicle_price_prediction.csv /guille/proyecto_datos

3. Exploración de datos

hdfs dfs -cat /guille/proyecto_datos/vehicle_price_prediction.csv

alt text

hdfs dfs -cat /guille/proyecto_datos/vehicle_price_prediction.csv | wc -l

alt text

4. Organización del proyecto

hdfs dfs -mkdir /guille/proyecto_datos/procesados
hdfs dfs -mkdir /guille/proyecto_datos/backup

hdfs dfs -cp /guille/proyecto_datos/vehicle_price_prediction.csv /guille/proyecto_datos/backup

hdfs dfs -mv /guille/proyecto_datos/vehicle_price_prediction.csv /guille/proyecto_datos/procesados

5. Colaboración en el equipo

hdfs dfs -mkdir /compartido
hdfs dfs -cp /guille/proyecto_datos/procesados/vehicle_price_prediction.csv /compartido

6. Recuperación de datos

hdfs dfs -get /guille/proyecto_datos/procesados/vehicle_price_prediction.csv ./

7. Control de accesos

hdfs dfs -ls /guille/proyecto_datos
hdfs dfs -ls /guille/proyecto_datos/procesados
hdfs dfs -ls /guille/proyecto_datos/backup

hdfs dfs -chmod 600 /guille/proyecto_datos/backup/vehicle_price_prediction.csv

8. Mantenimiento

hdfs dfs -rm /guille/proyecto_datos/prueba.txt

alt text

9. (Opcional, avanzado)

hdfs dfsadmin -setQuota 5 /guille/proyecto_datos

alt text