Llamado de solidaridad para los usuarios de Excel
Cuando se habla de big data, por lo general la gente común siente que es algo super lejano, un poco de culpa tienen los noticieros tendenciosos, pero al fin y al cabo estamos hablando de muchos datos, que es básicamente para lo que se usan herramientas como excel. Excel y todos los programas similares son muy buenos cuando los datos son relativamente pocos, pero con muchos datos, la situación se complica y se ve vulnerable la velocidad de procesamiento hasta un momento que es prácticamente inutilizable (y solo por los datos, no vamos a hablar hoy como es que el último excel, consume tantos recursos que hasta con la computadora mas nueva se traba, por mas que desde el 95, los excel's son prácticamente lo mismo).Con muchos datos ya se tienen que utilizar otras herramientas como python, el problema, muchas veces, es la transición entre estos 2, para verlo mejor veamos un caso práctico:
![]() |
En una empresa se necesita hacer un ensayo a una máquina y alguien dice "Guardemos los datos para tenerlos después", por lo que el subordinado, durante el ensayo toma un excel y pone los datos uno debajo del otro. Luego pasan unas semanas, y otra persona que corresponde al mismo puesto de trabajo debe hacer el mismo ensayo al mismo equipo, por lo que, toma la planilla de calculo y para no modificar mucho, agrega los datos del ensayo en otra hoja. Estos 2, sin darse cuenta crearon un formato que luego, si se tiene que hacer el ensayo muchas veces, quien toma la planilla reconoce y replica ("si los antiguos lo hicieron de esa forma, por algo debe ser"). Después de mucho tiempo, el jefe decide utilizar esos datos para realizar un mantenimiento predictivo del equipo por lo que llama a un analista o científico de datos para que genere un algoritmo, y él es el final de la cadena que sufre por tener datos inutilizables los cuales tendrá que pasar horas ordenándolos y limpiándolos.
Vamos a mostrar como un caso sencillo puede dar varios dolores de cabeza, y como no podía ser de otra forma, vamos a mostrar algunas formas de limpiar datos con datos sucios del sistema de cloacas de Mendoza (Da bum ts!).
Ranking sobre la "mierda"
Nuestro objetivo será hacer un ranking de los distintos departamentos para ver quien tiene menor quejas por usuario.
Los datasets que utilizaremos son los siguientes:- Usuarios de red cloacal
- Quejas en la red
Como verán el segundo dataset no indica quien tiene mas problemas, indica la cantidad de quejas, lo cual no es precisamente lo mismo pero nosotros lo vamos a tomar como que si (osea, ranking de mierda, no se que precisión esperaban)
Los datos
Dataset de usuarios
Estos corresponden al año 2017 (los últimos que encontramos disponibles), es el detalle de los reclamos que ingresaron al Ente Provincial del Agua y Saneamiento.
Dataset de recursos
Al igual que los datos anteriores, corresponden al año 2017 (los últimos que encontramos disponibles), corresponden a diversos operadores que tienen a su cargo la prestación de los servicios de agua potable y cloacas
De estos datos ya podemos sacar algunas conclusiones, podemos ver que algunos departamentos no tienen quejas, lo que nos puede indicar algunas cosas como:
- Tienen buen servicio;
- No contestan el teléfono,;
- A sus quilombos, ni los registran;
La limpieza
Limpieza
¿Que tener en cuenta?
1. Filas y Columnas
2. Las columnas son gratis
3. Encabezados
4. Validación de datos
5. Data separada de las conclusiones
Conclusiones
¿Necesitas ayuda?
Podes hacer preguntas aca abajo en los comentarios o en nuestros perfiles de linkedin que puedes encontrar en este link.
Si estas buscando ayuda en proyectos grandes, nos podes contratar por medio de nuestra consultora haciendo click en este link
. Hacemos ingenieria electromecanica, civil, desarrollo de software y varias cosas mas.


Comentarios
Publicar un comentario