La caja de herramientas del Científico de Datos

La caja de herramientas del Científico de Datos

Herramientas para el día a día de un Científico de Datos

Todo el mundo habla de una nueva especialización con mucho futuro que se llama “Científico de Datos”. Son esos especialistas en el bucear en los datos, en los algoritmos estadísticos que gestionan ese nuevo petróleo que es la información. Esto incluye especialidades tan diversas como la gestión de BigData, Machine Learning, análisis predictivo, cálculos científicos, etc.

Este perfil se distingue del programador, que piensa en otros aspectos del negocio, aunque son perfiles condenados a entenderse.

Pero ¿qué herramientas utilizan los científicos de datos? Pues la verdad es que como un programador puede empezar a programar con el Notepad y la línea de comandos, también un científico de datos puede empezar así, pero no es la forma más productiva en la actualidad.

Lo primero es aclarar que hay algunas especializadas en la gestión de los datos como tal, otras para el análisis y otras para la visualización. En este artículo hablamos principalmente de las segundas.

Herramientas como el lenguaje de programación R, orientado hacia el tratamiento estadístico, es una de las primeras herramientas que nos vienen a la cabeza, y que poco a poco se incluyen en los propios gestores de bases de datos o visualizadores más populares. Además, se amplía con infinidad de extensiones y paquetes para el trabajo con algoritmos y problemas de todo tipo.

 

Anaconda, la plataforma Open Source más utilizada en la ciencia de datos y el aprendizaje automático

Vía Jesús Conde

 

Esta herramienta se puede utilizar desde la propia línea de comandos, con RStudio, u otros entornos visuales.

Por otro lado, el lenguaje de programación Python, que también se utiliza en otros ámbitos, pero que combinado con R hacen una robusta pareja para los aspectos que no se pueden realizar directamente con R.

Y sobre ese lenguaje aparece Anaconda, una distribución basada en Python (nos gustan las serpientes) para simplificar el uso de estas herramientas y la gestión de paquetes de ciencia de datos y aprendizaje automático como Scikit-team, TensorFlow o SciPy.

Bueno, ya, pero ¿qué ejecutamos con Anaconda? Pues ejecutamos cuadernos Jupyter, que son documentos JSON con una interfaz visual, que combinan información, comandos ejecutables y resultados, todo en un mismo sitio y fácilmente editable. Es un entorno cómodo de trabajo.

 

Manejo y tutorial de uso rápido: Notebooks de Jupyter (IPython 3.0)

Vía Universidad de Alicante

 

Y para acabar, ¿dónde vemos los resultados? Pues en los cuadernos podemos tener resultados visuales, o también en herramientas de visualización específica. Algunas son opensource, otras empresariales como Tableau, centradas en el análisis y la visualización.

 

Inycom

Leave A Reply