¿Ciencia de datos?¿Machine Learning?¿Business Analytics?¿Y eso con qué se come?
Hoy en día el mundo avanza a pasos agigantados, en el ámbito profesional los temas están en constante evolución lo que de cierta manera pone a todo el mundo en una situación de «¡Sálvese quien pueda!». Es entonces cuando los profesionales más acuciosos y que usualmente tienen el habito de estar en constante capacitación, emprenden un camino en busca del conocimiento.
Bueno resulta ser que nosotros somos de esos profesionales acuciosos. ¿Verdad? Pues bueno ya estamos listos para salir al mundo y justo cuando tenemos toda la motivación, nos encontramos con el primer término y cuando comenzamos a estudiarlo aparece otro que es muy similar pero no es lo mismo y así sucesivamente volviendo el tema de estudio cada vez mas engorroso.
¿Sera que existe alguna guía que me permita conocer los conceptos mas relevantes de este tema?
Dentro del mundo de la Ciencia de Datos existe un amplio argot que se debe de conocer si uno piensa inmiscuirse en el uso del mismo. A continuación compartiré algunos términos que son prioritarios para cualquier neófito en la materia mencionando algunas diferencias o similitudes entre sí.
«Somos capaces de predecir el futuro, pero lo hacemos mejor o peor en función de la cantidad de información de la que disponemos. Evidentemente, si alguien tiene datos muy buenos, realizará una mejor predicción del futuro que si simplemente intenta adivinarlo.» — António Damásio
ÍNDICE
- Analítica (Analytics)
- Data Mining
- OLAP
- Big Data Analytics
- Data Science
- Artificial Intelligence
- Machine Learning
- Data Warehouse
1. Analytics
Es un término ampliamente utilizado en el campo de la ciencia de datos y para ser directo este se puede comprender como el proceso de seccionar un problema en partes menos complejas y utilizar predicciones basadas en datos (evidencias) para motivar la toma de decisiones, se puede decir que no es una herramienta o tecnología, es más una manera de pensar y actuar en las empresas (Cultura y método)
La analítica tiene aplicaciones dirigidas a muchas áreas como las telecomunicaciones, el marketing, los deportes, video juegos, la ciencia, la psicología, la salud, etc.
2. Data Mining
La Minería de Datos (Data Mining) es uno de los términos que más escuchamos y relacionamos con Analytics. Dicho término fue utilizado más en las décadas anteriores entre los 90 y 2000. No obstante este término se comenzó a confundir con otros como OLAP y lo que llevo a la comunidad a utilizar términos más específicos como “análisis predictivo” según las estadísticas de búsqueda de Google la palabra Analytics supero a Data Mining como tendencia y actualmente es buscado por los usuarios 5 veces más.
3. OLAP
El Procesamiento Analítico en Línea (Online Analytical Processing) se refiere a las técnicas analíticas descriptivas de cortar y dividir los datos para comprenderlos mejor y descubrir patrones e ideas. El término se deriva de otro término «OLTP»: Procesamiento de Transacciones en Línea que proviene del mundo del almacenamiento de datos.
4. Big Data Analytics
Hoy en día dentro de las empresas la cantidad de datos que se maneja y se desea analizar es cada vez más grande llegando a tener conjuntos de datos enormes, categorizados de muchas maneras y que se reciben a diferentes velocidades.
Es inevitable que las empresas utilicen nuevas tecnologías como Hadoop y Map Reduce para almacenar y mapear estas grandes cantidades de datos, además muchos tipos de datos (estructurados y no estructurados) fluye a un ritmo rápido, esto no solo requiere tecnología avanzada, también requiere de plataformas avanzadas que sirvan para el procesamiento y análisis.
Como síntesis se puede decir que los grandes conjuntos de datos junto con la tecnología y las plataformas de análisis para obtener información de dichos datos se puede definir como Big Data Analytics
5. Data Science
La Ciencia de Datos y el Analytics se usan principalmente de manera intercambiable. Sin embargo, a veces se espera que un científico de datos posea una mayor sofisticación matemática y estadística que un analista de datos. Se espera que un científico de datos esté bien versado en álgebra lineal, cálculo, aprendizaje automático y debería ser capaz de navegar los detalles esenciales de las matemáticas y las estadísticas con mucha facilidad.
Los términos Análisis de Datos y Ciencia de Datos normalmente son utilizados de manera intercambiable por muchos sin embargo el Ingeniero en ciencia de Datos o científico de datos se espera que sea un especialista en matemática y estadística, aprendizaje automático, calculo y algebra lineal, en resumen un experto en matemática que sea bien versado en el uso de tecnología.
6. Artificial Intelligence
Durante las primeras etapas de la informática, hubo muchas comparaciones entre la informática y el proceso de aprendizaje humano y esto se refleja en la terminología. La Inteligencia Artificial (IA) es una simulación de procesos de inteligencia humana por máquinas. Combina la informática con conjuntos de datos sólidos para permitir la resolución de problemas utilizando las capacidades de aprendizaje rápido de las máquinas.
7. Machine Learning
Similar a «inteligencia artificial», este término también ha perdido su popularidad en el pasado reciente a términos como «Analytics» y sus derivados. Machine Learning es una aplicación práctica de IA, donde un sistema utiliza datos e información para aprender y mejorar con el tiempo mediante la identificación de tendencias, patrones, relaciones y optimizaciones.
8. Data Warehouse
El almacenamiento de datos es el proceso de gestión de una base de datos e implica la extracción, transformación y carga (ETL) de datos. El almacenamiento de datos precede al análisis. Los datos administrados en un almacén de datos (Data Warehouse) generalmente se extraen y se utilizan para análisis comerciales.
¿Ya aprendí varios conceptos y ahora qué?
Luego de haber explorado los diferentes conceptos del mundo de los datos, mi recomendación es sencilla, enfócate en aprender lo esencial para comenzar a explorar este mundo, aprende una herramienta de visualización de datos (Power BI, Tableau, Qlik), aprende una herramienta para almacenar tus datos (bases de datos) y aprende una herramienta para limpiar y manipular tus datos.
Y algo que es esencial es afinar tu conocimiento matemático, especialmente el área de la estadística, con esto te estarías asegurando unos buenos cimientos para construir tu carrera de Científico de datos, Ingeniero de datos o analista de datos.