El Big Data es muy difícil de aprender. Y muchas empresas están utilizando ese método en su organización.
El concepto completo de Big Data, o datos totales, y cómo recopilarlo y llevarlo al lago de datos puede sonar aterrador, pero lo es menos si se divide el problema de recopilación de datos en subconjuntos. Puede visitar este enlace más información: Big Data, Data Science – Curso combinado Clases de formación en línea | Big Data, Data Science – Cursos combinados en línea
- Datos de fuentes tradicionales: su contabilidad de sistemas transaccionales, sistemas de recursos humanos, etc. ya se están utilizando como fuentes de datos para análisis. Los procesos de ETL ya están en marcha para recopilar estos datos. Básicamente terminas con dos opciones. Duplique estos procesos de ETL, intercambiando el objetivo de EDW al lago de datos o replique su EDW en el lago de datos físicamente copiando los datos o prácticamente adoptando la arquitectura de lago de datos virtual (una variación del almacén de datos virtual) .
- Datos estructurados del Internet de las cosas: la complejidad principal con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingesta adecuada y oportuna. Pero estos datos suelen ser muy estandarizados, y los requisitos de transformación de datos en sentido ascendente no son inmensos.
- Datos no estructurados: la recopilación de archivos multimedia, datos de texto es algo que las plataformas de big data como Hadoop facilitan. Debido a que su almacenamiento es sin esquema, todo lo que se necesita es realmente “volcar” estos datos en el lago de datos y resolverlos más tarde.
Dadas las herramientas y API / conectores de ETL adecuados, así como el rendimiento adecuado, la recopilación de grandes volúmenes de datos no es la parte más difícil de la ecuación de Big Data.
Almacenamiento de datos
Las plataformas de Big Data son poly morph: pueden almacenar todo tipo de datos, y estos datos se pueden representar y acceder a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos sin SQL de consistencia relajada hasta Third-Normal-Form e incluso bases de datos relacionales de Fifth-Norm-Form, desde lectura directa hasta acceso de estilo de columnas al SQL transaccional, hay una respuesta para cada almacenamiento y acceso a los datos necesitar.
Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Provisión en la nube, y se convierte en elástica. Conceptualmente, al menos, almacenar datos grandes es la parte más fácil de la ecuación de Big Data.
¿Cómo puede la ciencia de datos ayudar a una empresa, como una farmacia?
¿Cuáles son las mayores oportunidades en los datos de atención médica hoy en día?
Donde se vuelve complicado es cómo hacerlo funcionar en la realidad. Desde la plataforma central Hadoop hasta las distribuciones comerciales hasta las plataformas híbridas ofrecidas por los proveedores de bases de datos, existen muchas opciones, muchos puntos de precio, muchas variaciones diferentes del concepto y muchos niveles de habilidades requeridos.
Usando datos
Una vez que tenga todos estos datos en el lago de datos, ¿cómo lo reúne todo? Transformar y conciliar datos, garantizar la coherencia entre las distintas fuentes, verificar la calidad de los datos: esta es la parte más difícil de la historia de los grandes datos y en la que hay menos automatización y ayuda disponibles.
Si necesita crear una aplicación sobre una fuente de datos específica o informar sobre un conjunto de datos coherente, existen muchas soluciones que automatizarán el proceso y lo harán sin problemas.
Pero cruza los límites de las fuentes, explora y aprovecha datos heterogéneos, aquí es donde estás solo. Y aquí es donde los proveedores que afirman que los grandes datos son fáciles deben intervenir y ayudar.