Big Data: ¿cómo se puede acceder a big data de pharma?

El Big Data es muy difícil de aprender. Y muchas empresas están utilizando ese método en su organización.

El concepto completo de Big Data, o datos totales, y cómo recopilarlo y llevarlo al lago de datos puede sonar aterrador, pero lo es menos si se divide el problema de recopilación de datos en subconjuntos. Puede visitar este enlace más información: Big Data, Data Science – Curso combinado Clases de formación en línea | Big Data, Data Science – Cursos combinados en línea

  • Datos de fuentes tradicionales: su contabilidad de sistemas transaccionales, sistemas de recursos humanos, etc. ya se están utilizando como fuentes de datos para análisis. Los procesos de ETL ya están en marcha para recopilar estos datos. Básicamente terminas con dos opciones. Duplique estos procesos de ETL, intercambiando el objetivo de EDW al lago de datos o replique su EDW en el lago de datos físicamente copiando los datos o prácticamente adoptando la arquitectura de lago de datos virtual (una variación del almacén de datos virtual) .
  • Datos estructurados del Internet de las cosas: la complejidad principal con el sensor y otros datos de la máquina es el volumen y el rendimiento requerido para una ingesta adecuada y oportuna. Pero estos datos suelen ser muy estandarizados, y los requisitos de transformación de datos en sentido ascendente no son inmensos.
  • Datos no estructurados: la recopilación de archivos multimedia, datos de texto es algo que las plataformas de big data como Hadoop facilitan. Debido a que su almacenamiento es sin esquema, todo lo que se necesita es realmente “volcar” estos datos en el lago de datos y resolverlos más tarde.

Dadas las herramientas y API / conectores de ETL adecuados, así como el rendimiento adecuado, la recopilación de grandes volúmenes de datos no es la parte más difícil de la ecuación de Big Data.

Almacenamiento de datos

Las plataformas de Big Data son poly morph: pueden almacenar todo tipo de datos, y estos datos se pueden representar y acceder a través de diferentes prismas. Desde el simple almacenamiento de archivos hasta las bases de datos sin SQL de consistencia relajada hasta Third-Normal-Form e incluso bases de datos relacionales de Fifth-Norm-Form, desde lectura directa hasta acceso de estilo de columnas al SQL transaccional, hay una respuesta para cada almacenamiento y acceso a los datos necesitar.

Debido a sus conceptos de diseño fundamentales, la plataforma es infinitamente vendible. Provisión en la nube, y se convierte en elástica. Conceptualmente, al menos, almacenar datos grandes es la parte más fácil de la ecuación de Big Data.

Donde se vuelve complicado es cómo hacerlo funcionar en la realidad. Desde la plataforma central Hadoop hasta las distribuciones comerciales hasta las plataformas híbridas ofrecidas por los proveedores de bases de datos, existen muchas opciones, muchos puntos de precio, muchas variaciones diferentes del concepto y muchos niveles de habilidades requeridos.

Usando datos

Una vez que tenga todos estos datos en el lago de datos, ¿cómo lo reúne todo? Transformar y conciliar datos, garantizar la coherencia entre las distintas fuentes, verificar la calidad de los datos: esta es la parte más difícil de la historia de los grandes datos y en la que hay menos automatización y ayuda disponibles.

Si necesita crear una aplicación sobre una fuente de datos específica o informar sobre un conjunto de datos coherente, existen muchas soluciones que automatizarán el proceso y lo harán sin problemas.

Pero cruza los límites de las fuentes, explora y aprovecha datos heterogéneos, aquí es donde estás solo. Y aquí es donde los proveedores que afirman que los grandes datos son fáciles deben intervenir y ayudar.

Lo primero a tener en cuenta es que las compañías farmacéuticas … son compañías.

Sí, el negocio principal es el descubrimiento, la prueba y la comercialización de medicamentos, pero hay una gran cantidad de datos comerciales farmacéuticos que residen fuera de los sistemas de laboratorio.

Por lo tanto, su ruta hacia los datos farmacéuticos puede ser, en general, del lado de la investigación de la industria farmacéutica, o del lado comercial de la industria farmacéutica, que incluye la fabricación y las ventas / comercialización.

En ambos extremos del espectro, entrar en ‘big data’ es lo mismo que en cualquier otro lugar: comprender los conceptos, comprender cuáles podrían ser los casos de uso, recoger un conjunto de herramientas (al ritmo de los cambios actuales), desaconsejaría casarse con una sola tecnología), y elegir una empresa e industria que se alinee con lo que eres.

La segunda cosa es … si eres un ingeniero de big data probado, un especialista en devops o un científico de datos, no dudes en enviarme una nota con tus datos 🙂

Hay algunos programas de posgrado que probablemente sean útiles.

Buscaría programas en bioestadística primero. Estos son principalmente de naturaleza estadística, pero cuando se trata de grandes conjuntos de datos como aquellos a los que te refieres, tener una sólida base en estadísticas será increíblemente útil. Una simple búsqueda en Google revela muchos buenos programas en esta área.

Los programas de bioinformática son otra buena forma de entrar, estos estarán menos enfocados en las estadísticas subyacentes a los conjuntos de datos y más sobre la biología subyacente, con una capa de tecnología aplicada además de eso. Es una respuesta diferente a una pregunta similar.

Finalmente, analizaría los programas de informática que hacen énfasis en el análisis de “grandes datos”. Son muy populares en este momento y las técnicas que aprenda en estos programas serán fácilmente aplicables al espacio farmacéutico.


Una vez que tenga un fondo (o tal vez ya lo haga y esté buscando aplicarlo), existen numerosas convenciones en las que puede obtener más información sobre cómo se aplica y, posiblemente, hacer contactos para ayudarlo a entrar en el campo.

Si por Pharma algunas personas buscan en la industria de la salud, aquí hay un blog que explica cómo Big Data se está utilizando en Heathcare y cuáles son los campos en los que se debe enfocar 5 Aplicaciones de Hadoop y Big Data en salud por Hadoop Training Online – Get Certified by IBM

Si desea estudiarlos, existen diferentes enfoques que puede utilizar, uno de los mejores es a través de seminarios web en línea como este http://www.dezyre.com/Hadoop-Tra
Si desea usarlos, de acuerdo con su ubicación puede usar diferentes fuentes como openmrs.com entre otros

Las compañías como Pharamarc, IMS Health, Novartis, etc. son buenas opciones para ingresar a big data de pharma.
Aprende habilidades como R, big data (hadoop, colmena, bases de datos nosql, etc.)