· min de lectura

Flux IT fue parte de las 7º Jornadas de Cloud Computing y Big Data

Joaquín Díaz Vélez presentó la experiencia de aplicar Machine Learning para el estudio de datos genómicos.

En el marco de una nueva edición del evento, organizado por el Instituto de Investigación en Informática LIDI y la Secretaría de Posgrado de la Facultad de Informática de la Universidad Nacional de La Plata (sede de las Jornadas), Joaquín Díaz Vélez, business developer en Flux IT, fue invitado a compartir la experiencia de aplicar Machine Learning en el campo de la Bioinformática: concretamente, para el estudio de datos genómicos (medicina de precisión), en un trabajo conjunto con Bitgenia.

La ponencia, incluida en el panel de exposiciones de empresas y titulada “Asistiendo en el diagnóstico genómico con Machine Learning”, se enfocó en cómo un equipo de Flux IT trabajó en optimizar un proceso vital para el negocio, como el proceso de diagnóstico.

“El problema al que nos enfrentamos era encontrar una aguja en un pajar: los genes son miles, y los síntomas asociados a estos también son muchísimos, y generalmente no vienen bien definidos. Hoy una persona se encarga de esto de forma manual, haciendo un gran trabajo de filtrado y selección, que lleva aproximadamente unos cinco días.”

Explicó Joaquín, en referencia al complejo proceso que se lleva adelante, a partir de la historia clínica de un paciente, para determinar cuáles son los genes relevantes de cara a una posterior evaluación.


La solución propuesta, aclaró el experto de Flux IT, debía poder atender dos objetivos principales: por un lado, llegar a un diagnóstico más preciso (simplificar la selección de genes); y, por el otro, lograr que la operación de carga de síntomas sea más sencilla.

Actualmente, la información para realizar un análisis de datos genómicos se obtiene de distintas fuentes: repositorios públicos (donde se determina cuál es la estructura de los síntomas y cómo están relacionados unos con otros); bases de conocimiento de Bitgenia (que contienen cerca de 400 casos con los que viene trabajando la empresa); y estudios o ensayos públicos (en formato XML). A esto se suma la B-Platform de Bitgenia, aplicación donde se gestionan los análisis genómicos.

“Lo que hicimos fue sumar un sistema de recomendación, para tomar la información que viene de esos tres repositorios y disponibilizarla a la B-Platform, para que pueda hacer consultas. La plataforma de gestión nos invoca a través de servicios REST, y nosotros procesamos la información de todas las bases. Con eso generamos un modelo que implementamos en una base de datos. ¿Cómo tenemos los datos? A través de nodos y relaciones con propiedades, que nos permiten hacer la consulta más rápido, y saber en seguida qué profundidad tiene un síntoma.”

Además, agregó que, en los casos en que no se logra encontrar la mutación que es compatible con los síntomas, la solución genera un sistema de recomendación que sugiere los genes probablemente responsables de un síntoma X.

“Usamos una serie de indicadores: repetición (cada cuánto aparece ese gen en otras enfermedades o síntomas); profundidad (qué tan específico es ese gen); y presencia en estudios o en la base de conocimiento de Bitgenia. A través de Machine Learning, todo eso elabora un ranking que ordena el resultado de la búsqueda. Esa función se aplica a todos los resultados que tenemos de los genes, y nos da una lista de genes para secuenciar.”


Concluyendo con la ponencia, comentó que, al ser una solución utilizada por médicos o analistas, se decidió aplicar Natural Language Processing (para mejorar la precisión del diagnóstico), y se está trabajando en lograr una experiencia de usuario superadora a fin de que todo el proceso de diagnóstico genómico sea más simple e intuitivo.

Hoy el motor de recomendación está en etapa de pruebas e integración con la B-Platform:

“Estamos probando con enfermedades conocidas y detectables para ver si el ranking da un resultado adecuado. Es decir, si nos devuelve entre los primeros tres o diez genes el gen relevante. Más adelante vendrá el desafío de adaptar el proceso de entrada de datos, avanzar en el análisis de resultados y mejorar la calidad de los datos.”

El panel cerró con un espacio de preguntas referidas al caso, por parte de los asistentes.