Cientistas do MIT constroem um sistema que pode gerar modelos de IA para pesquisas biológicas

Imagem anterior Próxima imagem

É possível construir modelos de aprendizado de máquina sem experiência em aprendizado de máquina?

Jim Collins, professor Termeer de Engenharia Médica e Ciência no Departamento de Engenharia Biológica do MIT e professor de ciências biológicas líder da Clínica Abdul Latif Jameel para Aprendizado de Máquina em Saúde (Clínica Jameel), juntamente com vários colegas decidiram abordar esse problema ao enfrentar um enigma semelhante. Um artigo de acesso aberto sobre a solução proposta, chamado BioAutoMATED, foi publicado em 21 de junho na Cell Systems.

O recrutamento de pesquisadores de aprendizado de máquina pode ser um processo demorado e financeiramente caro para laboratórios de ciência e engenharia. Mesmo com um especialista em aprendizado de máquina, selecionar o modelo apropriado, formatar o conjunto de dados para o modelo e, em seguida, ajustá-lo pode mudar drasticamente o desempenho do modelo e exige muito trabalho.

“Em seu projeto de aprendizado de máquina, quanto tempo você normalmente gastará na preparação e transformação de dados?” pergunta um curso do Google de 2022 sobre Fundamentos do aprendizado de máquina (ML). As duas opções oferecidas são “Menos da metade do tempo do projeto” ou “Mais da metade do tempo do projeto”. Se você adivinhou o último, você estaria correto; O Google afirma que leva mais de 80% do tempo do projeto para formatar os dados, e isso sem levar em conta o tempo necessário para enquadrar o problema em termos de aprendizado de máquina.

“Seriam necessárias muitas semanas de esforço para descobrir o modelo apropriado para o nosso conjunto de dados, e este é um passo realmente proibitivo para muitas pessoas que querem usar aprendizado de máquina ou biologia”, diz Jacqueline Valeri, estudante do quinto ano de doutorado. de engenharia biológica no laboratório de Collins, que é o primeiro coautor do artigo.

BioAutoMATED é um sistema automatizado de aprendizado de máquina que pode selecionar e construir um modelo apropriado para um determinado conjunto de dados e até mesmo cuidar da laboriosa tarefa de pré-processamento de dados, reduzindo um processo de meses para apenas algumas horas. Os sistemas automatizados de aprendizado de máquina (AutoML) ainda estão em um estágio relativamente incipiente de desenvolvimento, com o uso atual focado principalmente no reconhecimento de imagens e texto, mas em grande parte não utilizados em subcampos da biologia, aponta o primeiro coautor e pós-doutorado da Jameel Clinic, Luis Soenksen PhD '20.

“A linguagem fundamental da biologia é baseada em sequências”, explica Soenksen, que obteve seu doutorado no Departamento de Engenharia Mecânica do MIT. “Sequências biológicas como DNA, RNA, proteínas e glicanos têm a incrível propriedade informacional de serem intrinsecamente padronizadas, como um alfabeto. Muitas ferramentas AutoML são desenvolvidas para texto, então fazia sentido estendê-las para sequências [biológicas].”

Além disso, a maioria das ferramentas AutoML só pode explorar e construir tipos reduzidos de modelos. “Mas você não pode realmente saber desde o início de um projeto qual modelo será melhor para o seu conjunto de dados”, diz Valeri. “Ao incorporar várias ferramentas em uma única ferramenta, realmente permitimos um espaço de pesquisa muito maior do que qualquer ferramenta AutoML individual poderia alcançar sozinha.”

O repertório de modelos de ML supervisionados do BioAutoMATED inclui três tipos: modelos de classificação binária (dividindo dados em duas classes), modelos de classificação multiclasse (dividindo dados em múltiplas classes) e modelos de regressão (ajustando valores numéricos contínuos ou medindo a força dos principais relacionamentos entre variáveis). BioAutoMATED é ainda capaz de ajudar a determinar quantos dados são necessários para treinar adequadamente o modelo escolhido.

“Nossa ferramenta explora modelos que são mais adequados para conjuntos de dados biológicos menores e mais esparsos, bem como redes neurais mais complexas”, diz Valeri. Esta é uma vantagem para grupos de pesquisa com novos dados que podem ou não ser adequados para um problema de aprendizado de máquina. .

"A realização de experimentos novos e bem-sucedidos na interseção da biologia e do aprendizado de máquina pode custar muito dinheiro", explica Soenksen. "Atualmente, os laboratórios centrados na biologia precisam investir em infraestrutura digital significativa e em recursos humanos treinados em AI-ML antes mesmo de poderem veja se suas ideias estão prontas para dar certo. Queremos reduzir essas barreiras para especialistas no domínio da biologia.” Com o BioAutoMATED, os pesquisadores têm a liberdade de realizar experimentos iniciais para avaliar se vale a pena contratar um especialista em aprendizado de máquina para construir um modelo diferente para futuras experimentações.