Olá, Javier Sampedro, aqui é o seu guia das tendências que estão moldando o futuro imediato. Desejo-lhe um feliz 2025. Enquanto você prepara a travessia do deserto à base de suco de rabanete e acelga fervida sem sal, numa tentativa patética de compensar o festival de gordura que você se inscreveu há três semanas, vou propor aqui um exercício. reative o cérebro, um ano difícil está chegando e preciso de você em plena forma intelectual.
Diz Pushmeet Kohli, vice-presidente de ciência do Google DeepMind e uma das mentes mais brilhantes e criativas do nosso tempo, que seu próximo desafio é “compreender a semântica do DNA ” . Kohli é um dos arquitetos da maior conquista em inteligência artificial até hoje, o AlphaFold, o sistema que prevê a estrutura das proteínas, ou nanomáquinas que executam todas as tarefas do seu corpo e mente.
Uma proteína é um colar de cerca de 300 contas de 20 tipos diferentes (aminoácidos). Alguns aminoácidos têm carga positiva e outros têm carga negativa, uns gostam da água e outros fogem dela, uns são grandes e outros pequenos, e tudo isto faz com que o colar se dobre numa forma tridimensional específica, que é o que depende de sua função.
O problema é extraordinariamente complicado, mas AlphaFold pode lidar com ele e previu com precisão a forma de 200 milhões de proteínas apenas a partir de sua sequência (ou da sequência de seus genes, que é a mesma na prática), revolucionando a biologia molecular e a pesquisa médica. tratamentos.
Então, o que Kohli quer dizer com compreensão da semântica do DNA? O que acabamos de ver já é uma forma de semântica, que nos permite viajar da sequência de um gene (gatacca...) até a forma da proteína que o gene significa (codifica, no jargão). Então? Ok, derrame o suco de rabanete, agora vem a parte difícil.
Os genes, ou trechos de DNA que representam proteínas, representam apenas 2% do genoma humano. Muitas características da biologia humana, e muitas doenças que a perturbam, devem-se a variações (mutações) na sequência dos genes, que se traduzem em variações na sequência das proteínas e alteram a sua função. Mas há muitas outras mutações importantes que não existem, mas sim nos restantes 98% do genoma. E sobre estes sabemos muito pouco. Esta é a semântica do DNA que Kohli quer investigar agora.
Há um quarto de século que sabemos que a diferença entre um rato e uma pessoa não está na sua lista de genes - é praticamente idêntica, excepto os genes da cauda e do sistema imunitário - mas em onde e quando o mesmo genes são ativados. E isso depende dos 98% do genoma que não são genes, ou pelo menos não o são no sentido estrito que usamos. Conseqüentemente, as mutações nesta matéria escura do genoma às vezes têm efeitos drásticos na saúde e na doença.
Acontece que distinguir mutações importantes da massa de ruído genético irrelevante que se acumula nessas vastas sequências de DNA é um problema monumental. Algo em que o cientista-chefe do Google DeepMind espera que a inteligência artificial possa ajudar. Não é de surpreender que o genoma seja um texto e, portanto, suscetível de análise pelos mesmos grandes modelos de linguagem ( LLM ) que fundamentam o ChatGPT e seu crescente número de concorrentes no campo comercial. Apenas colocado ao serviço da ciência e não da ganância das maiores fortunas do mundo.
Como ex-biólogo molecular e como atual aspirante a ficar doente devido a algo horrível, acompanharei com grande interesse os projetos de Kholi e seus 150 pesquisadores na DeepMind. E também sinto algumas complicações interessantes que exigirão mais do que a análise estatística de textos a que os LLMs estão acostumados. As complicações a que me refiro devem-se a um facto muito simples que quase ninguém leva em conta: que o ADN não é apenas informação, mas também uma coisa, um objecto físico que ocupa muito espaço no núcleo de cada um de nós. . nossas células, e cuja gestão requer a gestão de uma geometria nuclear que não compreendemos de todo.
A função de um segmento de DNA depende não apenas de sua sequência, mas também de sua localização no núcleo da célula. A matéria escura do genoma está repleta de sequências repetidas ou muito semelhantes que podem interagir e interagem durante o ciclo de vida da célula. Alguns trechos de DNA podem se recombinar com outros, ou seja, trocar segmentos que não são idênticos. E o genoma se parece menos com um banco de dados estático do que com um intercâmbio de transporte na hora do rush, com pedaços de sequência (transposons ou genes saltadores) saltando para frente e para trás sob certas condições. Tempos emocionantes estão por vir para o avanço do conhecimento. Acorde do seu sonho de Natal. |