Rodrigo Véras

A seleção natural foi refutada? Os argumentos de William Dembski [Tradução]

O movimento antievolucionista, cuja versão mais moderna é o ‘Criacionismo do Design Inteligente’ (CDI), em sua campanha contra o ensino de evolução, depende da distorção da literatura científica. Eles fazem isso de maneira a lhes permitir fazer alegações que, superficialmente, parecem tornar a simples ideia de evolução por mecanismos naturais inviável ou, pelo menos, altamente improvável, apesar da quantidade gigantesca de evidências científicas que corroboram a realidade deste fenômeno e do amplo consenso que respalda dentro da comunidade científica. Entre as estratégias preferidas pelos Criacionistas do DI, entre as mais perniciosas, estão as que dependem do uso e abuso dos conceitos de informação e probabilidade.

Neste quesito o principal nome que vem à tona é o do matemático, teólogo e filósofo William Dembski que propôs uma série de conceitos e ideias (com nomes pomposos tais como, “lei de conservação da informação’, ‘filtro explanatório’, ‘complexidade especificada’, ‘informação complexa especificada’, ‘limite universal de probabilidade’ etc) pelas quais, supostamente, seria possível inferir um Designer Inteligente superhumano e ultrapoderoso, de maneira cientificamente rigorosa. Porém, estes conceitos e ideias que jamais estabeleceram-se na literatura científica especializada, ainda assim, foram sistematicamente analisados, dissecados e, por fim, derrubados por uma série de filósofos, cientistas e matemáticos; muitos dois quais chamaram a atenção para a vagueza ou incoerência de muitos destes conceitos e, nos casos em que é possível uma interpretação  minimamente coerente e realista, enfatizaram que com base neles, simplesmente, não é possível derrubar a evolução por mecanismos naturais, portanto, não tendo sida estabelecida em bases rigorosas a inferência de um Designer.

O artigo que segue, publicado online na RNCSE, foi escrito por Joe Felsenstein – um conhecido e respeitado biólogo evolutivo com uma enorme experiência com a genética teórica de populações e com métodos estatísticos e computacionais de inferência evolutiva. Esse artigo é uma destas várias análises e refutações das ideias, argumentos e propostas de Dembski, as quais eu havia me referido. O texto de Felsenstein é especialmente indicado por sua clareza e acessibilidade, além da abrangência, fornecendo um resumo dos motivos que fazem os argumentos pseudoprofundos, cobertos de jargão matemático e estatístico, de Dembski, na melhor das hipóteses, completamente irrelevantes para a biologia evolutiva, sendo totalmente ineficientes como ataques a realidade da evolução biológica por meio de mecanismos naturais.

——————————————————————–

Reports of the National Center for Science Education

Título:  ‘Has Natural Selection Been Refuted? The Arguments of William Dembski’

Autor(s): Joe Felsenstein

Volume: 27

Edição: 3–4

Ano: 2007

Data: May–August

Páginas(s): 20–26

Esta versão pode diferir da versão impressa.

O ‘Design Inteligente’ (DI) é a alegação de que existem evidências de que as principais características da vida foram formadas, não pela seleção natural, mas pela ação de um Designer. Isso envolve argumentos negativos de que a seleção natural não poderia dar origem a estas características. E os proponentes do DI também alegam argumentos positivos.

Os críticos do DI comumente argumentam que ele não é uma ciência. Para as previsões positivas do comportamento do Designer, os críticos têm um bom argumento. Mas não para as críticas à efetividade da seleção natural, que são argumentos científicos que devem ser levados a sério e avaliados. Olhe a figura 1, a qual mostra uma charge em uma camiseta vendida por um website do DI, Access Research Network, que também vende parafernália do DI (Eu estou grato a eles pela gentil permissão de reproduzi-la)

(clique aqui na imagem)
Figure 1. Um resumo dos principais argumentos do ‘Design Inteligente’, como eles parecem aos seus defensores, do website Access Research Network’s website http://www.arn.org. O merchandizing com a charge está disponível em http://www.cafepress.com/accessresearch. Copyright Chuck Assay, 2006; todos os direitos reservados. Republicado com permissão

Com a defesa dos baluartes do establishment desafortunado do Darwinismo superada, observe as principais linhas de ataque. Além de temas criacionistas reciclados como os argumentos da explosão cambriana e o argumento cosmológico sobre o ajuste fino do universo, a escada é o argumento de Michael Behe sobre máquinas moleculares (Behe, 1996). O outro ataque principal, o aríete, é o “conteúdo de informação do DNA”, o qual está destruindo a barreira de “mutação aleatória”.

O argumento da “complexidade irredutível das máquinas moleculares” de Michael Behe tem recebido a maior parte da publicidade; os argumentos mais teóricos de William Dembski, envolvendo a teoria da informação, têm sido mais difíceis para as pessoas os compreenderem. Houve uma série de críticas extensas aos argumentos de Dembski publicados ou postados na web (Wilkins e Elsberry 2001, Godfrey-Smith 2001; Rose House 2002, a Schneider 2001, 2002; Shallit 2002; Tellgren 2002; Wein 2002; Elsberry e Shallit 2003; Edis 2004; Shallit e Elsberry 2004; Perakh 2004a, 2004b; Tellgren 2005; Häggström 2007). Eles apontaram muitos problemas. Que vão desde os mais graves até implicâncias menores.

Neste artigo, quero concentrar-me nos principais argumentos que Dembski tem usado. Com poucas exceções, muitos dos pontos que levantarei já foram trazidos à tona nestas críticas a Dembski – esta é, primordialmente, uma tentativa de torná-los mais acessíveis.

Códigos Digitais

Stephen Meyer, que é o responsável pelo pelo programa de DI do Instituto Discovery, descreve o trabalho de Dembski desta maneira:

Nós sabemos que a informação — esteja ela, digamos, em hieroglifos ou em sinais de rádio — sempre aumentará a partir de uma fonte inteligente …. Então, a descoberta da informação digital no DNA fornece fortes motivos para inferir que a inteligência desempenhou um papel causal em sua origem (Meyer 2006)

O que seria esta misteriosa ‘informação digital’? Teria uma mensagem de um Designer sido descoberta? Quando sequencias de DNA são lidas, poderiam elas serem convertidas em sentenças em inglês para algo como: “Copyright 4004 B.C. do Designer Inteligentes, todos os direitos reservados”? Ou poderiam elas serem convertidas em números, com uma porção do DNA mostrando conter os primeiros 10000 dígitos de π? Claro que não. Caso algo assim houvesse descoberto, teria sido, de fato, um grande furo. Você já teria ouvido falar disso a esta altura. Não, a misteriosa ‘informação digital’ não é nada mais do que a informação genética convencional que codifica as características da vida. A informação digital é simplesmente a presença de sequencias que codificam para RNA e proteínas – sequencias que acarretam alta aptidão.

Nós já sabíamos que esta informação estava lá. A maioria dos biólogos ficaria surpresa em ouvir que a presença dela é, ela mesma, um forte argumento em favor do DI – os biólogos considerariam que ela é uma consequência da seleção natural. Para encará-la como evidência em favor do DI, seria necessário um argumento que mostrasse que esta informação só poderia ter surgido por meio de uma ação intencional (DI), e não por meio da seleção natural. O argumento de Dembski alega ter estabelecido isso.

Complexidade especificada

Como este argumento funciona? Dembski (1998, 2002, 2004), primeiro estabelece um Filtro Explanatório para detectar o design. Para encurtar a história, ele conclui a favor do designer sempre que encontrar Complexidade Especificada. Ele exige que a informação em questão seja complexa, de modo que a probabilidade de que a sequência de DNA ocorra por acaso seja menor do que 1 x 10150. Dembski escolhe este valor para evitar qualquer possibilidade de que a sequência surja, mesmo que uma única vez, na história do universo. Se essa complexidade fosse a única questão, seu argumento poderia ser descartado imediatamente: qualquer sequência aleatória de 250 bases seria tão improvável como isso. Da mesma forma, qualquer mão de cinco cartas aleatórias em um jogo de cartas tem uma chance de apenas uma em 2.598.960 e este evento raro OCORRE todo o tempo que damos as cartas, de modo que a raridade não é um motivo para preocupação.

Este é o ponto onde a parte “especificada” entra em ação. Dembski exige que a informação também satisfaça uma exigência que a torna significativa. Ele ilustra isso com uma variedade de analogias com diferentes tipos de significado. Na verdade, ele está dizendo que a quantidade relevante é a probabilidade de que uma sequência aleatória de DNA seja tão significativa quanto a observada.

Figura 2. Duas imagens de 101×100 pixeis, cada uma com 3511 pixeis escuros e o resto brancos. Ambas tem o mesmo conteúdo informacional. Qual delas tem a maior complexidade especificada, julgada pela semelhança com a imagem de um flor?

A imagem do lado esquerdo da figura 2 mostra um exemplo. É uma imagem de 101 por 100 pixels. Se nossa especificação fosse, vamos dizer, que a imagem seja muito parecida com uma flor, a imagem à esquerda estaria na disputa (não surpreendentemente, já que ela começou como uma fotografia digital de uma Zinnia). De todos os arranjos possíveis de 10100 pixels em preto-e-branco, apenas uma minúscula fração incluiria aquelas imagens que são muito parecidas com uma flor. Há 210100 possíveis imagens examinadas deste tamanho, o que dá cerca 103.040, um número muito grande. Nós não sabemos quantas delas seriam tão ou mais semelhantes a uma flor do que essa, mas suponhamos que não sejam superiores do que o 10100. Isso significa quer dizer que, se escolhermos uma imagem aleatoriamente a partir de todas as possibilidades, a probabilidade de que uma imagem seja tão ou mais parecida como esta a uma flor será inferior a 10100/103040, que é 10-2940

A imagem à direita não estaria na disputa em qualquer concurso de imagens que parecesse com a de uma flor. Como a imagem à esquerda, ela tem 3511 pixels pretos, mas eles parecem estar dispostos aleatoriamente. Ambas as imagens têm o mesmo conteúdo (10100 bits), mas a imagem do lado esquerdo se parece com uma flor. Ela não só fornece informação, ela tem a informação que é especificada por estar em um arranjo similar a uma flor. Esta é uma distinção útil, que Dembski atribui a Leslie Orgel. Eu não posso resistir acrescentando que um conceito relacionado, “a informação adaptativa” aparece em um dos meus próprios trabalhos, talvez o menos citado (Felsenstein 1978).

As sequências no genoma que codificam para proteínas e RNAs, e sequências reguladoras associadas, têm informação especificada. Embora Dembski (2002: 148) mencione uma série de possíveis critérios diferentes, o que nos interessa aqui é a aptidão. Sequências contêm informação que tornam o organismo bem adaptado se ele tem a aptidão elevada, e a informação especificada será julgada pela fração p de todas as sequências possíveis que teriam aptidão igual ou superior.

(Dembski também define a informação especificada de outra maneira – usando os conceitos da teoria da informação algorítmica e dizendo que a informação é especificada caso ela possa ser descrita de maneira simples. Uma esfera perfeita seria, então, mais fortemente especificada do que um organismo real. Mas isso não tem nada a ver com a aptidão ou com a explicação da adaptação. Eu irei me concentrar aqui em explicar a adaptação.)

A complexidade especificada tem uma consequência – quando ela é observada, podemos ter certeza de que processos puramente aleatórios, como mutação, são altamente improváveis  como tendo produzido esse padrão, uma vez sequer na idade do universo. Mas pode a seleção natural produzir esta complexidade especificada? Dembski argumenta que não pode – e que ele pode mostrar que esses padrões fortemente não aleatórios não podem ser ‘projetados’ pela seleção natural.

Para apoiar esse alegação, Dembski oferece dois argumentos principais. O primeiro envolve uma Lei de Conservação de Informação – ele argumenta que ela impede que o processo de seleção natural aumente a quantidade de informação adaptativa no genoma. O segundo utiliza o teorema No Free Lunch (N.T. ‘Sem almoço grátis’) para argumentar que a busca através de um algoritmo evolutivo não pode encontrar genótipos bem adaptados. Vamos considerar eles, um de cada vez.


Conservação da Informação

Para o seu conceito de Lei da Conservação da Informação, Dembski aponta para uma lei formulada pelo falecido Peter Medawar. Em sua forma mais clara afirma que um processo determinista e irreversível não pode alterar a quantidade de informação em uma sequência. Se tivermos uma função que transforma uma sequência de DNA de X em uma outra Y e se esta função é reversível, então, há, portanto, uma função inversa, que pode recuperar a sequência original X a partir da sequência Y. Qualquer informação que estava presente na sequência original X não pode ter sido perdida, como podemos obter a sequência original de volta.


Isto é, razoavelmente, obviamente verdade. Por exemplo, se tomarmos a imagem da flor acima e embaralharmos a ordem de seus pixeis destruíremos sua semelhança com uma flor. Mas se fizemos isso usando, digamos, um gerador de números aleatórios computadorizado (um gerador de números pseudoaleatórios), para fazer uma permutação dos pixeis, poderíamos gravar a permutação que usamos e usá-la, a qualquer momento, para desembaralhar a imagem. A informação original é conservada, porque foi escondida pelo embaralhamento, mas não realmente perdida.


Será que isso significa que
o tal processo não pode aumentar ou diminuir a quantidade de informação no genoma? Sim, se nós simplesmente quisermos dizerinformação’, mas não, se queremos dizer ‘informação especificada’. Aqui eu estou em desacordo com Dembski em um ponto crítico. Em sua reformulação do teorema de Medawar “a informação complexa especificada em um sistema isolado de causas naturais não aumenta” (Dembski 2002: 169). Perceba que ele está discutindo não a informação, simplesmente, mas a informação especificada. Agora olhe novamente para a flor pixelada. Eu disse que a segunda figura tinha o mesmo número de pixels pretos, distribuídos aleatoriamente. A razão pela qual eu sabia é que a segunda imagem é simplesmente a primeira imagem com seus pixel mexidos. Eu gerei a permutação usando um gerador de números aleatórios pseudoaleatório e posso facilmente dizer-lhe como gerá-lo por si mesmo, de modo que você pode fazer o embaralhamento e obter exatamente o mesmo resultado, e você pode, assim, fazer as tabelas necessárias para descodificar a imagem. Assim, nenhuma informação foi perdida.

Mas a quantidade de especificação certamente se perdeu. A segunda foto seria imediatamente rejeitada em qualquer competição de se parecer com uma flor”. Quando usamos a permutação para desembaralhar a imagem, criamos uma grande quantidade de especificação ao reorganizar os pixeis aleatórios em uma forma semelhante a uma flor. Nós flagrantemente violamos a versão Dembski do teorema de Medawar.


A prova de Dembski

Por que estou dizendo isso, quando Dembski esboça uma prova da sua Lei de Conservação de complexidade especificada? Como pode ele ter provado o impossível? Ele faz isso alterando a especificação. Se a permutação original, da primeira foto para a segunda, é chamada de F, podemos chamar a permutação inversa, a que converte a segunda foto de volta para a primeira, G. Dembski argumenta que a primeira imagem tem a especificação “semelhante a uma flor“. A segunda foto tem uma especificação equivalente: “quando permutados por G, semelhante a uma flor“. Para cada imagem que é mais semelhante a uma flor do que a primeira imagem, haveria uma que obteríamos ao aplicar a permutação F a ela. Aquela imagem permutada, evidentemente, satisfará a segunda especificação na mesma proporção quando permutada de volta por G, ela também é mais semelhante a uma flor. Então, ambas imagens, têm especificações que são igualmente fortes, o que é a essência da prova de Dembski. A prova de Dembski têm sido fortemente criticada por Elsberry e Shallit (2003; Shallit e Elsberry 2004), que apontaram que ela viola uma condição, a de que a especificação tem que ser produzida a partir das “informações do pano de fundo“, e, assim, tem que ser independente das transformações F e G. A especificação de G não o é. Mas, mesmo caso sua crítica à prova de Dembski for desconsiderada, e a prova de Dembski aceita como correta, de qualquer jeito, a prova de Dembski é completamente irrelevante. Nós queremos explicar como as sequências de DNA viram a conter informação que torna o organismo altamente apto (por codificação para adaptações). A especificação que deveria nos interessar é esta aqui: “os códigos para um organismo que é altamente apto. Dembski aplica sua prova, argumentando que isso mostra que nenhuma função determinística ou aleatória pode aumentar a informação especificada em um genoma. As permutações que tenho utilizado como exemplos são funções determinísticas, e seu teorema se aplica a elas. Se um código do genoma de um organismo altamente adaptado, de modo que satisfaça a especificação, quando submetido a permuta ele não mais a satisfaz. O genoma embaralhado é terrivelmente ruim na codificação de um organismo altamente adaptado. E quando usamos a permutação desembaralhadora G nele, nós criamos a especificação da informação, para a especificação original que baseia-se na aptidão.

A falha no argumento de Dembski está no fato de que, para testar o poder da seleção natural de colocar informação especificada no genoma, é preciso avaliar a mesma especificação (“código de um organismo que é altamente apto) sobre ela antes e depois. Se você pudesse mostrar que a imagem distorcida e a imagem desembaralhada satisfazem igualmente bem as mesmas especificações, você iria longe o suficiente para provar que a seleção natural não poderia colocar informação adaptativa no genoma. O nosso exemplo da flor mostra que existe uma grande diferença se a especificação original é satisfeita, antes e após a permuta. Embaralhar a sequência de um gene pode não destruir seu conteúdo de informação, se nós usarmos uma permutação conhecida que, mais tarde, possa ser desfeita. Mas a cifragem certamente irá destruir o funcionamento, assim, como a aptidão do gene. Da mesma forma, desembaralhá-la pode aumentar drasticamente a aptidão do gene. Assim, o argumento de Dembski, em sua forma original, pode ser visto como irrelevante. E quando colocado em uma forma coerente, ao exigir-se que a especificação que avaliamos seja a mesmo antes e depois, o exemplo apresentado aqui mostra que o argumento dele está errado.

Gerar informação especificada

A evolução não acontece por mudança determinística ou aleatória em uma única sequência de DNA, mas sim por meio de uma população de indivíduos, com a seleção natural escolhendo entre eles. As frequências dos diferentes alelos mudam. Considerando a seleção natural em uma população, podemos ver claramente que a lei de conservação de informação especificada, ou até mesmo uma lei de conservação da informação, não se aplica  a ela.

Se temos uma população de sequências de DNA, podemos imaginar um caso com quatro alelos com frequências iguais. Em uma posição particular no DNA, um alelo tem A, um tem C, um tem G, e outro tem T. Há uma incerteza completa sobre a sequência nesta posição. Agora, suponha que C tem aptidão 10% maior do que A, G, ou T (que têm aptidões iguais). As equações usuais da genética de populações irão prever o aumento da frequência do alelo C. Após 84 gerações, 99,9001% das cópias do gene terão o alelo C.

Isso é um aumento da informação: a incerteza quádrupla sobre o alelo foi substituída por quase certeza. É, por conseguinte, a informação especificada – a população tem mais e mais indivíduos com aptidão elevada, de modo que a distribuição de alelos na população move-se mais e mais para a porção superior da distribuição original das aptidões.

A Lei da Conservação da Informação não considerou este caso. Ainda que as equações de mudança das frequência dos genes sejam deterministas e irreversíveis, quando as frequências dos genes são levadas em conta, não há lei da conservação da informação. A quantidade de alterações da informação de acordo com a mudança de frequências dos genes (que podem ir para cima ou para baixo, dependendo do caso). A informação especificada como refletido na aptidão obedece a uma lei – neste caso simples, há o aumento constante da aptidão como resultado da ação da seleção natural. Então, a única lei que temos é uma que prevê a criação de informação especificada pela seleção natural. Pode-se objetar que não se criou realmente complexidade especificada porque o aumento da informação foi de apenas 2 bits, em vez dos 500 bits (150 dígitos decimais), que é requisito mínimo de Dembski para a complexidade especificada. Mas o que fizemos foi descrever a ação do mecanismo que cria informação especificada – se ele atua repetidamente em muitos lugares no gene, a complexidade especificada surgirá. Assim, um dos dois principais argumentos usados ​​por Dembski pode ser visto como errado quando consideramos uma população.

Sem almoço grátis?

O segundo pilar do argumento de Dembski é o uso do teorema ‘No Free Lunch’. Ele deu título ao seu livro de 2002, e Dembski (2002: xix) declarou que o capítulo sobre isso seria o clímax do livro“. O teorema foi inventado por cientistas da computação (Wolpert e Macready 1997) que estavam preocupados com a eficácia de algoritmos de busca. Vale a pena dar uma explicação simples de seu teorema no contexto de um modelo simples de seleção natural. Imagine um espaço de sequências de DNA que tem de ser pesquisado. Suponhamos que as sequências têm, cada uma, 1000 bases de comprimento. Há 4 x 4 x 4 x … x 4 = 41000 possíveis sequências que, em ordem alfabética, irão de de A a AAAA … TTTT … T. Agora, imagine que nosso organismo é haploide, de modo que há apenas uma cópia do gene por indivíduo, e suponhamos que a cada uma destas sequências tenha uma aptidão. Uma fração muito pequena das sequências é funcional, e quase todo o resto tem zero de aptidão.


Suponha que queremos encontrar um organismo com aptidão alta, e nós queremos fazer olhando para 10000 sequências de DNA diferentes. O melhor que podemos fazer, é claro, é tirar a com a maior aptidão que encontrarmos entre estas. Agora, note que 41000 é, aproximadamente, 10602, um número muito maior do que o número de partículas elementares no universo. É, portanto, razoável supor que a fração de sequências de DNA, que tenham uma aptidão diferente de zero, seja pequena – vamos ser muito generosos e dizer 1 em 1020.


Uma maneira de pesquisar seria aleatoriamente. Escolhe-se uma das sequências de DNA, em seguida, escolhe-se uma outra completamente ao acaso, depois outra completamente ao acaso, e continue até as 10000 diferentes sequências terem sido examinadas. Como estamos escolhendo ao acaso, cada escolha tem, essencialmente, uma chance em 1020 de encontrar uma sequência com aptidão diferente de zero. Deve ser imediatamente evidente que não temos quase nenhuma chance de encontrar qualquer sequência com aptidão diferente de zero. Na verdade, temos menos de uma chance em 1016. Assim, uma pesquisa totalmente aleatória é uma maneira realmente terrível para aumentar a aptidão – ela irá na maioria esmagadora das vezes encontrar muitas vezes apenas sequências que não podem sobreviver. Na verdade, ela está à procura de uma agulha num palheiro, e falhando.

É claro, a evolução não faz uma pesquisa totalmente aleatória. Um modelo de genética de populações razoável envolve mutação, seleção natural, recombinação e a deriva genética em uma população de sequências. Mas nós podemos fazer uma caricatura grosseira dele usando apenas uma sequência e fazendo, a cada passo, uma única alteração mutacional nela. Se a mudança melhora a aptidão a nova sequência é aceita. Suponha que continuemos fazendo isso até que 10 000 sequências diferentes tenham sido examinados. Vamos terminar com a melhor das 10000.


Será que isto se sairia melhor? No mundo real, ela se sairá se iniciarmos a partir de uma sequência ligeiramente boa. Cada mutação nos leva a uma sequência que difere por apenas uma letra. Estas tendem a ser sequências que são um pouco mais baixas, ou às vezes um pouco mais altas, em termos de aptidão. Em média, elas são mais baixas, mas a chance de que atinja uma sequência que é melhor não é zero. Então, há alguma chance de melhorar a aptidão, muito possivelmente mais de uma vez. Uma maneira bastante boa para encontrar sequências com aptidões diferentes de zero é a busca na vizinhança de uma sequência de aptidão diferente de zero.

Os teoremas No Free Lunch (NFL) afirmam que se considerarmos a lista de todas as sequências possíveis, cada uma com uma aptidão escrita ao seu lado e se tirarmos a média de todas as maneiras que estas aptidões poderiam ser alocadas às sequências, então nenhum método de pesquisa é melhor do que qualquer outro. Nós estamos tirando uma média de todas as ordens as quais poderíamos escrever as aptidões, ao lado, da lista de sequências. Quase todas essas ordens são como associações aleatórias de aptidões com os genótipos. Isso significa que a busca por mutação genética não poderia se sair melhor do que um método irremediavelmente ruim como escolha completamente aleatória de sequências. O teorema NFL considera todas as formas de aptidão diferentes que poderia ser associada com os genótipos. O vasto número dessas associações são como embaralhamentos aleatórios. Para essas atribuições de aptidão aos genótipos, quando mutamos uma sequência, mesmo em uma base, a aptidão da nova sequência será a mesma que seria se ela fosse retirada aleatoriamente de todas as outras sequências possíveis.

Este randomização destrói toda a esperança de encontrar uma melhor aptidão através da mutação. Cada única mutação em um única base é, então, tão ruim quanto mudar todas as bases simultaneamente. É como se estivéssemos do lado de uma montanha e déssemos um passo. No mundo real, isso nos levaria um pouco para cima ou um pouco para baixo (embora, às vezes, em direção a um penhasco). No mundo No Free Lunch, isso nos levaria para a ponto de altitude aleatória no globo, e isso, na maioria das vezes, nos mergulharia bem para baixo. No espaço de sequência as perspectivas são ainda mais sombrias do que no globo, já que todos, a não ser uma fração extremamente pequena de sequências, têm aptidão zero, e, assim, elas não tem qualquer perspectiva.

O teorema NFL é correto, mas não é relevante para o mundo real da evolução dos genomas. Este ponto tem sido negligenciado em algumas das respostas ao uso de Dembski do teorema. Por exemplo, H Allen Orr no The New Yorker (Orr 2005) e David Wolpert em uma resenha do livro de Dembski (Wolpert 2003) ambos argumentam contra Dembski, apontando fenômenos examinados como coevolução que não são cobertos pelo teorema NFL. Com efeito, eles estão admitindo que para a simples evolução de sequências, sua evolução por seleção natural, é inviabilizada pelos teoremas NFL. Ao argumentar desta forma, eles estão sendo muito pessimista sobre as capacidades da simples evolução das sequências. Eles têm negligenciado as suposições irrealistas do teorema NFL sobre o modo aleatório com as aptidões estão associadas aos genótipos, o que, na verdade, é assumir que as mutações têm aptidão desastrosamente ruim.

Mutações

No mundo real, as mutações não agem assim. Sim, elas são muito mais propensas a reduzir a aptidão do que a aumentá-la, mas muitas delas não são letais. Eu provavelmente carrego um a – eu tenho uma forte aversão a alface, que para mim tem um sabor mineral amargo. Esta é provavelmente uma variação genética em um dos meus genes de receptores olfativos. Ele torna as saladas problemáticas, e nos balcões de sanduicherías eu gasto um monte de tempo tirando fora a alface. Mas isso não me matou – ainda. A grande massa das informações empíricas sobre os efeitos das mutações em muitos organismos, deixa claro que um grande número de mutações não são instantaneamente letais. Elas fazem, em média, as coisas piores, mas não mergulham-nos imediatamente de volta para a sopa primordial orgânica.

No argumento NFL de Dembski, uma mudança de uma única base teria o mesmo efeito, em média, que uma mudança de todas as bases, simultaneamente, no gene. Uma única substituição de aminoácidos numa proteína teria o mesmo efeito que a substituição de toda a proteína por uma sequência aleatória de aminoácidos. Isto deixaria a proteína totalmente inativa. O fato deste tipo de mudanças, de uma única base ou um único aminoácido, não ter esse tipo de efeito é uma forte evidência de que as mutações são muito mais propensas a encontrar uma outra sequência quase-funcional nas proximidades. A paisagem de aptidão real não é uma paisagem embaralhada “agulha em um palheiro” na qual uma sequência de aptidão moderadamente boa está cercada apenas por sequências cuja aptidão é igual a zero. No mundo real, os genótipos próximos a um moderadamente bom, muitas vezes têm aptidões moderadamente boas.

Evidências Empíricas

Perceba que caso os argumentos de Dembski fossem válidos, eles tornariam a adaptação por seleção natural de qualquer organismo, em qualquer fenótipo, essencialmente impossível. Por que isso exigiria informação adaptável para ser codificado no genoma pela seleção natural. Segundo o argumento de Dembski, não precisamos nos preocupar: as bactérias infectando o paciente não poderiam desenvolver resistência a antibióticos. O vírus da imunodeficiência humana (HIV) não iriam tornar-se resistentes às drogas. Insetos não se tornariam resistentes aos inseticidas. O Designer de Dembski estaria realmente ocupado: Ele precisaria projetar cada adaptação específica, deixando de fora apenas algumas que poderiam ser puramente acidentais.

O próprio Dembski parece incapaz de tirar essa conclusão evidente a partir de seu próprio argumento. Ele reconhece que “o desenvolvimento da resistência aos antibióticos por patógenos através do mecanismo darwiniano é experimentalmente verificado e razão de grande preocupação para a área médica” (Dembski 2002: 38). Mas dizer isso enfraquece seu argumento – se estiver correto, o seu argumento realmente provaria que a informação adaptativa no genoma bacteriano não pode ser criada por meio da seleção natural, exceto por puro acidente por mutação e deriva genética, sem a ajuda de seleção natural.

Seu argumento também será novidade para os criadores de plantas e animais. Eles usam formas simples de seleção artificial como cruzando os indivíduos que têm as melhores fenótipos. Estas formas de seleção são como a seleção natural em que eles não usam informações detalhadas sobre os genes individuais – eles não precisam de um projeto detalhado especial. O argumento de Dembski implica que os esforços dos criadores seriam em vão. Eles não podem criar mudanças de fenótipo por seleção artificial, já que esta deve ser tão ineficaz como a seleção natural. A seleção artificial forneceu para Darwin tão poderosos exemplos que ele abriu seu livro com um capítulo inteiro sobre “Variação Sob domesticação” no qual ele discutiu caso após casos de alterações devidas a seleção artificial, mas Dembski não discute a seleção artificial de nenhuma maneira, mencionando-a apenas uma vez, de passagem (em Dembski [2004] que está na página 311).

Contrabandeando?

Dembski (2002, seções 4.9 e 4.10) não ignora os argumentos de que as superfícies de aptidão mais suaves do que o tipo “agulha em um palheiro” permitiria a seleção natural ser eficaz. Por exemplo, Richard Dawkins (1996) tem um programa de computador para demonstrar a efetividade da seleção, que evolui um amontoado sem sentido de 28 letras na frase “penso que sou uma doninha” por repetidamente mutar as letras aleatoriamente e depois aceitar essas sequências descendentes que mais se aproximam da frase alvo. Cada rodada melhora a aptidão, de modo que as mutações que tornam a frase mais perto estão prontamente disponíveis. Dembski argumenta no entanto, que a informação na frase resultante não é criado pela seleção natural – ele já está lá, na frase alvo. Ele chama isso de “problema do deslocamento” (2002, seção 4.7).

Mas, invariavelmente, nós sempre descobrimos que, quando a complexidade especificada parece ter sido gerada gratuitamente, ela foi, na verdade, bem no inicio, contrabandeada, ou escondida da vista. (Dembski 2002: 204)

Demonstrações computacionais do poder da seleção natural para produzir a adaptação muitas vezes têm metas detalhadas as quais a seleção natural deveria aproximar-se. É mais fácil escrever programas desta maneira. Na vida real, o objetivo é a maior aptidão, e alcançá-la significa fazer que o fenótipo do organismo interaja bem com a física , a química e a biologia de verdade.


Nestes casos mais próximos a realidade, o ambiente não fornece ao genoma alvos exatos. Considere uma população de veados que estão sendo predados por uma população de lobos. Não temos dúvidas de que mutações entre os cervos irão causar mudanças nos comprimentos dos seus membros, na força de seus músculos, na velocidade de reação de seu sistema nervoso, na acuidade de sua visão. Alguns destes permitirão aos cervos escaparem melhor dos lobos, e estas tenderão a se espalhar pela população. O resultado é uma alteração no design do cervo. Mas esta informação não foi “contrabandeado” pelos lobos. Eles, simplesmente, perseguiam os cervos – eles não avaliavam o seu ajuste ao certas especificações de design preexistentes.

Houveram simulações de computador que mimetizaram este o processo. O mais fascinantes foi a de Karl Sims (1994a, 1994b, 1994c), cuja simulação evolui criaturas virtuais que nadavam ou pulavam de forma intrigante e um tanto imprevisível. As criaturas são compostas de blocos ligados entre si que podem mover-se um relação ao outro, e elas são escolhidas somente em virtude da movimentação eficaz sem varredura de todos os detalhes do design. Tudo o que é necessário são genótipos, fenótipos, alguma interação entre os fenótipos e um ambiente, e a seleção natural para uma propriedade – a velocidade. Não existe um “contrabando”. Uma simulação semelhante, inspirada pela de Sims, é o programa breve de Jon Klein (2002), disponível para download.

Evoluibilidade:

Dembski desenvolve outro argumento sobre a forma da própria função de aptidão. Se ela for suave o suficiente para permitir que a evolução tenha sucesso, ele afirma que este é o resultado de mais contrabando:


Mas isso significa que o problema de encontrar um dado alvo foi deslocado para o novo problema de encontrar a informação j capaz de localizar o alvo. … Dizer que um algoritmo evolutivo gerou complexidade especificada dentro do espaço de fase original é, portanto, realmente, dizer que ele tomou emprestado complexidade especificada de um espaço de fase de ordem superior … segue-se que o algoritmo evolutivo não gerou qualquer complexidade especificada, mas apenas a mudou de lugar. (Dembski 2002: 203)

Ele argumenta que a própria superfície de aptidão deve ter sido especialmente escolhida de uma vasta gama de possibilidades, e que isso significa que iniciamos com a complexidade especificada já está presente. Ele está dizendo que a suavidade das funções de aptidão reais não são típicas i.e. Que, sem um grande fornecimento de informação especificada, estaríamos lidando com funções de aptidão do tipo ‘agulha-em-um-palheiro, onde a seleção natural não poderia ter sucesso.

Agora, é possível que a seleção natural altere a função de aptidão. Há uma literatura pequena sobre a “evolução da evoluibilidade“. Altenberg (1995) mostrou uma simulação de computador na qual a seleção natural diminuía a extensão da interação entre os genes, de modo que os genótipos tendiam a tornar-se aqueles que tinham uma função de aptidão mais suave.

No entanto, mesmo isto pode nem ser necessário. Diferentes genes muitas vezes agem de maneiras separadas no espaço e no tempo, o que reduz a chance de sua interação. Um mutante que afeta o pigmento dos olhos de um individuo, normalmente, não interage com um mutante de um gene diferente que afeta os ossos dos dedos do individuo. Este isolamento não requer qualquer explicação especial. Mas, em um mundo que possui uma função de aptidão do tipo ‘agulha em um palheiro tudo interage fortemente com todo o resto.

Com efeito, aquele mundo tem tudo criptografado. Se você receber uma senha ou uma combinação de bloqueio parcialmente correta, você não acessar parcialmente a conta do computador ou abrir parte do cofre. O computador ou o cofre não reagem a cada mudança dizendo “quente” ou “frio”. Cada letra ou dígito interage com o outro, e nada acontece até que todos eles estejam corretos. Mas essa criptografia não é típica do mundo em torno de nós. Sistemas de senha e fechaduras de combinação devem ser cuidadosamente concebidas para serem seguras – e este esforço de design pode falhar.

O mundo em que vivemos não é criptografado. A maioria das partes dele interagem muito pouco com outras partes. Quando minha família sai de casa para um período de férias, temos que fazer muitos arranjos em casa com relação as portas, janelas, luzes, vasos sanitários, torneiras, termostatos, lixo, avisando vizinhos, parando a entrega de jornais, e assim por diante. Se vivêssemos no universo codificado de Dembski, isso seria impossível. Toda vez que nós mudássemos o ajuste do termostato, as janelas seriam destrancadas e as torneiras abertas. Toda vez que uma janela fosse fechada, a entrega de jornais seria retomada, ou um vizinho iria esquecer que estávamos indo embora. (É pior do que isso, na verdade. A casa seria totalmente destruída.) Mas, como vivemos no universo real, podemos alegremente combinar com os membros da família para a realização dessas tarefas diferentes sem nos preocuparmos com as ações de cada um. As diferentes partes da casa interagem muito pouco.

É claro que uma casa, é um objeto planejado, mas não é particularmente difícil fazer suas partes quase independentes. Quando os arquitetos estudam, eles não tem que gastar muito de seu tempo para garantir que as portas, quando fechadas, não farão com que as torneiras abram.

Nós vivemos em um universo cuja física pode ser especial, ou pode ser planejada – Eu não sei nada sobre isso. Mas o argumento de Dembski não é sobre outros universos possíveis – é sobre se a seleção natural pode trabalhar para criar as adaptações que vemos nas formas de vida que observamos aqui, em nosso próprio universo, em nosso próprio planeta. E se o nosso universo parece predisposto a funções de aptidão suaves, esse é um grande problema para o argumento de Dembski.

Nota Bibliográfica: Críticos de Dembski

Dos principais argumentos aqui apresentados, dois deles, acredito, são meus: Um deles é o argumento de que a Lei da conservação da informação especificada complexa não poderia ser bem sucedida em provar que a informação não poderia ser gerada pela seleção natural, por que a Lei requer que nós mudemos a especificação a fim de mantermos a informação a mesma. O outro é o argumento que mudanças nas frequências dos genes causados pela seleção natural podem aumentar a informação especificada. Os outros argumentos principais serão encontrados em alguns dos artigos que eu cito. Em particular, o argumento de que o teorema No Free Lunch não estabelece que a seleção natural não pode superar a busca aleatória foi também defendido por Wein 2002, Rosenhouse 2002, Perakh 2004b, Shallit and Elsberry 2004, Tellgren 2005 e Häggström 2007.

Em conclusão

Dembski argumenta que existem teoremas que previnem que a seleção natural explique as adaptações que observamos. Seus argumentos não funcionam. Não pode haver qualquer teorema que afirme que a informação adaptativa seja conservada e que ela não possa aumentar por meio de seleção natural. As alterações nas frequências gênicas por meio da seleção natural podem ser mostradas como gerando informação especificada. O teorema No Free Lunch é matematicamente correto, mas não aplicável a biologia. A informação especificada, incluindo a informação complexa especificada, pode ser produzida pela seleção natural sem a necessidades de que ela seja “contrabandeada”. Quando observamos a adaptação, nós não estamos olhando para evidências de bilhões e trilhões de intervenções feitas por um Designer.

Agradecimentos


Gostaria de agradecer
a Joan Rudd, Erik Tellgren, Jeffrey Shallit, Tom Schneider, Mark Perakh, Monty Slatkin, Lee Altenberg, Carl Bergstrom, e Michael Lynch, peloscomentários úteis. Dennis Wagner do Access Research Network gentilmente deu permissão para uso do desenho maravilhoso “Os visigodos estão Chegando”. O trabalho para este artigo foi apoiado em parte pelo financiamento GM071639 do NIH.

Referências

Altenberg L. 1995. Genome growth and the evolution of the genotype-phenotype map. In: Banzhaf W, Eeckman FH, editors. Evolution and Biocomputation: Computational Models of Evolution. Lecture Notes in Computer Science vol. 899. Berlin: Springer-Verlag. P 205–59.

Behe MJ. 1996. Darwin’s Black Box: The Biochemical Challenge to Evolution. New York: Free Press.
Dawkins R. 1996. The Blind Watchmaker: Why the Evidence of Evolution Reveals a Universe Without Design. New York: WW Norton.

Dembski WA. 1998. The Design Inference: Eliminating Chance through Small Probabilities. Cambridge: Cambridge University Press.

Dembski WA. 2002. No Free Lunch: Why Specified Complexity Cannot be Purchased Without Intelligence. Lanham (MD): Rowman and Littlefield Publishers.

Dembski WA. 2004. The Design Revolution: Answering the Toughest Questions about Intelligent Design. Downer’s Grove (IL): InterVarsity Press.

Edis T. 2004. Chance and necessity — and intelligent design? In: Young M, Edis T, editors. Why Intelligent Design Fails: A Scientific Critique of the New Creationism. New Brunswick (NJ): Rutgers University Press. P 139–52.

Elsberry WR, Shallit J. 2003. Information theory, evolutionary computation, and Dembski’s complex specified information. Available on-line at http://www.talkreason.org/articles/eandsdembski.pdf. Last accessed September 3, 2007.

Felsenstein J. 1978. Macroevolution in a model ecosystem. American Naturalist 112 (983): 177–95.
Godfrey-Smith P. 2001. Information and the argument from design. In: Pennock RT, editor. Intelligent Design Creationism and Its Critics: Philosophical, Theological, and Scientific Perspectives. Cambridge (MA): MIT Press. P 575–96.

Häggström O. 2007. Intelligent design and the NFL theorems. Biology and Philosophy 23: 217–30.

Klein J. 2002. Breve: A 3-D simulation environment for multi-agent simulations and artificial life. Available on-line at http://www.spiderland.org/breve/. Last accessed September 3, 2007.

Meyer SC. 2006 Jan 28. Intelligent design is not creationism. Daily Telegraph. Available on-line at http://www.telegraph.co.uk/opinion/main.jhtml?xml=/opinion/2006/01/28/do2803.xml. Last accessed September 3, 2007.

Orr HA. 2005 May 30. Devolution: Why intelligent design isn’t. The New Yorker. Available on-line at http://www.newyorker.com/fact/content/articles/050530fa_fact. Last accessed September 3, 2007.

Perakh M. 2004a. Unintelligent Design. Amherst (NY): Prometheus Books.

Perakh M. 2004b. There is a free lunch after all: William Dembski’s wrong answers to irrelevant questions. In: Young M, Edis T, editors. Why Intelligent Design Fails: A Scientific Critique of the New Creationism. New Brunswick (NJ): Rutgers University Press. P 153–71.

Rosenhouse J. 2002. Probability, optimization theory, and evolution [review of William Dembski’s No Free Lunch]. Evolution 56 (8): 1721–2.

Schneider TD. 2001. Rebuttal to William A. Dembski’s posting and to his book “No Free Lunch”. Available on-line at http://www.lecb.ncifcrf.gov/~toms/paper/ev/dembski/. Last accessed April 22, 2007.
Schneider TD. 2002. Dissecting Dembski’s “complex specified information”. Available on-line at http://www.lecb.ncifcrf.gov/~toms/paper/ev/dembski/specified.complexity.html. Last accessed April 22, 2007.

Shallit J. 2002. Review of No Free Lunch: Why Specified Complexity Cannot Be Purchased Without Intelligence, by William Dembski. BioSystems 66 (1): 93–9. Available on-line at http://www.cs.uwaterloo.ca/~shallit/nflr3.pdf. Last accessed September 7, 2007.

Shallit J, Elsberry WR. 2004. Playing games with probability: Dembski’s complex specified information. In: Young M, Edis T, editors. Why Intelligent Design Fails: A Scientific Critique of the New Creationism. New Brunswick (NJ): Rutgers University Press. P 121–38.

Sims K. 1994a. Evolving virtual creatures. Computer Graphics (Siggraph ‘94 Proceedings), July: 15–22.
Sims K. 1994b. Evolving 3D morphology and behavior by competition. In: Brooks RA, Maes P, editors. Artificial Life IV Proceedings. Cambridge (MA): MIT Press. P 28–39.

Sims K. 1994c. Evolved virtual creatures. Available on-line at http://www.genarts.com/karl/evolved-virtual-creatures.html. Last accessed September 3, 2007.

Tellgren E. 2002. On Dembski’s law of conservation of information. Available on-line at http://www.talkreason.org/articles/dembski_LCI.pdf. Last accessed September 7, 2007.

Tellgren E. 2005. Free noodle soup. Available on-line at . Last accessed April 15, 2007.

Wein R. 2002. Not a free lunch but a box of chocolates: A critique of William Dembski’s book No Free Lunch. Available on-line at http://www.talkorigins.org/design/faqs/nfl/. Last accessed September 7, 2007.

Wilkins JS, Elsberry WR. 2001. The advantages of theft over toil: The design inference and arguing from ignorance. Biology and Philosophy 16 (5): 711–24.

Wolpert DH, Macready WG. 1997. No free lunch theorems for optimization. IEEE Transactions on Evolutionary Computation 1 (1): 67–82.

Wolpert D. 2003. Review of No Free Lunch: Why specified complexity cannot be purchased without intelligence. Mathematical Reviews MR1884094 (2003b:00012). Also available on-line at: http://www.talkreason.org/articles/jello.cfm. Last accessed September 3, 2007.

Sobre o autor: 


Joe Felsenstein

Department of Genome Sciences

University of Washington

Box 355065

Seattle WA 98195-5065

joe@gs.washington.edu

Joe F
elsenstein está no Departamento de Ciências Genômicas e no Departamento de Biologia da Universidade de Washington, em Seattle. Eles já trabalhou com genética de populações teórica e na inferência de filogenias. Ele é o autor de ‘Inferring Phylogenies (Sunderland [MA]: Sinauer, 2004) e do PHYLIP, o primeiro pacote de software amplamente distribuído para a reconstrução de filogenias.

———————————-

Artigo: “Has Natural Selection Been Refuted? The Arguments of William Dembski

Fonte: Reports of the NCSE

Tradução: Rodrigo Véras

Citação completa:

Felsenstein, J. 2007. Has natural selection been refuted? The arguments of William Dembski. Reports of the National Center for Science Education 27 (3-4): 20-26.

A evolução da complexidade biológica [tradução]

Por Finn Pond


Introdução


A origem da complexidade biológica ainda não foi totalmente explicada, mas vários cenários naturalistas plausíveis têm sido desenvolvidos para explicar esta complexidade. Os defensores do “Design inteligente” (DI), entretanto, afirmam que apenas as ações de um “agente inteligente” podem gerar o conteúdo informacional e a complexidade observada em sistemas biológicos.

Os proponentes do DI acreditam que a teoria da evolução é uma empreitada falha que não oferece explicações críveis para as origens da complexidade. Eles culpam os cenários evolutivos por não fornecerem pormenores suficientes. Além disso, os defensores do DI afirmam ter apresentado evidências empíricas de que um “agente inteligente” planejou pelo menos alguns sistemas biológicos complexos.

Em contraste, o presente trabalho analisa diversos modelos científicos para a origem da complexidade biológica. Defendo que estes modelos oferecem mecanismos plausíveis para a geração da complexidade biológica e são caminhos promissores de investigação. Discordo dos proponentes do DI, que descartam tais modelos por falta de “especificidade de causalidade suficiente“, argumentando que esta crítica é injustificada. Finalmente, eu volto minha atenção brevemente para explicação proposta pelo DI para a origem da complexidade biológica, e considero a “evidência empírica” ​de William Dembski para a planejamento dos flagelos bacterianos, e argumento que sua suposta evidência é biologicamente irrelevante.

O problema da complexidade


Os sistemas biológicos são incrivelmente complexos. Biólogos profissionais dedicam suas carreiras para descrever tais complexidades, dissecando esses sistemas através de métodos químicos e físicos, e caracterizando seus componentes estruturais e interações funcionais. Como tais sistemas complexos podem evoluir? Entendemos as maneiras pelas quais os componentes individuais de um sistema complexo podem ser alterados em suas estruturas e funções por mutações, e a maneira pela qual a seleção natural favorece uma forma em detrimento de outra. Além disso, em muitos casos, nós rastreamos as relações familiares entre diferentes variantes de ácidos nucleicos e proteínas.

Vislumbrar maneiras através das quais a seleção natural pode construir sistemas bioquímicos e moleculares que envolvem dezenas de proteínas integradas de forma complexa e altamente específica é muito mais difícil. Como poderiam todas as proteínas necessárias serem selecionadas simultaneamente com um ponto final comum como o objetivo? A menos que cada construção intermediária possua, pelo menos, uma função parcial, como poderia a seleção natural agir?

Este é o argumento apresentado por Michael Behe em seu livro ‘A Caixa Preta de Darwin: O Desafio da Bioquímica à Teoria da Evolução’ (1996), e defendido por proponentes do DI desde então. Behe alega que as complexidades estruturais e funcionais encontradas nos sistemas biológicos não poderiam ter sido estabelecidas através de processos evolutivos. Ele afirma que o flagelo bacteriano, por exemplo, é um sistema irredutivelmente complexo, em que os componentes individuais não têm nenhuma função para além do todo, e, por conseguinte, não poderiam ter sido ‘selecionados para‘ na natureza.

“Por complexidade irredutível eu quero dizer um único sistema composto por várias partes bem ajustadas , que interagem contribuindo para a função básica, cuja remoção de qualquer uma das partes faz com que o sistema pare de funcionar eficazmente. Um sistema irredutivelmente complexo não pode ser produzido diretamente (ou seja, através da melhoria contínua da função inicial, que continua a operar pelo mesmo mecanismo) por modificações suaves, e sucessivas de um sistema precursor, porque qualquer precursor de um sistema irredutivelmente complexo no qual esteja faltando uma parte é, por definição, não funcional. Um sistema biológico irredutivelmente complexo, se é que existe tal coisa, seria um desafio poderoso à evolução darwinista.” (Behe 1996: 39)

Os biólogos reconhecem que a complexidade de um sistema integrado é uma característica dos sistemas vivos. Isto é, alguns sistemas biológicos consistem de partes componentes que interagem de uma forma coordenada, de maneira que o sistema como um todo apresenta uma função específica. É questionável, no entanto, se tais sistemas são irredutivelmente complexos como afirma Behe (ver Coyne 1996; Doolittle 1997; Miller 1999; Shanks e Joplin 1999). Mas mesmo se exemplos de complexidade irredutível forem encontrados em sistemas vivos, as origens de tais sistemas não estão necessariamente fora do âmbito de processos naturais (Orr, 1996; Miller 1999; Thornhill e Ussery 2000; Catalano 2001). O fato de a função de um sistema altamente integrado poder entrar em colapso com a remoção de uma parte componente não implica que o sistema em questão não possa ser desconstruído revelando uma origem por processos evolutivos não dirigidos.

Behe não foi o primeiro a reconhecer que a complexidade biológica representa um desafio (ver, por exemplo Cairns-Smith, 1986). Durante a última década, a disciplina de ciência da complexidade floresceu, atraindo um contingente interdisciplinar de cientistas, incluindo biólogos interessados na mesma questão que Behe aborda: Podem mecanismos naturais dar conta da complexidade observada nos sistemas biológicos? (Ver Adami e outros, 2000; Strogatz 2001; Adami 2002; Carlson e Doyle 2002; Doyle e Csete 2002.)

Modelos naturalistas para a evolução da complexidade biológica


Vários modelos têm sido propostos para explicar uma origem naturalista da complexidade vista em sistemas biológicos. Seguem-se breves descrições de quatro modelos propostos para explicar a origem da complexidade biológica.

Modelo de adições incrementais

O modelo de adições incrementais postula que uma associação inicial de componentes favoráveis ​​para alguma função pode tornar-se uma associação essencial ao longo do tempo (Lindsay, 2000; Orr 1996, 2002). A complexidade do sistema pode aumentar com a adição de novos componentes. Suponhamos, por exemplo, que uma molécula realiza uma função catalítica particular. Se uma associação com outra molécula aumentar essa função – por exemplo, através da estabilização estrutural – em seguida, a seleção natural pode favorecer esta associação. A segunda molécula é inicialmente benéfica, embora não essencial. A segunda molécula pode, entretanto, tornar-se essencial se uma mutação de inativação na primeira molécula for compensada pela presença do segunda.

Existem numerosos exemplos de moléculas cuja função é melhorada na presença de uma outra molécula. Considere a atividade da RNase P (um complexo RNA-proteína responsável pelo processamento de moléculas de RNA transportador). O componente de RNA da molécula possui a atividade catalítica e foi mostrado que funciona sem o seu parceiro proteico, embora com uma atividade muito mais baixa (Reich e outros 1988; Altman 1989).

O trabalho realizado com ribozimas ‘cabeça de martelo’ (moléculas de RNA capazes de clivar outras moléculas de RNA) demonstrou que a atividade de uma destas ribozimas aumentou de 10 a 20 vezes in vitro na presença de uma proteína de ligação ao RNA não específica (Tsuchihashi e outros 1993; Herschlag e outros, 1994). Além disso, são rotineiramente produzidas ribozimas cuja atividade pode ser regulada por outras moléculas (Soukup 1999), e, em experiências de evolução in vitro, têm sido geradas ribozimas ligases dependentes de proteínas (Ellington e Robertson, 2001).

Os introns auto-processantes do grupo II, embora capazes de clivagem independente de RNA sob algumas condições, requerem a estabilização por parte de proteínas maturases para seu funcionamento eficaz in vivo. É aceito de modo geral que os componentes de RNA cataliticamente ativos dos spliceossomas são capazes de funcionar porque as proteínas do spliceosoma estabilizam uma conformação funcional (Lodish, e outros 2003). Portanto, pode-se especular que uma ribozima pode perder atividade independente, através de um evento mutacional, e ainda continuar a funcionar em associação com uma molécula proteica que promova ou estabilize uma estrutura cataliticamente ativa da ribozima.

Modelo de andaimes


Andaime é outro mecanismo pelo qual a complexidade irredutível pode ser estabelecida (Lindsay 2000; Shanks e Joplin 2000; Orr 2002). No modelo de adições incrementais, uma associação benéfica de componentes torna-se uma associação essencial porque eventos mutacionais comprometem a atividade independente de um ou mais componentes. No modelo de andaimes, componentes supérfluos são perdidos, deixando um sistema no qual os componentes restantes mostram-se firmemente ajustados como se tivessem sido especificamente concebidos para encaixarem-se e funcionarem em conjunto. O arco é um exemplo de uma estrutura irredutivelmente complexa, que exige andaimes para a sua construção (Cairns-Smith 1986; Lindsay 2000; Shanks e Joplin 2000; Schneider 2000; Orr 2002). Andaimes podem também ser naturalmente funcionais.

Muitos sistemas bioquímicos são caracterizados por “complexidade redundante” (Shanks e Joplin 1999, 2000). Vias bioquímicas raramente funcionam isoladamente; ao contrário, interligam-se uma via com outra (ver Nelson e Cox, 2000). Por exemplo, átomos de carbono que entram no ciclo de Calvin-Benson dentro de um cloroplasto podem encontrar seu caminho em qualquer uma das muitas moléculas diferentes e serem desviados para outras vias. Há também muitos casos de uma redundância de componentes enzimáticos, ou isoformas variantes. Duplicações de genes aumentam o número de genes de uma espécie, podendo então evoluírem de maneiras diferentes. Esse padrão de ramificação na evolução das proteína é significativo. Por exemplo, várias moléculas de hemoglobina diferentes, porém relacionadas, são utilizadas durante o desenvolvimento humano. Estas formas variantes são consideradas como tendo surgido a partir de processos de duplicação gênica, mutação e seleção (Lodish e outros 2003).

Uma perda inicial de componentes redundantes numa via bioquímica não irá destruir a função. No entanto, no ponto em que um sistema não puder suportar perda adicional de componentes sem perder sua função, surge um sistema irredutível. A redundância de componentes bioquímicos em tal cenário serve como andaime. Shanks e Joplin (2000) avaliam este modelo em relação aos vários exemplos de sistemas bioquímicos de complexidade irredutível de Behe. Robinson (1996) também adotou uma abordagem semelhante, explicando em termos evolutivos plausíveis a origem das cascatas de coagulação do sangue dos vertebrados.

Cooptação de modelo

A seleção natural atua sobre um conjunto existente de estruturas dentro de um contexto ambiental particular. Um ambiente alterado exige respostas alteradas por parte de um organismo. Por conseguinte, não deveria ser surpresa encontrar no registro fóssil e nas evidências da anatomia comparativa e de estudos fisiológicos que algumas estruturas foram modificadas ao longo do tempo, passando a servir a funções diferentes. Na verdade, um tema comum da evolução biológica é que as estruturas existentes são muitas vezes utilizadas para novos usos e novas estruturas são criadas a partir de antigas. “Cooptação” é o termo utilizado para descrever o recrutamento de estruturas pré-existentes para novas tarefas. Este recrutamento pode explicar aumentos evolutivos na complexidade biológica.

Genes cooptados para novas funções podem dar origem a novidades desenvolvimentais e fisiológicas (Eizinger e outros, 1999; Ganfornina e Sanchez, 1999; longo de 2001; True e Carroll 2002). Os genes podem adquirir novas funções quando as sequências codificadoras de proteínas são alteradas, quando as sequências de codificação são unidas de formas diferentes durante o processamento de RNA, ou quando os padrões espaçotemporais de expressão dos genes são alterados (Verdadeiro e Carroll 2002). Duplicação gênica seguida de mutações diferenciais dão origem a novas configurações de proteínas e a alteração dos controles regulatórios da expressão gênica pode resultar em mudanças desenvolvimentais e morfológicas significativas.

Muitos sistemas biológicos complexos são caracterizados por uma forte integração de suas partes componentes. Behe (1996) argumentou que é altamente improvável que tais sistemas pudessem ter surgido através de uma coevolução simultânea de numerosas partes ou por meio de uma evolução serial direta dos componentes necessários. Mas sistemas complexos, mesmo os de complexidade irredutível, não precisam ser montados dessa maneira.

Novas associações entre subestruturas preexistentes ou proteínas podem dar origem a novas funções, não sendo necessário que o sistema evolua in toto. Muitos críticos do DI já assinalaram este fato (Miller, 1999; Thornhill e Ussery 2000; Miller 2003). Um exemplo particularmente instrutivo provável de cooptação pode ser visto na evolução do ciclo de Krebs (ácido cítrico). Melendez-Helvia e colaboradores (1996) reconheceram que o ciclo de Krebs representava uma dificuldade real para os biólogos evolutivos porque fases intermédias de sua evolução não teriam nenhuma funcionalidade. Uma análise das enzimas e cofatores componentes, no entanto, revelou que as partes componentes e fases intermédias tinham funções para além do seu papel no ciclo de Krebs.

Outro exemplo é o mecanismo V(D)J de processamento de genes dos sistemas imunes dos vertebrados (Thornhill e Ussery 2000). True e Carroll (2002) também apresentam exemplos de como vários genes ligados por um sistema de regulação gênico podem ser cooptados como uma unidade para uma nova função; seus exemplos incluem a evolução das manchas ocelares das asas de borboleta, membros dos vertebrados, folhas complexas de plantas e penas.

Modelo de complexidade emergente


Alguns teóricos da complexidade acreditam que existem leis de auto-organização que desempenham um papel na evolução da complexidade biológica (Kauffman 1993, 1995; Solé e Goodwin, 2000). O trabalho teórico nesta área se expandiu rapidamente na última década (ver, por exemplo, Camazine e outros, 2001). A interação de vários componentes, argumenta-se, leva inevitavelmente a padrões complexos de organização.

Uma medida da complexidade é o conteúdo informacional de um sistema, e um programa “ev” de Schneider demonstrou que nova informação pode realmente surgir espontaneamente. O programa “ev” foi construído para simular a evolução por eventos de mutação e seleção. No programa, certas sequências de DNA agem como “genes reconhecedores“, enquanto outras sequências servem como potenciais sítios de ligação para as moléculas reconhecedoras. Durante as simulações, ambos, os genes reconhecedores e as sequências de ligação potenciais podiam transformar-se. A seleção foi baseada na bem sucedida ligação de moléculas de reconhecimento nos sítios de ligação apropriados. A mudança na complexidade do sistema foi avaliada como uma mudança no conteúdo informacional das sequências de DNA. A especificidade entre genes de reconhecimento e sítios de ligação correspondentes aumentava o conteúdo informacional do sistema, que é medido em bits de informação, de acordo com a teoria da informação de Shannon. Começando com um genoma aleatório, o programa “ev” leva à evolução de sítios de ligação de DNA e ao consequente ao aumento da informação. Além disso, na simulação, sítios de ligação e genes de reconhecimento coevoluiram, transformando-se em um sistema irredutivelmente complexo. Os resultados mostraram que os processos de evolução darwiniana geram informação, bem como sistemas irredutivelmente complexos (Schneider, 2000).

Conceptibilidade vs plausibilidade: A resposta de DI

Os modelos acima são baseados em processos naturais que são passíveis de investigação experimental. Evidências em apoio a esses modelos vêm acumulando-se. Estes modelos foram avaliados pelo defensor do DI, William Dembski, em seu livro No Free Lunch (2002a). Dembski declarou cada modelo como sendo inadequado, com sua crítica mais específica voltada para programa “ev” de Schneider. Ele rejeitou a alegação de Schneider de que a informação tinha sido gerada de novo e acusou Schneider de contrabandear informação para dentro do programa, especificando as condições do programa para a sobrevivência dos “organismos” (Dembski 2002a). Do ponto de vista de um biólogo de populações, os critérios utilizados por Schneider eram perfeitamente razoáveis. No entanto, Schneider eliminou a regra especial a qual opôs-se Dembski, testando mais uma vez o programa, e encontrou os mesmos resultados (Schneider 2001a, 2001b).

Argumentando mais globalmente, Dembski afirmou que os teoremas ‘sem almoço grátis’ (No free lunch) deixam claro que o programa não poderia fazer o que Schneider afirmou. David Wolpert, no entanto, um dos desenvolvedores dos ‘sem almoço grátis’, diz que Dembski aplicou os teoremas de forma inadequada (Wolpert 2003).

As críticas de Dembski aos outros modelos foram mais gerais. Ele e outros defensores do DI queixam-se que os modelos naturalistas para a evolução da complexidade biológica carecem de especificidade causal. De acordo com Dembski, “especificidade causal significa identificar uma causa suficiente para explicar o efeito em questão” (Dembski 2002a: 240). Ele argumenta que, até detalhes suficientes serem resolvidos (presumivelmente em termos da ordem em que os componentes tornam-se associados, a maneira pela qual estes componentes montados interagiram para melhorar a função e as mutações que levaram a dependência obrigatória), não há nenhuma maneira de avaliar cenários naturalistas. “A falta de especificidade causal”, diz ele, “deixa-nos sem os meios para julgar se uma transformação pode ou não ser efetuada” (Dembski 2002a: 242).


Dembski acusa os evolucionistas de estarem satisfeitos com uma forma muito pouco exigente de possibilidade, ou seja, conceptibilidade (Dembski 2002b). Allen Orr resenhou o livro
No Free Lunch e chamou atenção para o fato de Dembski ter utilizado-se de probabilidades biologicamente irrelevantes e exigido detalhes irrealistas de especificidade causal (Orr, 2002). Na sua réplica, Dembski disse que, para Orr, “O Darwinismo tem a propriedade alquímica de transformar possibilidades puras em possibilidades reais” (Dembski 2002b). Ele passou a dizer que “Orr substitui uma demanda mais fraca por ‘narrativa histórica’ que, no caso do Darwinismo, degenera em reconstruções fictícias com pouca, ou nenhuma, base na realidade.

Dembski posiciona-se como o empirista crítico, pedindo apenas aquilo que todos os cientistas deveriam perguntar – detalhes que permitam determinar a validade das afirmações Darwinistas. Howard Van Till resenhando o livro No Free Lunch e comentou sobre a demanda de Dembski para a especificidade causal:

Muitas hipóteses científicas sobre a maneira pela qual vários processos transformacionais podem ter contribuído para a realização de alguma nova estrutura biótica podem ficar aquém de especificidade causal completa – mesmo que eles possam ser aplicações altamente plausíveis de mecanismos que são pelo menos parcialmente compreendidos. Quando for esse o caso, a abordagem DI tende a denegri-los como nada além do que “histórias assim” (‘just-so stories’) e a desconsiderá-los de uma análise mais aprofundada. (Van Til 2002)

A demanda de Dembski por maiores detalhes é uma reminiscência das demandas dos antievolucionistas anteriores por mais fósseis de transição. Sem dúvida, sempre haverá lacunas no registro fóssil, e sempre haverá espaço para mais detalhes em cenários evolutivos. A busca dos biólogos por esses detalhes está em curso.


A explicação de DI para a origem da complexidade biológica


Os biólogos propuseram uma série de modelos para explicar a complexidade biológica. Os proponentes do DI têm criticado esses modelos por falta de pormenores suficientes. É instrutivo, então, examinarmos as próprias explicações do DI para a origem da complexidade biológica. Dembski (2002a) afirma que certos tipos de sistemas biológicos, tais como sistemas de “
irredutivelmente complexos” de Behe, devem ter sido projetados por um agente inteligente, porque eles possuem uma característica que ele chama de “complexidade especificada. É possível, diz ele, distinguir objetos que foram projetados daqueles que surgiram por mecanismos naturais porque somente objetos projetados têm essa característica (Dembski 1998, 2002a). Os defensores do DI não oferecem modelos para explicar os processos pelos quais a complexidade biológica veio a existir. Eles argumentam, no entanto, que “complexidade especificada” é evidência empírica de que a estrutura ou função observada foi intencionalmente projetada.

Como podemos saber se um objeto possui “complexidade especificada“? Dembski diz que as estruturas ou eventos que são altamente complexos terão uma baixa probabilidade de ocorrer por acaso. Portanto, uma avaliação probabilística deve primeiro ser feita. Como os eventos, mesmo raros ou improváveis, podem ocorrer por acaso, dado tempo suficiente, Dembski (1998) estabeleceu um valor de probabilidade de 10-150 como critério de design.

Para ser especificado, um objeto ou evento deve possuir um padrão independente ou destacável da natureza do objeto ou evento em questão (Dembski 1998). No filme Contato, por exemplo, os pesquisadores do SETI interpretam um sinal de rádio como um sinal de inteligência extraterrestre porque o sinal contém os primeiros 100 números primos. Essa sequência particular de números é especificada, pois não tem nenhuma relação inerente com as ondas de rádio e é, por conseguinte, independente das próprias ondas de rádio. Finalmente, um objeto ou evento, concebido independentemente de sua complexidade ou especificidade, não pode ser o resultado de uma lei natural determinista.

Os proponentes do DI afirmam que certos sistemas biológicos exibem complexidade especificada e, portanto, devem ter sido intencionalmente projetados. Mas é a complexidade especificada um indicador confiável de design? A validade da abordagem de Dembski é questionável. Falhas em seu argumento foram apontadas previamente (ver, por exemplo, Orr 1996, 2002; Miller 1999, 2003; Schneider 2001a; Van Till 2002). Mas talvez a melhor maneira de avaliar a alegação do DI seja considerar a aplicação de seus critérios em um exemplo específico.

O flagelo bacteriano: caso de teste do DI


Dembski (2000) diz: “
Teóricos do Design não estão dizendo que, dado um determinado objeto natural que exiba complexidade especificada, todos os mecanismos causais naturais até agora considerados não conseguiram explicá-lo e que, portanto, ele teve de ser planejado. Ao contrário, eles estão dizendo que a complexidade especificada exibida por um objeto natural pode ser tal que há fortes razões para pensar que nenhum mecanismo causal natural seja capaz de produzi-lo.“. Os defensores do DI têm apresentado o flagelo bacteriano como uma estrutura biológica que é claramente o resultado de design. A aplicação do seu próprio critério de complexidade-especificação, no caso do flagelo bacteriano de Dembski, no entanto, falha em demonstrar que o flagelo é complexo ou especificado (Van Til 2002).

Os cálculos de probabilidade de Dembski para a origem do flagelo tratam o flagelo como um objeto combinatório discreto que auto-monta-se por puro acaso. Em outras palavras, todas as proteínas seriam espontaneamente formadas a partir de seus aminoácidos na ordem correta por acaso, em seguida, essas proteínas montam-se ao acaso nos arranjos corretos. Este não é um cenário evolutivo que já tenha sido postulado pelos biólogos (Miller 2003; Van Till 2002). Os evolucionistas imaginam um cenário muito diferente. As proteínas não são construídas ou montadas com o intuito de construir um sistema flagelar. Variantes proteicas aparecem ao longo do tempo, formando novas interações e assumindo novas funções. Conjuntos de proteínas que contribuem para o sucesso reprodutivo do organismo são mantidos e moldados pela seleção natural.

Embora Dembski (2002a: 19) afirme que, ao calcular a probabilidade de um evento, é necessário ter em conta todas as formas relevantes que um evento pode ocorrer, ele próprio não conseguiu fazê-lo. Ao apenas calcular a probabilidade de que o flagelo surgisse ao acaso, Dembski não pode justificar a sua afirmação de que o flagelo seria um produto de Design (Van Till 2002). Dembski (2003) respondeu a essas críticas, afirmando que não era sua intenção “calcular cada probabilidade concebível associada com a formação estocástica do flagelo … Meu ponto, em vez disso, foi esboçar algumas técnicas probabilísticas que poderiam ser aplicadas por biólogos à formação estocástica do flagelo.“. Dembski, em seguida, desafiou seus críticos a calcular as suas próprias probabilidades usando qualquer cenário que desejassem:

O flagelo bacteriano é de fato um objeto combinatório discreto, e a auto-montagem que eu descrevo é o que nos resta e que podemos calcular com base no que sabemos. A única razão pela qual os biólogos poderiam não aprovar a minha descrição e cálculos probabilísticos de auto-montagem seria porque eles mostram que apenas uma via indireta darwiniana poderia ter produzido o flagelo bacteriano. Mas, precisamente porque é indireta, não há, pelo menos por agora, qualquer especificidade causal e nenhuma probabilidade para ser calculada. (2002c Dembski)

Haverá sempre um grau de incerteza na elucidação de uma via evolutiva para a origem do flagelo ou qualquer outro sistema biológico. Dembski se esconde por trás dessa incerteza, contente por continuar usando um modelo de puro acaso independentemente do fato de que ele não tem relação alguma com a nossa compreensão dos processos evolutivos.

Conclusões


Os proponentes do DI alegam que os biólogos estão envolvidos em um programa de investigação que está fadado ao fracasso. De acordo com os proponentes do DI, uma explicação naturalista para a origem da informação genética e de organização biológica complexa não é possível. Os proponentes do DI afirmam que eles têm desenvolvido critérios rigorosos pelos quais o design na natureza pode ser detectado, mas eles ainda têm que demonstrar a validade de seus critérios. Além disso, os proponentes do DI deixam de levar em conta seriamente os cenários naturalistas dos evolucionistas para explicar as origens da complexidade biológica.

Certamente há ainda muito a ser aprendido sobre a evolução da complexidade, mas temos todas as razões para acreditar que isso aconteceu por processos naturais. Considere, por exemplo, o seguinte caso. Em 1966, Kwang Jeon observou que as suas culturas de amebas estavam morrendo como resultado de uma infecção bacteriana (Jeon 1991). As bactérias aparentemente tinham escapado de serem digeridas em um vacúolo alimentar e se reproduziram dentro do amebas. Ao longo de um período de tempo, algumas das culturas começaram a recuperar-se. As bactérias estavam ainda presentes nas amebas sobreviventes, embora em um nível muito reduzido. Jeon foi capaz de mostrar que as bactérias tinham tornado-se dependentes de suas células hospedeiras e a célula hospedeira havia tornado-se dependente das bactérias. Pesquisas adicionais demonstraram que a informação genética perdida pelos genomas das bactérias e amebas tinha levado a sua relação obrigatória. A endossimbiose mutuamente obrigatória foi estabelecida, criando o que é essencialmente uma nova organela celular. Dois sistemas de componentes tornaram-se associados, mutaram e estão agora irredutivelmente ligados um ao outro. Talvez os proponentes do DI argumentem que a complexidade não foi suficiente para ter exigido a ação de um agente inteligente, mas o ponto aqui é que causas naturais não dirigidas são tudo o que é necessário para explicar o aumento observado em complexidade e para a geração de um sistema irredutível.

Os biólogos têm proposto cenários naturalistas plausíveis para as origens da complexidade biológica. Estes cenários são baseados em uma compreensão dos processos naturais bem estabelecidos. Descartá-los como meras histórias concebíveis não é justificável. Exigir uma cadeia detalhada de causalidade para cenários evolutivos é irrealista. Insistir que o design foi detectado no flagelo bacteriano através do cálculo da probabilidade da sua montagem por puro acaso é simplesmente errado.

Referencias

  • Adami C, Ofria C, Collier TC. 2000. Evolution of biological complexity. Proceedings of the National Academy of Sciences (USA) 97: 4463–8.

  • Adami C. 2002. What is complexity? BioEssays 24: 1085–94.

  • Altman S. 1989. Ribonuclease P: An enzyme with a catalytic RNA subunit. Advances in Enzymology and Related Areas of Molecular Biology 62: 1–36.

  • Behe MJ. 1996. Darwin’s Black Box: The Biochemical Challenge to Evolution. New York: The Free Press.

  • Cairns-Smith AG. 1986. Seven Clues to the Origin of Life: A Scientific Detective Story. Cambridge: Cambridge University Press.

  • Camazine S, Deneubourg J-L, Franks NR, Sneyd J, Theraulaz G, Bonabeau E. 2001. Self-Organization in Biological Systems. Princeton (NJ): Princeton University Press.

  • Carlson JM, Doyle J. 2002. Complexity and robustness. Proceedings of the National Academy of Sciences (USA) Supplement 1; 99: 2538–48.

  • Catalano J. Behe’s empty box. 2001. Available on-line at http://www.simonyi.ox.ac.uk/dawkins/WorldOfDawkins-archive/Catalano/box/behe.shtml (link broken). Last accessed October 1, 2006.

  • Coyne JA. 1996. God in the details: The biochemical challenge to evolution. Nature 383: 227–8.

  • Csete ME, Doyle JC. 2002. Reverse engineering of biological complexity. Science 295: 1664–9.

  • Dembski WA. 1998. The Design Inference: Eliminating Chance through Small Probabilities. Cambridge: Cambridge University Press.

  • Dembski WA. 2000. Intelligent design coming clean. Available on-line at http://www.designinference.com/documents/2000.11.ID_coming_clean.htm. Last accessed October 1, 2006.

  • Dembski WA. 2002a No Free Lunch: Why Biological Complexity Cannot Be Purchased without Intelligence. Lanham (MD): Rowman & Littlefield.
    Dembski WA. 2002b Sheer vs real possibilities: A response to Allen Orr. Boston Review. Available on-line at http://new.bostonreview.net/BR27.5/exchange.html. Last accessed August 7, 2006.

  • Dembski WA. 2002c. Naturalism’s argument from invincible ignorance: A response to Howard Van Till. Available on-line at http://www.designinference.com/documents/2002.09.Van_Till_Response.htm. Last accessed August 28, 2006.

  • Dembski WA. 2003. Still spinning just fine: A response to Ken Miller. Available on-line at http://www.designinference.com/documents/2003.02.Miller_Response.htm. Last accessed August 28, 2006.

  • Doolittle RF. 1997. A delicate balance. Boston Review. Available on-line at http://new.bostonreview.net/br22.1/doolittle.html. Last accessed August 7, 2006.

  • Eizinger A, Jungblut B, Sommer RJ. 1999. Evolutionary change in the functional specificity of genes. Trends in Genetics 15: 197–202.

  • Ganfornina MD, Sanchez D. 1999. Generation of evolutionary novelty by functional shift. BioEssays 21: 432–9.

  • Herschlag D, Khosla M, Tsuchihashi Z, Karpel RL. 1994. An RNA chaperone activity of non-specific RNA binding proteins in hammerhead ribozyme catalysis European Molecular Biology Organization Journal 13: 2913–24.

  • Jeon KW. 1991. Amoeba and x-Bacteria: Symbiont acquisition and possible species change. In: Margulis L, Fester R, editors. Symbiosis as a Source of Evolutionary Innovation. Cambridge (MA): The MIT Press. P 118–31.

  • Kauffman SA. 1993. The Origins of Order. New York: Oxford University Press.

  • Kauffman SA. 1995. At Home in the Universe: The Search for the Laws of Self-Organization and Complexity. New York: Oxford University Press.

  • Lindsay D. 2000. How can evolution cause irreducibly complex systems? Available on-line at http://www.don-lindsay-archive.org/creation/evolve_irreducible.html. Last accessed August 28, 2006.

  • Lodish H, Berk A, Matsudaira P, Kaiser CA, Krieger M, Scott MP, Zipursky SL, Darnell J. 2003.Molecular Cell Biology, 5th ed. New York: WH Freeman.

  • Long M. 2001. Evolution of novel genes. Current Opinions in Genetics and Development 11: 673–80.

  • Melendez-Hevia, E, Wadell TG, Cascante M. 1996. The puzzle of the Krebs citric acid cycle: Assembling the pieces of chemically feasible reactions, and opportunism in the design of metabolic pathways during evolution. Journal of Molecular Evolution 43: 293–303.

  • Miller KR. 1999. Finding Darwin’s God. New York: Cliff Street Books.

  • Miller KR. 2003. The flagellum unspun: The collapse of “irreducible complexity”. Available on-line at http://www.millerandlevine.com/km/evol/design2/article.html. Last accessed August 28, 2006.

  • Nelson DL, Cox MM. 2000. Lehninger: Principles of Biochemistry, 3rd ed. New York: Worth.

  • Orr HA. 1996. Darwin v intelligent design (again): The latest attack on evolution is cleverly argued, biologically informed — and wrong. Boston Review. Available on-line at http://new.bostonreview.net/br21.6/orr.html. Last accessed August 7, 2006.

  • Orr HA. 2002. Review of No Free Lunch by William A Dembski. Boston Review. Available on-line at http://bostonreview.net/BR27.3/orr.html (link broken). Last accessed August 7, 2006.

  • Reich C, Olsen GJ, Pace B, Pace NR. 1988. The role of the protein moiety of ribonuclease P, a catalytic ribonucleoprotein. Science 239: 178–81.

  • Robinson K. 1996. Darwin’s black box: Irreducible complexity or irreproducible irreducibility? Available on-line at http://www.talkorigins.org/faqs/behe/review.html. Last accessed August 26, 2006.

  • Robertson MP, Ellington AD. 2001. In vitro selection of nucleoprotein enzymes. Nature Biotechnology 19: 650–5.

  • Schneider TD. 2000. Evolution of biological information. Nucleic Acids Research 28: 2794–9.

  • Schneider TD. 2001a. Rebuttal to William A Dembski’s posting and to his book No Free Lunch. Available on-line at http://www.ccrnp.ncifcrf.gov/~toms/paper/ev/dembski/. Last accessed October 1, 2006.

  • Schneider TD. 2001b. Effect of ties on the evolution of information by the ev program. 2001b. Available on-line at http://www.ccrnp.ncifcrf.gov/~toms/paper/ev/dembski/claimtest.html. Last accessed October 1, 2006.

  • Shanks N, Joplin KH. 1999 Redundant complexity: A critical analysis of intelligent design in biochemistry. Philosophy of Science 66: 268–82.

  • Shanks N, Joplin KH. 2000. Behe, biochemistry, and the invisible hand. Philo. Available on-line at http://www.pdcnet.org/scholarpdf/show?id=philo_2001_0004_0001_0054_0067&pdfname=philo_2001_0004_0001_0054_0067.pdf&file_type=pdf. Last accessed August 28, 2006.

  • Sole R, Goodwin BC. 2000. Signs of Life: How Complexity Pervades Biology. New York: Basic Books.

  • Soukup GA, Breaker RR. 1999. Design of allosteric hammerhead ribozymes activated by ligand-induced structure stabilization. Structure 7: 783–91.

  • Strogatz SH. 2001. Exploring complex networks. Nature 410: 268–76.

  • Thornhill RH, Ussery DW. 2000. A classification of possible routes of Darwinian evolution. The Journal of Theoretical Biology 203: 111–6. True JR, Carroll SB. 2002. Gene co-option in physiological and morphological evolution. Annual Reviews of Cell and Developmental Biology 18: 53–80.

  • Tsuchihashi Z, Khosla M, Herschlag D. 1993. Protein enhancement of hammerhead ribozyme catalysis. Science 262: 99–102.

  • Van Till H. 2002. E coli at the No Free Lunchroom: Bacterial flagella and Dembski’s case for intelligent design. Available on-line at http://www.aaas.org/spp/dser/03_Areas/evolution/perspectives/vantillecoli_2002.pdf. Last accessed October 1, 2006.

  • Wolpert D. 2003. William Dembski’s treatment of the No Free Lunch theorems is written in jello. Available on-line at http://www.talkreason.org/articles/jello.cfm. Last accessed August 28, 2006.

———————————————————-

Sobre o autor:

Finn Pond

Biology Department

Whitworth College

300 W Hawthorne Rd

Spokane WA 99251

fpond@whitworth.edu

Citação do artigo original: Pond, Finn ‘The Evolution of Biological Complexity Reports of the National Center for Science Education, Volume: 26, Issue: 3, May–June, Page(s): 22, 27–31, 2006.

Crédito da imagem: GIF do complexo proteico c-FLIP; Autor: BQUB14-Rmorillas; Fonte: wikimedia commons

Tradução: Rodrigo Véras

Informação, biologia e evolução Parte III

Chegamos à terceira parte da nossa série de posts sobre a teoria da informação e suas aplicações na biologia e especialmente na evolução, que iniciaram-se nos posts anteriores ‘Informação, biologia e evolução: Parte I‘ e “Informação, biologia e evolução Parte II“. Neste novo post continuamos a falar sobre como podemos medir a informação e ganhos nesta quantidade ao longo da evolução por seleção natural.

Esta abordagem permite aos cientistas investigarem a fundo como biomoléculas interagem umas com as outras e como elas ajustam seus estados. Os estados e os padrões das moléculas, desviando das abordagens mais tradicionais da bioquímica, podem ser medidos usando-se o formalismo da teoria da informação molecular. A teoria de informação de Shannon da forma como emprega por Schneider nos permite calcular a informação média nos sítios de ligação de DNA de qualquer proteína associada ao controle genético, como um fator de transcrição, por exemplo. Podendo esta análise ser estendida a investigação de seus sítios de ligação individuais. De fato, uma fórmula equivalente à fórmula de Shannon para a capacidade do canal pode ser utilizada em sistemas biomoleculares, possibilitando que calculemos a eficiência com que a proteína liga-se aos sítios. De acordo com os resultados dos estudos realizados pelo grupo de Schneider, esta eficiência frequentemente está por volta de 70%, sugerindo que estes sistemas evoluíram para funcionar na capacidade do canal. Estes resultados sugerem que devemos poder construir sistemas de comunicação molecular que são tão robustos como seus equivalentes tecnológicos convencionais [1]. Mas como podemos saber disso? Antes de responder esta questão precisamos voltar ao básico da biologia molecular  e compreender como funciona a regulação gênica.

Ligando e desligando genes:

A regulação de um gene requer que uma proteína ligue-se a sítios específicos na sequência de DNA associada a sequência codificadora deste mesmo gene, de modo que sua transcrição seja ativada ou inibida. Lembre-se que existem apenas quatro bases de nucleotídeos no DNA (denominadas A, C, G e T) de modo que os sítios de ligação (ou seja, as regiões nas quais as proteínas regulatórias ligam-se) podem ser representadas pelo padrão destas quatro letras [1].

Um ponto importante é que uma proteína é uma molécula finita. Isso significa que ela pode ligar-se a apenas um segmento de DNA por vez que, normalmente, tem algo em torno de 10 a 20 pares de bases de comprimento. Também é importante compreendermos que o padrão que permite a ligação de uma dada proteína a um sítio não é representado exatamente por uma mesma sequência de bases.  Isso implica que algumas das posições na sequência de nucleotídeos podem variar, ou seja, diferentes nucleotídeos podem ser ali aceitos, sem que isso faça diferença para a função em questão. Claro, outras variações podem estar associadas a funções diferentes ou mesmo a perda de função [1].

O que a teoria da informação permite é medir ‘quanto padrão’ existe em um conjunto de sítios de ligação. Por exemplo, veja o caso da proteína Fis que normalmente existem na faixa de apenas 100 moléculas em uma célula bacteriana em inanição. Porém, basta que a célula encontre nutrientes e este número aumenta para mais de 50.000 moléculas. Essa elevação no numero de moléculas acarreta a alteração da regulação de muitos genes controlados pelas moléculas de Fis. Na Fig. 1 podemos observar vários sítios de ligação da proteína Fis, identificados experimentalmente, todos localizados no comecinho do próprio gene que codifica a proteína Fis  [pdb 3FIS] [1].

Sabemos que quando não há muitas moléculas de Fis na célula, o gene Fis está ativo, induzindo a expressão de mais moléculas Fis. Porém, quando essas moléculas ocupam os sítios de ligação do próprio gene Fis isso induz uma diminuição da expressão da proteína Fis, ou seja, a um processo de retroalimentação (feedback) negativo. A pergunta é ‘Como é que Fis encontra estes sítios no genoma? ‘ [1].

Os logos de sequência:

Vejamos a figura abaixo. Só de olhar podemos perceber que as sequências são todas bastante diferentes umas das outras, mas a região central (ao redor do zero) tem muitas bases A e T, enquanto que a posição -7 é quase sempre um G, enquanto a posição 7 é quase sempre um C.

Na figura acima estão dispostas, umas em cima das outras, as sequências alinhadas (no topo) e e os logos de sequência (em baixo) para os sítios de ligação de DNA da proteína de Fis da bactéria Escherichia coli. A barra de números (‘numbar’) no topo deve ser lida verticalmente. Ela mostra a gama de -10 a 10 para posições em todo o sítio. Abaixo da numbar estão os 6 sítios Fis e suas sequências complementares. Ambas são indicadas, uma vez que ligam-se ao Fis como um dímero. À direita está a informação individual de cada sequência. Os logos de sequência, na parte inferior da figura, mostram a conservação da sequência no conjunto de dados completo, que consiste em 60 sítios Fis e seus complementos. A altura de cada letra (nucleotídeo) é proporcional à frequência da base naquela posição e as letras estão ordenadas. A altura de toda a pilha de letras é a informação, medida em bits. A possível variação da altura devido aos efeitos de pequenas amostras é mostrado pelas barras de erro. O pico da onda senoidal mostra onde o sulco maior do DNA faz interface com a proteína. De acordo com Schneider, isso pode ser usado para inferir alguns aspectos da forma como os contatos entre proteína e DNA se dão [1].

O grupo de Schneider desenvolveu uma maneira de visualizar este tipo de padrão, através dos chamados logos de sequência. Eles mostram que diferentes partes do sítio são conservadas de maneiras distintas. A Teoria da Informação aplicada a biologia molecular permite caracterizar estes sítios com precisão, mas como exatamente isso é feito ? [1].

Medindo a informação (Rsequência e Rfrequência):

Primeiramente sabemos que antes que uma molécula da proteína Fis tenha se ligado ao DNA lá podem estar qualquer uma das quatro bases possíveis em cada posição específica da sequência. Então, lembrando do post anterior e, acompanhando a ideia de Shannon, podemos dizer que a proteína estaria ‘incerta’ em relação a qual base estaria a sua frente em uma quantidade que pode ser medida através do log2 (4) = 2 bits. Porém, assim que a proteína esteja ligada a um sítio para a Fis, a incerteza em relação ao que está ligada será menor; menor em diferentes níveis, dependendo do caso específico. Isso é assim porque as bases variam mais ou menos em diferentes posições. Por exemplo, no caso das posições -7 e +7 quase sempre elas encontrarão as mesmas bases, portanto a incerteza nestas posições será próxima a log2 (1) = 0 bits. Mas aqui é preciso bastante cautela. Isso é apenas uma aproximação. Existem outras bases nessas posições, mesmo que a frequência delas seja bem baixa. Assim, a incerteza não é zero. Felizmente, podemos calcular a incerteza em relação à frequência de símbolos, como mostrou Shannon [1]. Como vimos no post anterior (“Informação, biologia e evolução Parte II“):

onde fb, l são, respectivamente as frequências das bases b ∈ {A, C, G, T} na posição l no alinhamento de sequências [1].

Aqui precisamos tomar vários cuidados. Primeiro de tudo, como não existe um número infinito de sequências, como a teoria de Shannon exigiria, substituímos as probabilidades das bases por suas frequências. De acordo com Schneider, isso demanda uma correção para o tamanho pequeno da amostra [1, 2]. Segundo, a incerteza, que às vezes chamado de “entropia de Shannon”, não é igual a entropia da termodinâmica e por isso este termo não deve ser usado, mesmo porque em um certo momento a entropia termodinâmica entrará na discussão já que ela está envolvida nos processos físico-químicos associados a ligação entre biomoléculas. Terceiro, é preciso que fique claro que a incerteza dada pela Eq. (1) não é a informação, como Schneider sempre enfatiza e como já discuti no post anterior (“Informação, biologia e evolução Parte II“).

Recapitulando. Antes que a molécula de Fis ligar-se ao sítio ela está em algum lugar no DNA genômico e tem 2 bits de incerteza. Porém, logo após a ligação, essa incerteza é reduzida, H(l). Aqui voltamos a outra questão importante, como Shannon percebeu, o receptor de uma mensagem terá menos informação por causa do ruído no sinal, o que faz com que a informação recebida R seja menor do que a incerteza transmitida H(x):

Shannon chamou Hy(x) (a ‘entropia condicional’) de equivocação. Ela mede a ambiguidade média do sinal recebido [1].

De modo semelhante, H(l) é a ambiguidade “observada” pela proteína de ligação ao DNA uma vez que ela tenha se ligado a um sítio, o que faz com que a informação do sítio de ligação seja a incerteza antes da ligação subtraída daquela após a ligação:

Schneider mostra isso ao criar um logo de sequência, ilustrado na parte inferior da figura 1. Nele a Rsequência (l) em todo o sítio de ligação é plotada e esses valores são utilizados para variar as alturas de pilhas de letras que representam a abundância relativa de cada base em cada posição do sítio de ligação. Os logos de sequência são amplamente utilizados em biologia molecular para representar os padrões de DNA, RNA e proteínas. Com a variação de uma parte de um sítio de ligação normalmente é independente das outras partes, podemos somar os valores de informação em todas as posições de um sítio de ligação para encontrar a totalidade da informação do sítio de ligação. Essa é a “área” sob o logo de sequência que é encontrada somando-se as alturas de todas as pilhas de letras [1].

Compreendemos melhor a importância da Rsequência ao compararmos com uma outra medida da informação. Schneider explica que, como em muitos casos (mas não no caso da Fis), o número de sítios de ligação de uma proteína ao genoma é conhecido, o problema enfrentado pela proteína de ligação ao DNA é o de localizar um número de sítios de ligação, γ, tendo em vista todo o comprimento do genoma, medido em pares de base, G. Isso significa, em termos da teoria da informação, que a incerteza antes de acontecer a ligação a um dos sítios é log2 L, enquanto que a incerteza após ter ocorrido a sido ligação é reduzida para log2 γ. Então, como acontece com o cálculo da informação nos sítios de ligação, as informações necessárias para encontrar os sítios de ligação é:

Sítios de ligação naturais têm Rsequências próximas às Rfreqquências. Isso quer dizer que a informação usada dos sítios de ligação é apenas suficiente para localizar os sítios de ligação no genoma. Uma vez que o tamanho do genoma e o número de sítios de ligação são mais ou menos fixados pelo ambiente, a informação nos sítios de ligação, Rsequência, tem de evoluir para o necessário, ou seja, a Rfrequência, o que foi verificado por um modelo de computador chamado Ev. Existe uma versão em Java que pode ser executada em seu próprio computador, disponível aqui. Este incrível resultado foi publicado em 2000 em um artigo da revista científica Nuclear Acid Research [2] e inspirou um vídeo criado pelo usuário cdk007 e que foi agora traduzido por mim e pode ser visto aqui.

O vídeo explica de maneira bem simplificada o que é informação, de acordo com a teoria de Shannon, e como ela pode ser  aplicada à biologia molecular e à evolução, como foi feito no artigo de Schneider [2]. No vídeo, o autor usa algumas convenções diferentes das de Schneider, que eu mantive na versão traduzida. Ao invés de ‘H’ é usado a letra ‘U’ de ‘Uncertainty’ para a entropia de Shannon e ‘I’, de ‘Information’, ao invés de ‘R’.

———————————-

Referências:

  1. Schneider TD. A brief review of molecular information theory. Nano Commun Netw. 2010 Sep;1(3):173-180. doi:  10.1016/j.nancom.2010.09.002

  2. Schneider TD. Evolution of biological information. Nucleic Acids Res. 2000 Jul 15;28(14):2794-9. doi: 10.1093/nar/28.14.2794

Como se deu a transição da vida unicelular para a multicelular*?

Este é um dos tópicos mais importantes da moderna biologia evolutiva e, na realidade, insere-se em um domínio bem mais amplo que é o das grandes transições evolutivas. Este tópico também está intimamente relacionado com a evolução da cooperação entre organismos, como já havia comentado em uma resposta anterior. Como afirma Michod, alguns dos principais marcos na diversificação da vida e da evolução da organização hierárquica dos seres vivos são consequências de uma série de transições evolutivas: de genes para redes de genes para a primeira célula; de procariotas para células eucarióticas; de células para organismos multicelulares; de seres com reprodução assexuada para populações sexuadas; e de organismos solitários para os organismos sociais [1].

De uma maneira resumida, tais transições exigem a reorganização da aptidão. Isso quer dizer, a transferência da aptidão do antigo nível individual para o novo nível supraindividual, além da especialização das unidades de nível mais baixo em componentes da aptidão do novo indivíduo de nível superior. Compreender por que (pressões seletivas ambientais) e como (genética, estrutura populacional, fisiologia e desenvolvimento subjacente) as características básicas de um indivíduo evolutivo – i.e. como a hereditariedade da aptidão, a indivisibilidade e a evoluibilidade mudam a sua referência a partir do nível antigo para o novo nível – é um grande desafio [1].

Como abordei em vários artigos para o nosso blog (“Evolução da multicelularidade em laboratório”, “Evolução da multicelularidade em laboratório II”, “Evolução do ciclo reprodutivo multicelular: Lições da evolução experimental!” e a resposta “Multicelularidade com uma ajudinha das bactérias?”.), avanços têm sido alcançados através do estudo experimental da evolução da multicelularidade, onde são usadas espécies de algas da família dos Volvox, leveduras e outros eucariontes unicelulares [1, 2, 3].

Estas diversas linhas de investigação experimentais e comparativas, combinadas com uma compreensão cada vez melhor da dinâmica e evolução dos genomas (e dos componentes moleculares subjacentes a organização celular) nos sugerem que que muitas linhagens devem ter evoluído seguindo mais ou menos o mesmo padrão geral de séries de transformação:

unicelular → colonial → multicelular (→ multicelular complexo).

Existem três abordagens básicas para explicar como este processo de especialização celular aconteceu, que são, em muitos aspectos, complementares. A primeira envolve a evolução da cooperação (versus ‘deserção’). Para cooperarem umas com as outras, as células muitas vezes especializam-se em determinados comportamentos e funções. Particularmente importantes para a evolução das grandes transições evolutivas são as formas onerosas de cooperação (em sentido técnico isso é chamado de ‘altruísmo’), em que há custos para os indivíduos que adotam tais práticas. Essa abordagem implica que o altruísmo exporta a aptidão de um nível mais baixo (os custos de ser altruísta) para um nível mais elevado (os benefícios do altruísmo). Porém, uma vez que a cooperação evolui, abre-se a possibilidade de outra estratégia evolutiva, a ‘deserção’ (o ‘egoísmo’), o que leva a um segundo tipo de hipótese para a evolução de células especializadas, a ‘mediação de conflitos’. Caso as oportunidades de deserção puderem ser reguladas, aumentado a cooperatividade das células, isso resultará em funcionamento mais harmonioso do grupo como um todo [1, 2, 4, 5].

Neste perspectiva, muitas características dos organismos multicelulares podem ser encaradas como ”mediadoras de conflitos”, isto é, adaptações para reduzir conflito e aumentar a cooperação entre as células. Entre essas características destacam-se o alto nível de similaridade genética resultante do desenvolvimento a partir de uma única célula progenitora, taxa de mutação reduzida em virtude da compartimentalização em um núcleo, controle de células egoístas pelo sistema imunológico, controle parental de fenótipo celular, morte celular programada de células (que é modulada por sinais recebidos pelas células vizinhas), tamanho do corpo determinado e a separação precoce entre os tecidos somáticos (soma) e germinativos (germe). Para que estes mediadores de conflito funcionem são necessários diferentes tipos de células especializadas.

A terceira hipótese para a especialização envolve as vantagens da divisão do trabalho e da sinergia que pode originar-se quando as células se especializam em comportamentos e funções omplementares, sendo a divisão mais básica de trabalho nos organismos a entre funções reprodutivas e vegetativas (ou sobrevivência) [1, 2]. Entre as vantagens evolutivas que podem ser obtidas através da multicelularidade – que requer uma cooperação estrita entre as diversas células componentes e o ‘sacrifício’ de sua individualidade – estão a maior eficiência por causa da economia de escala e divisão de trabalho, a diminuição do risco de predação em virtude do tamanho, a possibilidade de maior complexidade comportamental e portanto maior versatilidade e maior espectro na exploração de modos de vida e constituição de nichos. Porém, este processo equivalente a ‘tragédia dos comuns’, fenômeno em que os indivíduos a curto prazo podem ter vantagens muito maiores não contribuindo com o sucesso coletivo e explorando os recursos comuns. Por isso para que a multicelularidade (e a cooperação, de modo mais geral) possa evoluir é preciso que os ‘interesses’ dos indivíduos sejam alinhados e – para o surgimento de seres realmente multicelulares – que estes interesses, eventualmente, sejam transferidos para a entidade mais ampla formada por eles, o que demanda uma série de condições específicas.

Recentemente, dois artigos de revisão [4, 5] ofereceram análises mais abrangentes deste fenômeno que merece serem discutidas e divulgadas. Os artigos são de autoria do biólogo evolutivo especializado em plantas Karl Niklas, da Universidade de Cornell, em NY, e do biólogo do desenvolvimento, Stuart A. Newman, NYMC, também em NY. Os dois pesquisadores investigam principalmente os mecanismos e processos físicos e químicos associados a formação de padrões e a evolução morfológica animal. Nestes artigos, Niklas e Newman exploram as forças motrizes por trás destes eventos como aquelas associadas às restrições físicas e químicas (como as vantagens inerentes à organização multicelular) e as prováveis etapas destas transições, bem como quais fatores ecológicos traduziram-se em pressões seletivas e portanto influenciaram na evolução dos organismos multicelulares. Eles mostram como várias das etapas intermediárias são comuns a muitos grupos, envolvendo mecanismos desenvolvimentais e, possivelmente, pressões seletivas equivalentes, mas não necessariamente sendo instanciadas pelos mesmos componentes físicos e vias bioquímicas, como parece ser o caso da multicelularidades em eucariontes clorofilados como as algas e plantas terrestres. Esta constatação faz bastante sentido já que a seleção natural opera a partir de características funcionais e não diretamente sobre seus mecanismos subjacentes, possibilitando que muitos mecanismos diferentes, em diferentes linhagens, produzam características funcionais equivalentes [4, 5].

Para compreendermos melhor este processo de transição, seus prováveis condicionantes e fatores impulsionadores Niklas e Newman propõem dividir a questão em cinco tópicos: (1) a caracterização dos organismos multicelulares em relação a adesividade intercelular e comunicação célula-célula e célula-ambiente; (2) a compreensão da transição fundamental da aptidão definida ao nível das células individuais para a aptidão definida ao nível de uma entidade verdadeiramente multicelular, ou seja, enfocando a mudança no nível da seleção natural e do ‘alinhamento da aptidão’ e ‘exportação da aptidão’; (3) analisar a transição de organismos multicelulares simples para formas mais complexas de multicelularidade; (4) comparar os estados e polaridades das características entre as diferentes linhagens de algas, plantas, fungos e animais; e, por fim, (5) discutir como a evolução de organismos multicelulares foi instigada por módulos de padronização genéricos, cujas propriedade físicas teriam sido mobilizadas geneticamente por ‘kits de ferramentas’ moleculares [veja mais sobre o assunto em aqui, aqui, aqui e aqui] compartilhados ou exclusivos de cada grupo.

Em cada um dos casos conhecidos (especialmente tendo em vista a teoria da seleção multi-níveis) a multicelularidade em sentido mais restrito evolui por meio da aquisição das capacidades de adesão e comunicação célula-célula. Essas capacidades permitiram a cooperação entre as células e sua eventual especialização, o que demandou aquilo que Niklas chamou de ‘alinhamento da aptidão’ e a ‘exportação da aptidão’ como meios de eliminar os conflitos entre células e, assim, estabelecer um todo organizado e reprodutivamente integrado [4, 5]. Niklas enfatiza que:

“ … a seleção natural age normalmente em características funcionais ao invés de sobre os mecanismos que as geram (“Muitos caminhos levam a Roma”) e que as homologias das sequência do genoma não, invariavelmente, traduzem-se em homologias morfológicas (“Roma não é mais o que era antes).” [5]

Portanto, a evolução independente da multicelularidade pode ser compreendida nesta simples premissa, ou seja, a de que a seleção atua sobre os fenótipos e, portanto, sobre quão bem certas combinações de características funcionam em conjunto:

Em outras palavras, mesmo que as células adiram em conjunto, utilizando diferentes mecanismos, ou através de diferentes vias de desenvolvimento, se os resultados são agregações cooperativas de células que funcionam bem e, portanto, são capazes de sobreviver melhor e, criticamente, produzir mais descendentes do que suas contrapartidas unicelulares, então, estes vários caminhos evolutivos serão todos possíveis.” [5]

Como explica Niklas:

“O ponto crítico é que a evolução dos organismos multicelulares ocorreu múltiplas vezes e envolveu diferentes ‘motivos’ de desenvolvimento, como a química das “colas”, que permitem que as células para ficar juntos.” [5]

Isso fica claro ao analisarmos a questão da adesividade e comunicação célula-célula. No caso dos mecanismos de adesividade e comunicação célula-célula e célula-ambiente fica patente que existe grande variação molecular na forma como estes processos são levados à cabo em cada linhagem. Como explicam Niklas e Newman, a composição da lamela central das paredes celulares das plantas terrestres (as embriófitas), que as mantem juntas, que é dominada por Ca2+þ-rhamnogalacturonanica, é bem distinta quimicamente das proteínas caderinas transmembrana do tipo-1, responsáveis ​pela adesão de células animais, bem como das glicoproteínas produzidas por muitos fungos, que também funcionam como colas e que exercem funções adesivas similares [4, 5]. Outras características estruturais teciduais continuam a exemplificar esta situação, com é o caso das interconexões intercelulares encontradas na alga verde Volvox que, por sua vez, diferem significativamente dos plasmodesmas das embriófitas, das junções comunicantes das células dos vertebrados ou mesmo dos poros septais intercelulares observados nos fungos, que, mesmo assim, fornecem todos caminhos para a comunicação célula-célula [4, 5].

Estas constatações, por outro lado, levaram a sugestão de que, como a adesão e a comunicação célula-célula são requisitos básicos à evolução dos organismos multicelulares, seus elementos básicos já deviam ter estado presentes nos ancestrais unicelulares, mas não, necessariamente, manifestando as mesmas funcionalidades [4, 5]. De acordo com Rokas [6], comparações entre vários pares de espécies multicelulares aparentadas (que evoluíram independente de outras espécies multicelulares) e unicelulares sugerem que as transições para a multicelularidade estiveram tipicamente associadas ao aumento do número de genes envolvidos na adesão, comunicação e diferenciação celular. Uma análise mais aprofundada do registro de DNA sugere que estes aumentos na complexidade genica são o produto de inovação evolutiva, bricolagem e da expansão do material genético (veja também os artigos “A origem de nova informação genética. Parte I” e “A origem de nova informação genética. Parte II”). Além disso, estes estudos, ao permitirem o vislumbre dos prováveis componentes funcionais ​​destes ‘kits de ferramentas’ genéticos que teriam sido necessários paras a existência multicelular, ajudaram também a confirmar a suspeita de que muitos destes genes (ou pelo menos de genes homólogos) já estavam em linhagens unicelulares, uma vez que encontravam-se nos parentes unicelulares remanescentes destas linhagens, o que mostra que, muito provavelmente, já deveriam ter estado presentes nos ancestrais comuns de ambos os grupos [4, 5, 6].

A figura mostra as diversas origens de organismos multicelulares entre os principais grupos de eucariontes através de um diagrama filogenético não enraizado, além de bem simplificado e editado [].

Por meio do diagrama, podemos perceber que, embora algumas linhagens sejam inteiramente unicelulares ou multicelulares, a maioria contém uma mistura das duas formas de organização corporal, exibindo por exemplo espécies unicelulares e coloniais (por exemplo, coanoflagelados) ou uma mistura de organização unicelular, colonial e multicelular (por exemplo, ciliados e Estramenopilas). Um ponto muito interessante é que as chamadas linhagens precocemente divergentes persistentes (PED) são dominadas por espécies unicelulares (por exemplo, Prasinófitas do clado Chlorobionta), enquanto que as linhagens que divergem posteriormente exibem uma mistura de organizações coo das algas clorofíceas e carofíceas. Por fim, as linhagens cheias de espécies que divergiram tardiamente (LDP) tendem a ser exclusivamente multicelulares, como facilmente podemos perceber ao observar as plantas terrestres e os animais [4, 5].

Estes achados chamam a atenção para o fato de que, além dos requisitos mais básicos e óbvios que determinam a multicelularidade (a habilidade das células comunicarem e cooperarem entre si e especializarem em funções distintas umas das outras ou seja não fazendo todas exatamente a mesma coisa), as células não devem rejeitar umas as outras, competindo entre si. Elas devem cooperar “alinhando sua aptidão”, o que pode ser alcançado por meio da compatibilidade genética (como ocorre nos modelos de ‘seleção de parentesco’), mas que também pode ser atingido, muito mais eficazmente, quando isso se dá através da clonalidade. Isso, por sua vez, pode ser conseguido por um simples “gargalo genético”, ou seja, com todas células do agregado multicelular sendo derivadas da mesma célula mãe, o que pode ser obtido pela passagem obrigatória por um estágio unicelular (como ocorre com esporos, zigotos ou propágulos assexuados uninucleados) [1, 2, 4, 5]. Veja mais sobre isso no artigo de nosso blog “Evolução do ciclo reprodutivo multicelular: Lições da evolução experimental!”. Existem, portanto, aqui dois caminhos básicos para a multicelularidade:

O primeiro deles é o caminho por agregação, exemplificado por seres como o Dictiostelium cuja fase multicelular resulta na agregação de várias células individuais distintas (veja por exemplo aqui). O segundo, caracterizado pela não disjunção das células filhas após a divisão celular que é o caminho trilhado pela maioria dos grupos que consideraríamos multicelulares mais típicos, como os fungos, algas (incluindo as plantas terrestres e as algas mais próximas) e animais. A multicelularidade verdadeira depende está associada a este segundo tipo de caminho [1, 2, 4, 5].

Em um segundo estágio, como já mencionado, deve ocorrer a “exportação da aptidão” o que requer que as células trabalhem em conjunto, reproduzindo-se como unidades mais coesas, com os indivíduos atuando em concerto, aumentando a aptidão do todo, o que dá origem a um fenótipo coletivo bem distinto, ou seja, a um organismo multicelular completo.

Além disso, como já comentado anteriormente, muitos destes requisitos adaptativos não são exclusivos da evolução da multicelularidade, mas parecem inerentes a evolução da cooperação nos mais diversos níveis da organização biológica, como fica claro ao analisarmos trabalhos como os de Martin Nowak, os quais já foram abordados em nosso blog. [veja As cinco regras básicas para a evolução da cooperação] Esses trabalhos e ideias também podem nos ajudar a compreender quando esta cooperação é ameaçada, seja por causa de indivíduos trapaceiros ou de células renegadas, como as que produzem tumores e outros tipos de câncer.

Os teóricos da seleção multi-níveis encaram este processo como parte da evolução da ‘individualidade’, onde a aptidão passa a ser transferida para níveis mais amplos de organização o que é muito bem exemplificado pelas transições entre a uni e multicelularidade. Assim, através do alinhamento da aptidão e finalmente de sua exportação, emergem novos níveis de organização que acabam por produzir novas pressões seletivas, enfrentadas agora em um nível de organização mais ampla, ou seja, pelo organismo multicelular como um todo. Neste caso específico [D], portanto, parece claro que uma transição no nível de organização, e portanto dos alvos da seleção natural, parece ter realmente ocorrido**. Um exemplo bem completo de como todo este processo pode ocorrer é propiciado pela análise da evolução da multicelularidade nas algas volvicines, que já comentamos, pelo grupo de Richard Michod [1, 2].

Um desses organismos é alga verde multicelular Volvox carteri. Nela o altruísmo reprodutivo é assumido por cerca de 2000 pequenas células somáticas biflageladas, cujo principal papel é manter a viabilidade do organismo, enquanto a reprodução é desempenhada por até 16 células reprodutivas não flageladas. Os pesquisadores conseguiram determinar que a diferenciação terminal de células somáticas nestes algas depende da expressão de um proteína, codificada pelo gene regA, que exerce uma função regulatória, reprimindo a transcrição de outros genes que codificam proteínas do núcleo e dos cloroplastos, suprimindo o crescimento e reprodução das células somáticas. Como elas não podem mais dividir-se, elas não contribuem diretamente na formação da prole, mas contribuem para a sobrevivência e reprodução da colônia por meio do continuo batimento dos flagelos. Esse é basicamente a expressão de um fenótipo (comportamento) altruísta. O que acarreta que o gene regA, cuja expressão é necessária e suficiente para este comportamento, seja, portanto, um ‘gene altruísta’ [1, 2].

Em V. carteri, quais células expressam regA – e portanto quais diferenciam-se em células somáticas e quais não expressam e tornam-se células reprodutivas – é algo determinado já no início do desenvolvimento. Isso acontece por meio de uma série de divisões celulares assimétricas que garantem que células precursoras da linhagem germinativa permaneçam acima de um tamanho limite que está associado com a expressão de regA. Como esperaríamos, pela teoria da evolução da cooperação, esta característica altruísta é também suscetível a ‘deserção’. Isso pode acontecer através do surgimento de mutantes egoístas, como é exemplificado pelo fato das mutações neste gene resultarem em células somáticas que recuperam suas capacidades reprodutivas e que tem por consequência levar a uma perda das suas capacidades flagelares. Porém, como a motilidade é importante para estas algas – uma vez que elas precisam manterem-se na coluna de água em uma posição ideal em relação à intensidade da luz solar -, a sobrevivência e a reprodução de V. carteri depende da atividade flagelar [1, 2].

Além disso, outros estudos mostram que o esforço reprodutivo aumenta com o tamanho da colônia e que, com o investimento no aumento da reprodução, ocorre um declínio da motilidade. As análises dos mutante regA indicam que estes declínios de força flagelar estão associados ao fato das células somáticas mutantes ‘desdiferenciarem-se’, começando também a se reproduzir. Além disso , durante o desenvolvimento, com o aumento do tamanho das células reprodutivas (apesar da motilidade não se alterar nas espécies de Volvox com menos células), ela pode diminuir consideravelmente nas espécies maiores. Este fato seria devido ao aumento do comprimento dos flagelos, pois como as células aumentam de tamanho, as espécies menores conseguiriam manter sua motilidade, a medida que aumentassem de tamanho durante o desenvolvimento, o que não ocorreria com as as algas maiores, formadas de mais células [1].

Então, seria isso que faz com que a curva, que mostra a relação entre os componentes da aptidão representados pela reprodução e pela sobrevivência, torne-se cada vez mais convexa com o aumento dos tamanhos – o que favorece que as células de grupos maiores tornem-se altruístas reprodutivas. No caso das algas volvocine, as células somáticas beneficiam o grupo tanto pelo reforço a motilidade como pelo aumento de capacidade de mistura do meio circundante, o que permite o transporte mais eficiente de nutrientes e resíduos do que aquele que seria possível por simples difusão [1].

Mas como chegamos a esta situação? Ou seja, como um gene altruísta como regA originou-se?

A resposta está em outro organismo, parente de V. cartieri, a alga unicelular, Chlamydomonas reinhardtii. O ciclo de vida desta alga, plausivelmente, deve ser ser semelhante ao do ancestral comum que ela alga compartilha com V. cartieri. Este ciclo envolve uma fase vegetativa flagelada e móvel. Nesta fase a célula pode crescer em tamanho. Ela é seguida por uma fase na qual o flagelo é absorvido, logo depois acontecendo a divisão celular, que produz duas células filhas. Em C. reinhardtii o gene equivalente a regA pertence a uma família multigênica que compartilha um domínio SAND. Este domínio permite a ligação da proteína codificada pelo gene ao DNA, indicando que este gene, portanto, está envolvido na regulação da transcrição gênica. A ideia portanto é que os genes que controlam características importantes do ciclo vital em C. Reinhardtii (como os diferentes estágios, alocando esforços diferencialmente para reprodução e sobrevivência, dependendo das condições ambientais) possam tornar-se altruístas no contexto de um grupo de células, bastando para isso que eles fossem constitutivamente ligados em algumas células (ou seja, se eles não fossem ativos somente em certas ocasiões) e se as funções vegetativas que eles controlam também beneficiassem o grupo como um todo. E foi exatamente isso que Nedelcu e Michod [citados em 1 e 7] mostram.

O altruísmo reprodutivo na alga multicelular V. carteri evoluiu através da cooptação de um gene de controle do ciclo de vida. A expressão desse gene originalmente, como em C. Reinhardti, no ancestral unicelular de ambas as algas, estava condicionada a pistas ambientais que favoreciam uma estratégia adaptativa que aumentava as chances de sobrevivência imediatas, a um custo temporário da reprodução. Porém, ao mudar seu padrão de expressão temporal (originalmente induzido ambientalmente) para um padrão constitutivo, em um dado contexto espacial, este gene teria passado a codificar um fenótipo altruísta [1, 2].

No gráfico à esquerda [retirado de 1], podemos ver os compromissos (trade offs) entre a viabilidade (v) representada no eixo y e a reprodução (b), no eixo x. Em A podemos perceber que curva muda de côncava para uma curva convexa conforme aumenta o tamanho do grupo.

No esquema abaixo [retirado de 1] podemos ver a mudança no padrão de expressão de um gene de controle do ciclo de temporal para espacial. A expressão do gene é indicada pelas setas espessas, enquanto o efeito sobre a aptidão quando o gene está ligado é mostrado em verde e, o efeito sobre a aptidão quando o gene está desligado, em vermelho. (A) Em um indivíduo unicelular, o gene é expresso em resposta a uma pista ambiental em um contexto temporal, tendo o efeito de aumentar sua sobrevivência, enquanto diminui o investimento em reprodução. (B) O mesmo gene é expresso num contexto espacial dentro de um indivíduo multicelular em resposta a um sinal do desenvolvimento, fazendo que várias células de algumas regiões assumam o fenótipo altruísta. As células em que o gene é expresso aumentam o investimento na sobrevivência e diminuem o esforço na reprodução [1].

Como podemos perceber, mesmo não tendo ainda uma compreensão mais aprofundada sobre a evolução da multicelularidade e das grandes transições, temos progredido bastante no entendimento desta questão e muitas linhas de investigação empíricas e teóricas têm nos ajudado a avançar nesta assunto.

———————————————–

*Direto do tumblr “Pergunte ao Evolucionismo

**Embora nada impeça que este processo seja modelado pelas ferramentas analíticas da seleção de parentesco e da aptidão inclusiva. Veja a discussão de Samir Okasha sobre o assunto, especialmente seu tratamento do modelo de Michod [8].

——————————-

Literatura Recomendada:

  1. Michod, R.E. 2007. Evolution of individuality during the transition from unicellular to multicellular life. PNAS, USA. 104: 8613-8618. (PDF)

  2. Michod, R. E. and Roze, D. 1999. Cooperation and conflict in the evolution of individuality. III. Transitions in the unit of fitness. Pages 47-91 in Mathematical and Computational Biology: Computational Morphogenesis, Hierarchical Complexity, and Digital Evolution, edited by C.L. Nehaniv. Lectures on Mathematics in the Life Sciences, vol. 26. American Mathematical Society. (PDF)

  3. Miller, S. M. Volvox, Chlamydomonas, and the Evolution of Multicellularity. Nature Education 3(9):65, 2010.

  4. Niklas KJ, Newman SA. The origins of multicellular organisms. Evol Dev. Jan;15(1):41-52, 2-013. doi: 10.1111/ede.12013.

  5. Niklas, Karl J.. The evolutionary-developmental origins of multicellularity. American Journal of Botany 101(1):6-25, 2014. doi:10.3732/ajb.1300314

  6. Rokas A. The molecular origins of multicellular transitions. Curr Opin Genet Dev. Dec;18(6):472-8, 2008. doi: 10.1016/j.gde.2008.09.004.

  7. Michod RE, Nedelcu AM. On the reorganization of fitness during evolutionary transitions in individuality. Integr Comp Biol. 2003 Feb;43(1):64-73. doi:10.1093/icb/43.1.64.

  8. Okasha, S. ‘Multilevel Selection and the Major Transitions in Evolution’, Philosophy of Science 72, 1013-1028, 2005.

  9. King N. The unicellular ancestry of animal development. Dev Cell. Sep;7(3):313-25,  2004. DOI:http://dx.doi.org/10.1016/j.devcel.2004.08.010

O preço da inteligência?

Novas análises genéticas sugerem que seis genes associados a conectividade cerebral teriam evoluído  via seleção natural há algumas dezenas (ou há algumas poucas centenas) de milhares de anos. Como estes genes estão relacionados a função cerebral, os pesquisadores responsáveis pelo trabalho propuseram que estes eventos de seleção podem ter contribuído para o aumento da inteligência em nossa espécie, principalmente porque os eventos de seleção datam do período aproximado quando os seres humanos anatomicamente modernos originaram-se e até um pouco antes, antes da separação dos nossos ancestrais dos Neandertais [1]. Contudo, talvez a descoberta mais surpreendente seja o fato destes genes estarem também associados ao mal de Alzheimer. Os autores do estudo (que ainda não foi publicado em um periódico científico, tendo sido disponibilizado em um arquivo on-line chamado de BioRxiv que é mantido pelo laboratório Cold Spring Harbor) especulam que a doença poderia ser uma consequência das dificuldades do cérebro humano envelhecido em lidar com as maiores demandas metabólicas ligadas a melhor performance cognitiva na infância, juventude e vida adulta dos seres humanos, produzidas por estas novas variantes gênicas que teriam sido positivamente selecionadas neste período [1, 2].

Mesmo os melhores e mais poderosos métodos de análise de dados genômicos em escala são limitados pelos caprichos da história das populações, como explica Nala Rogers, em um comentário sobre o novo trabalho [2]. Como os Asiáticos e Europeus descendem de um pequeno número de pessoas que deixaram a África cerca de 60 mil anos atrás, passando por um gargalo populacional, muitos dos padrões de variação genética anteriores devem ter sido simplesmente apagados nestas populações e é aí que os genomas dos povos Africanos entram na história [2]. Os genomas dos indivíduos dessas populações permitem que os cientistas ‘recuemmuito mais no tempo. Eles fornecem informações fundamentais sobre as mudanças evolutivas pelas quais nossa espécie tem passado [2].

Com este intuito, os pesquisadores examinaram os genomas de 90 pessoas de ascendência Africana (Iorubás de Ibadan, Nigeria, YRI), Asiática (Han de Beijing, China, CHB) ou Europeia (residentes de Utah, EUA, CEU) [veja aqui], procurando padrões de variação que teriam ocorrido em virtude de mudanças no tamanho da população e da ação da seleção natural [2].

Porém, este estudo também é importante pelo método que emprega, desenvolvido pelos autores da pesquisa [1]. A nova abordagem baseada na teoria do coalescente consegue identificar e diferenciar regiões genômicas que teriam evoluído de maneira neutra ou sob influência da seleção natural positiva, balanceadora ou negativa, além de ser capaz de estimar os períodos de tempo em que os eventos de seleção teriam ocorrido [1, 2]. O método amplia o rastreamento destes eventos até 500.000 anos, portanto, chegando ao surgimento dos seres humanos anatomicamente modernos. Algo bastante impressionante tendo em vista que os outros métodos disponíveis até o momento nos permitem recuar, no máximo, até apenas 30 mil anos atrás [2].

O método proposto por Hang Zhou e seus colaboradores estima os tamanhos das populações ancestrais e utiliza essas estimativas para diferenciar se certos tipos de modificação na variabilidade das sequências dos genes estão associadas a simples expansão das populacionais, que ocorre após reduções drásticas nas populações (efeito gargalo de garrafa), ou se teriam sido produzidos como efeito da seleção natural favorecendo os indivíduos com essas variantes [1, 2]. Para controlar os efeitos dessas variações populacionais (e assim isolar as assinaturas da seleção natural) os pesquisadores estimaram como  os tamanhos populacionais mudaram ao longo do tempo e, em seguida, identificaram porções do genoma que não correspondiam a história demográfica de cada população, revelando, desta maneira, as sequências de DNA que foram provavelmente amplificadas por meio da seleção natural [2]. Estas estimativas foram ainda apoiadas por análises das sequências do genoma de três seres humanos anatomicamente modernos antigos* e dos neandertais [1, 2]. Embora o método ainda precise ser melhor investigado e testado, ele é promissor já que amplia nossa capacidade de identificar as regiões genômicas que podem ter sido alvo da seleção natural [2]. Assim, a partir da concordância geral entre as estimativas de tempo de seleção e as evidências das amostras de DNA antigas (aDNA), os pesquisadores foram capazes de montar uma linha de tempo geral global da evolução adaptativa no genoma humano, calcada nos sinais de seleção natural positiva (PS), nos três genomas de seres humanos modernos ancestrais (AMH) e no genoma de consenso dos neandertais [1].

Logo acima podem ser observados os sinais de seleção positiva (PS) em seres humanos. Cada um dos pontos representa um sinal candidato a PS. Os genes que podem ser incluídos em categorias funcionalmente relevantes para a evolução humana estão marcados com cores e formas distintas. Em (A) são mostrados os eventos da PS. Estes efeitos são marcados ao longo de uma escala de tempo mais ampla, para todas as três populações. Uma história aproximada simplificada das populações foi construída tendo como base as trajetórias demográficas estimadas e as evidências conhecidas. Elas foram plotadas como um gráfico com fundo azul claro. As barras de erro ilustram os desvios-padrão das estimativas de tempo de acordo com simulações para 0, 5.; 2; 4; 8 e 16 kilogerações (Kga). Os sinais antigos (≥ 1.900 gerações) em YRI foram classificados como ‘Nean-like’, ‘aEA-like’ e ‘aYRI-rest’, comparando com a aEA. As regiões Parn, AUTS2, SORL1 e SNCA mostram um padrão de expressão específico em seres humanos em regiões do cérebro. As imagens do esqueleto dos quatro indivíduos antigos/arcaicos foram adotadas a partir dos artigos citados na bibliografia do artigo do BioRxiv e foram posicionados nas coordenadas espaço-temporais que acreditamos em que os seres humanos dos quais eles faziam parte teriam vivido. H: Humano; C: Chimpanzé; R: macaco rhesus; PFC: córtex pré-frontal; CBC: córtex cerebelo. (B) Os sinais em CEU foram ilustrados em escala de tempo mais precisa para 4 grupos: aFM-like, aHG-like, aFM-aHG comuns e ‘CEU-rest’ [1].

Mas vamos dar uma olhada um pouco mais minuciosa neste novo estudo. Os pesquisadores primeiramente identificaram 117 regiões entre os indivíduos de ascendência Europeia, 230 entre os Asiáticos e 485 entre os Africanos que mostravam sinais de terem evoluído sob a seleção positiva, totalizando cerca de 1,13% a 2,94% do genoma. Entre as regiões que mostravam sinais de seleção (através da análise de enriquecimento funcional) destacaram-se aquelas que continham genes expressos no cérebro e no esperma. Nos genomas dos indivíduos de ancestralidade Europeia e Africana genes expressos na glândula pituitária também mostraram-se particularmente enriquecidos. Também foi observada uma maior proporção de genes expressos no apêndice nos genomas dos indivíduos Asiáticos e Africanos. Além disso, os resultados revelaram outras categorias interessantes, incluindo genes associados ao metabolismo do álcool em Asiáticos e genes expressos nas raízes do cabelo, nas amostras de indivíduos de origem Europeia [1].

De acordo com os pesquisadores, os sinais de seleção concentram-se fortemente entre 0,5-1,8 Kga (ou seja, entre 12500-45000 anos) nas populações de origem Europeia e Asiática, correspondendo a um período de migração, fundação populacional e de origem da agricultura. Nestes mesmos genomas foi constada a ausência de sinais com mais 50.000 anos (2 Kga). Segundo os autores, isso pode ser atribuído às drásticas reduções (gargalos) populacionais que podem ter apagado as informações mais antigas de coalescência. Não surpreendentemente, os sinais nos genomas dos indivíduos de origem Africana espalham-se por um intervalo de tempo muito maior, de 250 ga-27 Kga – ou seja, entre 6 mil anos e700 mil anos atrás. Isso acontece possivelmente devido a gargalos populacionais muito menos drásticos ocorridos durante a história das populações africanas [1]. Porém, os resultados que chamaram mais a atenção da mídia envolvem a identificação de genes que são expressos no cérebro humano. Entre estes genes destacam alguns em particular: SPON1, MAPT, SORL1, ELAVL4, SNCA e SHC3.

O gene SPON1 codifica uma proteína da matriz extracelular multidomínio que desempenha um papel importante no encontro dos caminhos dos axônios e no desenvolvimento cortical inicial. Esta proteína liga-se à proteína precursora da amiloide (APP) e inibe a sua clivagem pela β-secretase, o que desempenha um papel central na patogênese da doença de Alzheimer (DA). Nesta doença a clivagem não controlada da APP resulta na acumulação do Aβ-peptídio neurotóxico. A MAPT codifica a proteína tau que monta e estabiliza o arcabouço de microtúbulos dos neurônios. A agregação não específica da proteína tau é a marca de Doença de Alzheimer. A SORL1 codificante uma proteína receptora endocítica neuronal que regula a reciclagem da APP da superfície dos neurônios. A ELAVL4 codifica a HuD, uma proteína de ligação (neurônio-específica) ao RNA que, por sua vez, regula a ativação espaço-temporal dos mRNAs neuronais, afetando o desenvolvimento e a plasticidade neuronal. Esta proteína tem um impacto na aprendizagem e na formação de memória. O SNCA codifica a proteína α-sinucleína que tem um papel importante na libertação de neurotransmissores e portanto na comunicação entre neurônios, além de estar associada também ao mal de Alzheimer. E, finalmente, o gene SHC3. Este gene é quase exclusivamente expresso no cérebro, sendo altamente expresso no córtex cerebral e nos lobos frontal e temporal. Este gene regula a sobrevivência neuronal, além de proteger o SNC contra estressores ambientais [1]. Toda essas proteínas codificadas por estes genes interagem intimamente umas com as outras em uma sub-rede associada ao mal de Alzheimer, que podemos ver na figura a seguir [1]. 

Acima podemos ver uma sub-rede de interação proteína-proteína cujos genes que as codificam estão relacionadas a atividade do cérebro. Os genes marcados em vermelho são os genes candidatos a terem evoluído sob seleção positiva no passado [1].

Enquanto o trabalho é devidamente revisado e publicado e o método melhor testado, só nos resta especular. Caso estas descobertas se confirmem e as análises mostrem sólidas, estes resultados podem significar que o preço pago pela evolução de nossa inteligência pode ter sido a suscetibilidade a uma doença tão devastadora como o mal de Alzheimer. Em uma perspectiva evolutiva, isso faz bastante sentido. Como este tipo de doença neurodegenerativa afeta basicamente as pessoas mais velhas (bem depois do seu auge reprodutível), seus efeitos nefastos acabam ficando ‘escondidos’ da seleção natural, permitindo que esta doença seja tão comum em nossa espécie.

——————————————-

*Foram utilizados os genomas de três seres humanos antigos que haviam sido analisados em estudos anteriores, um deles de cerca de 45000 anos de um homem encontrado no oeste da sibéria, representando um Eurasiano (aEA), outro de cerca de 7000 anos, de um fazendeiro Europeu (aFM); e um terceiro, com aproximadamente 8000 anos, de um caçador-coletor Europeu (aHG) [1].

_______________________

Referências:

  1. Zhou, H., Hu, S., Matveev, R., Yu, Q., Li, J., Khaitovich, P., Jin, L., Lachmann, M., Stoneking, M., Fu, Q., & Tang, K. (2015). A chronological atlas of natural selection in the human genome during the past half-million years. bioRxiv, (pp. 018929+). http://dx.doi.org/10.1101/018929

  2. Rogers, Nala Alzheimer’s origins tied to rise of human intelligence Nature, 21 May, 2015 doi:10.1038/nature.2015.17589

Crédito das Figuras:

ANDRZEJ WOJCICKI/SCIENCE PHOTO LIBRARY

ALFRED PASIEKA/SCIENCE PHOTO LIBRARY

Quando a galinha torce o hallux!

Quando pensamos na evolução das inovações das morfologias dos organismos multicelulares, como plantas, animais e fungos, muitos de nós talvez tenhamos a tendência de nos concentrar apenas nas mutações, ou seja, em alterações do DNA que modificam as sequências codificadoras de genes específicos ou as sequências regulatórias que controlam o seu padrão de expressão. Porém, como já comentei em outras oportunidades, essa é apenas uma parte da história [É a evolução genética previsível? Parte I‘, É a evolução genética previsível? Parte II ou Além da genética parte I, De determinantes ‘genéricos’ aos ‘genéticos’: A importância da física nos primódios da evolução animal.‘, ‘Viva Turing de novo, mais pistas sobre a evolução dos membros em vertebrados]. A mera mudança de um ou mesmo de vários genes (ou do seus padrões expressão) não explica completamente como as inovações morfológicas surgem. Para entender realmente como isso acontece precisamos compreender como essas mudanças afetam o desenvolvimento dos organismos, especialmente seu desenvolvimento embrionário.

Por exemplo, as mutações podem simplesmente modificar a forma como as células comunicam-se umas com as outras, o que pode acontecer por intermédio de alterações dos sinais químicos que as células trocam entre si. Alguns desses sinais químicos, como as secreções hormonais, agem a longas distâncias de onde são produzidos, outros, como as secreções parácrinas, atuam nas células vizinhas e outras, como as autócrinas, atuam nas próprias células secretoras. Esses tipos de interação podem por sua vez produzir gradientes químicos e criar ‘loops’ ou alças de retroalimentação positiva ou negativa que, basicamente, são formas de, respectivamente, amplificar ou autolimitar esses sinais e, desta maneira, controlar os processos desencadeados por eles.  Em outras situações, mutações mudam o jeito como as células ‘interpretam’ esses sinais ao alterarem proteínas receptores (de membrana, nucleares ou citoplasmáticas) ou as proteínas que participam das cascatas de transdução de sinal. Essas mutações, portanto, alteram como as redes de interações entre as proteínas, seus produtos diretos e os genes funcionam, podendo promover mudanças metabólicas, no estado de ativação das proteínas e nos padrões de transcrição dos genes. Por fim, outros tipos de mutações podem alterar as propriedades e o arranjo do citoesqueleto ou das proteína que funcionam como junções entre as células imediatamente mais próximas e entre as células e a matriz extra-celular, onde elas estão inseridas. Essas últimas alterações podem produzir mudanças no balanço das forças mecânicas e induzir deslocamentos, adelgaçamentos, dobras e outras modificações nas formas dos tecidos.

No que refere-se a evolução morfológica, o que as mutações faze, portanto, é mudar a forma como as células, tecidos e o embrião, como um todo, comportam-se. Isso pode ser o resultado de alterações nas taxas de proliferação (ou de morte celular programada), na direção e velocidade de movimento e no tipo e intensidade das forças de adesão entre elas. Então, são essas mudanças ao nível celular e tecidual que, ao alterarem a dinâmica e a intensidade das forças físicas e das interações químicas entre as células (e os tecidos e a matriz extracelular) é que acabam dando origem a novas morfologias, que emergem ao longo da evolução. Uma vez que nos damos conta de todas essas complexas cadeias causais de eventos e dessas relações espaciais e temporais, percebemos que o papel dos genes pode ser bastante indireto e por isso facilmente nos escapar. É exatamente isso que mostra um trabalho do pesquisador brasileiro João Francisco Botelho, da Universidade do Chile, realizado em colaboração com outros cientistas, que foi publicado na revista Science Reports [1]. O artigo mostra como uma característica morfológica muito importante das aves – que inclusive as diferenciam dos seus parentes dinossauros terópodes já extintos – depende, para que seja produzida durante o desenvolvimento, da atividade da musculatura embrionária e sugere como essa peculiaridade pode ter resultado em sua evolução [1, 2].

As aves atualmente existentes possuem um dedo opositor (dedo 1 ou D1), o hálux, em suas patas. Esta estrutura é considerada uma importante inovação evolutiva em comparação ao que podemos observar nos fósseis de formas ancestrais, ou seja, nos dinossauros terópodes não-avianos. A configuração deste dedo permite às aves agarrarem e empoleirarem-se com suas patas. Em contrastaste, nos dinossauros terópodes não-avianos o dedo equivalente em suas patas posteriores é bem menor e não oponível. Na verdade, este dedo, nos dinossauros, nem ao menos toca o chão, parecendo mais os dedos extras (ou ‘dewclaws‘) presentes nos cães e gatos [veja a figura ao lado e abaixo] [2]. Porém, o desenvolvimento embrionário das aves nos fornece algumas pistas da história evolutiva desta estrutura.

Como explicam Botelho e colaboradores [1], as patas traseiras dos primeiros dinossauros, como o Herrerassauro, exibiam uma configuração diferente, com quatro dígitos funcionais; todos eles articulam-se com o tornozelo (tarso), como mostra a figura abaixo (1a) retirada do artigo da Science Reports. Porém, já a partir de dinossauros tetanuranos (um subgrupo dos dinossauros terópodes) primitivos, como os Alossauro, e até em seus descendentes modernos, as aves, o hallux não articula-se com o tarso, mas com o seu metatarso (Mt1), que sofreu um afilamento proximal na forma de lágrima que cria uma articulação sinovial que não é rígida com metatarso 2 (Mt2), como mostrado em 1b. Porém, diferentemente do que vemos nas aves modernas, nos primeiros tetanuranos, o primeiro dedo (D1) não é um digito opositor (fig. 1b, c). As aves, entretanto, logo no começo de sua evolução, evoluíram um configuração diferente do hálux, que nelas passou a opor-se aos outros dedos, como vemos em 1d. Porém, talvez o mais interessante é que ao observamos o desenvolvimento embrionário das aves, conseguimos vislumbrar parcialmente esta transição [1].

Nos embriões das aves, o D1 começa seu desenvolvimento de maneira bem similar ao padrão encontrado nos fósseis dos dinossauros terópodes [2]. Mas logo em seguida, a sua base, o metatarso, sofre uma torção e é isso que faz com que ele assuma sua configuração opositora. Botelho já havia observado que essa torção ocorria logo após a musculatura embrionária do D1 estabelecer-se em seu local [2]. Além disso, os pesquisadores também sabiam que o início do movimento do dedo do pé coincidia com a torção da sua base [2].

Os pesquisadores mostraram também que os genes responsáveis pela maturação do tecido cartilaginoso eram expressos em um estágio muito mais tardio do que ocorria nos outros dedos [1, 2]. Isso significa que ele mantém muitas células-tronco que dividem-se rapidamente e continuam fazendo isso por um período muito mais longo do que ocorre nos outros dedos [2]. Como este tecido cartilaginoso imaturo é muito plástico, ele pode facilmente ser deformado ou transformado pela atividade muscular. Para confirmar isso, Botelho e seus colaboradores decidiram bloquear a atividade muscular logo antes que a torção do dedo começasse no embrião. Ao utilizar nesses embriões em desenvolvimento o agente farmacológico brometo de decametónio, que tem um efeito paralisante sobre a musculatura embrionária, Botelho conseguiu produzir dedos não oponíveis, com uma base linear, não era torcida, portanto, idêntica ao observado nos dinossauros terópodes, ou seja, que, como eles colocam, fenocopiava a morfologia dos dinossauros terópodes tetanuranos mais antigos. [1]

Porém, esse não é só mais um experimento que consegue reconstituir morfologias ancestrais. Como explica o biólogo Gunher Wagner, pesquisador de biologia evolutiva do desenvolvimento e genética evolutiva da Universidade de Yale, no EUA:

Este é um dos exemplos mais claros do quão indiretamente as consequências morfológicas da alteração genética são mediadas[2]

Este estudo investiga uma “verdadeira mecânica do desenvolvimento[2], como descreve Wagner e acrescenta:

Os experimentos provam que interações ao nível dos sistemas de órgãos canalizam os rumos da evolução dos organismos.[2]

Os resultados das pesquisa de Botelho e seus colaboradores mostram que a diferenciação do hálux nas aves modernas segue um padrão único em que a diferenciação progride da região proximal para a distal. Lembre-se também que os marcadores moleculares, usados para identificar a maturação cartilagem e ossificação, mostram que a diferenciação deste dedo (Mt1) é significativamente atrasada em comparação ao que acontece com os demais dedos (Mt2-4) [1]. Estas constatações levaram os pesquisadores a sugerir que seria exatamente essa maturação tardia, ao manter o tecido plastico por mais tempo, que teria facilitando a torção proveniente da atividade muscular subsequente. Como explicam os autores do trabalho:

“Em formas intermédias entre arqueópterix e as aves modernas, a extremidade proximal do Mt1 não é torcida, mas a extremidade distal é notavelmente deslocada. O novo contexto de dados desenvolvimentais sugere que a atividade muscular nestes primeiros Pygostylia poderia ter encontrado uma extremidade proximal já diferenciada, mas ainda imatura, uma epífise distal mais plástica, levando à característica forma em J do seu Mt1 (fig. 7). A hipótese de que sucessivos atrasos na maturação permitiu a torção progressiva do Mt1 é consistente com o fato de que as aves se tornaram cada vez mais pedomórficas em comparação aos seus ancestrais dinossauros e que os embriões de Maniraptores tronco fósseis – incluindo Enantiornithes – diferiam das aves atuais pelo fato de que eclodirem com metatarsos, metacarpos e falanges quase totalmente ossificadas, 39, 40, 41, 42, 43. Em um cenário alternativo, a motilidade embrionárias pode iniciar mais cedo ou tornar-se mais intensa nas aves modernas do que em seus antepassados, ​antecipando e/ou ampliando a influência dos músculos no desenvolvimento da Mt1. Interessantemente, demonstrou-se que o metabolismo e a taxa de crescimento dos ossos são correlacionados, e que o metabolismo elevado nas Aves depende do aumento de massa muscular para gerar calor, tornando possível que tanto o aumento da atividade muscular e as alterações no desenvolvimento do esqueleto sejam fisiológica e evolutivamente relacionadas uma com a outra através do aumento do metabolismo aviário. O papel da musculatura embrionária também fornece uma explicação para aquisição secundária de Mt1 reto, não torcido, em pinguins e petréis: Estes são grupos derivados entre as aves modernas nos quais os músculos FHL e EHL estão ausentes (SI, S2 fig.).” [1]

Na figura acima vemos as patas de Qiliania, uma ave primitiva de cauda curta, que exibia padrões intermediários de configuração do Mt1. Nela o Mt1 tem uma extremidade proximal não torcida, mas já  possui um desvio (“dobra”) na extremidade distal, como indicado pela seta. Como o Mt1 das aves modernas amadurece no sentido proximal para o distal, ou seja, da base para a extremidade, os pesquisadores fizeram três sugestões [1]:

  1. Nas aves não-Pygostylianas, o Mt1 teria amadurecido antes do início da atividade muscular;
  2. Nas aves Pygostylia a maturação teria sido adiada, permitindo a flexão distal do Mt1 provocada pela atividade muscular embrionária;
  3. Em Ornithuromorpha teria havido um atraso ainda maior na maturação do Mt1, o que teria permitido a torção completa do seu eixo longo pela atividade muscular embrionária.

Desta maneira, as mutações originais talvez não tivessem provocado diretamente nenhum tipo de alteração morfológica mais conspícua, apenas teriam deixado o tecido mais plástico, mais ‘maleável’, e principalmente, isso teria ocorrido por um tempo maior, de modo a expô-lo a atividade muscular que só inicia-se posteriormente. Isto é, a mera modificação no ‘timing‘ do enrijecimento do tecido teria propiciado um novo tipo de interação ao expô-lo a um microambiente epigenético diferente, onde forças distintas atuariam; e, dado sua maior maleabilidade, levaria a emergência da nova configuração, pelo menos, nas fases iniciais do processo de evolução.

Este belo e elegante estudo mostra a importância de conhecermos bem os mecanismos e processos pelos quais os seres vivos se constroem. Devemos investigar com maior profundidade não só o que acontece com os genes, sequência regulatórias e seus produtos mais diretos, como RNAs e proteínas, mas precisamos também explorar como esses eventos afetam (e são afetados por) os processos celulares, teciduais e embriológicos, mesmo ao nível de sistemas de órgãos já mais diferenciados, que estão por trás da origem da forma biológica. Isto significa que precisamos compreender muito melhor os mecanismos físicos, químicos e geométricos de ‘formação de padrão’ dos seres vivos, especialmente dos multicelulares complexos, e integrar esses conhecimentos a enorme gama de informação que dispomos atualmente e que são oriundas da genética e da biologia molecular e dos seus desdobramentos, como a bioinformática, genômica, proteômica etc.

———————————

Referências:

  1. Francisco Botelho, J., Smith-Paredes, Daniel, Soto-Acuña, Sergio, Mpodozis, Jorge, Palma, Verónica & Vargas, Alexander O. Skeletal plasticity in response to embryonic muscular activity underlies the development and evolution of the perching digit of birds. Sci. Rep. 5, 9840; 2015 doi: 10.1038/srep09840

  2. Universidad de Chile. “From chicken to dinosaur: Scientists experimentally ‘reverse evolution’ of perching toe. Alphagalileo.org, 22 May 2015.

Créditos das Figuras:

Uma ave empoleirada em um galho: TONY CAMACHO/SCIENCE PHOTO LIBRARY

O dedo de empoleira-se das galinhas: Fonte.

Dewclaw: Fonte

Demais figuras: doi: 10.1038/srep09840

Informação, biologia e evolução Parte II

Continuamos a série de posts sobre informação, biologia e evolução iniciada no post Informação, biologia e evolução: Parte I.

A Teoria Molecular da Informação de Shannon:

Apesar do rigor matemático deste campo, muitos dos profissionais que trabalham com a Teoria da Informação* de Shannon, começando pelo próprio Shannon, nem sempre empregam os vários termos da teoria de maneira muito cuidadosa e, por vezes, o fazem de maneira ambígua. Como nosso interesse é compreender as aplicações da teoria de Shannon na biologia molecular e na biologia evolutiva, daqui em diante, seguirei a terminologia de um dos pesquisadores que está entre os principais responsáveis pela aplicação exitosa das ideias de Shannon à biologia molecular e a evolução, Thomas D. Schneider, do NCI/NIH. Também seguirei as definições e explicações de Schneider porque ele parece empregar a terminologia da maneira mais coerente, inclusive preservando as noções intuitivas sobre o que é informação e o que consistiria em um ganho desta mesma quantidade, o que é essencial para que consigamos compreender seu papel na evolução dos sistemas biológicos, pelo menos, ao nível molecular. Com este intuito farei uso extenso das explicações e exemplos contidos no tutorial [1] criado por Schneider e disponível em sua página, adicionando algumas informações e explicações retiradas de outras fontes, além de fazer alguns comentários, quando julgá-los pertinentes.

Informação e Incerteza:

Talvez a maior causa de confusão seja a equiparação dos termos ‘informação’, ‘incerteza’ e ‘entropia’ (informacional) que está presente em muitas das apresentações (inclusive técnicas) da teoria da informação e suas aplicações. A própria literatura da área, como explica Schneider, nos fornece vários exemplos disso. De acordo com o pesquisador, a principal razão para esta equiparação foi dada por Tribus (citado por Schneider) ao relatar a história clássica de que Shannon, ao não saber como chamar a sua medida (H(x)), aceitou a sugestão do famoso matemático austro-húngaro John von Neumann:

‘Você deveria chamá-lo de entropia … [pois] … ninguém sabe o que realmente é a entropia, assim, em um debate, você sempre terá a vantagem’ (Tribus, 1971 citado por Schneider) [1].

Shannon também referia-se a sua medida não só como ‘entropia, mas também como incerteza‘, que, aliás, é a forma preferida por Schneider e que também adotarei neste post, principalmente, porque não se tem a incerteza unidades físicas a ela associada, como é o caso da entropia (devido a termodinâmica). Schneider é bem enfático ao apontar os perigos de equipararmos informação à incerteza. Caso não prestemos atenção para a diferença entre entropia/incerteza, de um lado, e informação, de outro, podemos acabar chegando a conclusão que a informação é equivalente a aleatoriedade em sistemas físicos, tornando as coisas ainda mais confusas do que elas já são. Embora obviamente haja relação entre informação e incerteza, já que ambas podem ser usadas para descrever qualquer processo em que há a seleção de um ou mais estados ou objetos de um conjunto maior de objetos [1], devemos ter em mente que, ainda assim, existem diferenças fundamentais entre ambas. Mais adiante comentarei mais sobre isso, mas já fica aqui o alerta.

Mas afinal o que é informação?

A explicação de Schneider começa com ele pedindo ao leitor que suponha que exista um dispositivo que produza três símbolos diferentes, A, B ou C. Até que a máquina produza o próximo símbolo, não temos certeza de qual ele será, mas assim que o símbolo é produzido e nós o vemos, a nossa incerteza é diminuída e com isso podemos sinalizar que recebemos alguma informação. Este ponto é muito importante e deixa clara qual a relação entre informação e incerteza. Portanto, sem muita enrolação:

“A informação é a diminuição da incerteza.”

Para quantificarmos a informação, então, precisamos medir a incerteza. A maneira mais simples de fazer isso é simplesmente dizermos que temos um grau de incerteza de “3 de símbolos“, já que são três símbolos possíveis e não sabemos quais deles serão produzidos. Porém, isso começa a ficar mais complicado ao imaginarmos que exista um segundo dispositivo. Esse dispositivo porém produz os símbolos 1 e 2. Caso usássemos a mesma estratégia anterior diríamos que o segundo dispositivo tem um grau de incerteza de “2 símbolos“. O problema de verdade surge ao combinarmos os dois dispositivos. Como existem seis possibilidades (A1, A2, B1, B2, C1, C2) caso usarmos a mesma estratégia teríamos que dizer que os dispositivos têm um grau de incerteza de “6 de símbolos“. Acontece que essa não é a maneira como geralmente pensamos sobre informação e muito menos sobre como como acreditamos que ela deveria ser quantificada [1]. Como afirma Schneider:

Por exemplo, se recebemos dois livros, nós preferíamos dizer que recebemos duas vezes a informação de um único livro.” [1]

Ou seja uma medida aditiva seria muito mais preferível. Felizmente, podemos obter este tipo de propriedade ao usarmos o logaritmo do número de símbolos possíveis. Este pequeno truque nos permite somar os logaritmos, ao invés da opção anterior que envolvia multiplicar o número de símbolos. Voltando ao exemplo de Schneider, o primeiro dispositivo nos deixaria em um estado de incerteza equivalente ao log(3), o segundo ao log(2) e os dois dispositivo combinados: log(3) + log(2) = log(6). Assim:

A base do logaritmo determina as unidades. Quando usamos a base 2 as unidades estão em bits (base 10 nos dá ‘digits’, a dos logaritmos naturais, nos dá ‘nats’ [14] ou nits [15]). Assim, se um dispositivo produz um símbolo, temos a certeza de log2(1) = 0 bits, assim não temos incerteza sobre o que o dispositivo irá fazer em seguida. Se ele produz dois símbolos nossa incerteza seria log2(2) = 1 bit. Ao ler um mRNA, caso o ribossomo encontre qualquer uma das quatro bases igualmente prováveis, então a incerteza é de 2 bits.” [1]

Isso nos permite concluir que a fórmula para a incerteza é log2 (M)**. Aqui M refere-se ao número de símbolos. Esta fórmula pode ser também estendida para os casos em que os símbolos não são igualmente prováveis:

Por exemplo, se existem 3 símbolos possíveis, mas um deles nunca aparece, então a nossa incerteza é de 1 bit. Se o terceiro símbolo aparece raramente, em relação aos outros dois símbolos, a nossa incerteza deve ser um pouco maior do que 1 bit, mas não tão elevada como log2 3 bits.” [1]

Podemos reorganizar a fórmula, o que nos deixa com:

de modo que P=1/M é simplesmente a probabilidade de qualquer símbolo aparecer.

É possível também generalizarmos esta equação para levarmos em contra as várias probabilidades dos símbolos Pi, de modo que as probabilidades somem 1 no total, o que equivale a 100% no jargão popular:

Lembrando aqui que o simbolo (SOMATÓRIO) significa que devemos adicionar todas as Pi, para todos i, começando em 1 e indo até M. A surpresa que temos quando observamos o iésimo tipo de símbolo foi chamada, “surpresa” (“surprisal”) por Tribus e é definida por analogia como sendo – log2P para ser

Assim, caso Pi aproxime-se de 0, ou seja, a probabilidade dele aparecer na mensagem seja muio baixa, ficaríamos muito surpresos ao descobrir o iésimo símbolo, uma vez que quase nunca ele deveria aparecer. Neste, caso, pela fórmula, ui aproxima-se do infinito, ∞. Em contraste, caso Pi =1, então, não haveria surpresa alguma ao nos deparamos com o iésimo símbolo, já que este símbolo deveria sempre aparecer, e, portanto, ui = 0. A incerteza, portanto, poder ser vista como a ‘surpresa’ média para uma sequência infinita de símbolos produzidas pelo dispositivo imaginado por Schneider [1].

A partir daí podemos encontrar a média para uma sequência de símbolos com N símbolos de comprimento que tenha um alfabeto formado por M símbolos. Caso suponhamos que o tipo do iésimo símbolo apareça Ni vezes, de modo que, se somarmos através de toda a cadeia e juntarmos os símbolos, isso seria o mesmo que somarmos através de todos os símbolos da cadeia, como podemos ver abaixo.

Desta maneira existirão Ni casos nos quais temos a surpresa ui e a surpresa média dos N símbolos será:


Substituindo N pelo denominador e trazendo-o para dentro do somatório de cima, obteremos:


Então, para uma sequência infinita de símbolos, a frequência Ni/N torna-se Pi, a probabilidade do iésimo símbolo. Fazendo essa substituição podemos notar que a nossa surpresa média (H) é:

Finalmente, substituindo ui, obtemos a famosa fórmula geral de Shannon para a incerteza:

Como vimos bem no começo deste artigo (diferente dos exemplos de Schneider, como ele próprio deixa claro [1]), Shannon chegou a esta fórmula por um caminho muito mais rigoroso**** do que nós, ao postular várias propriedades desejáveis para a medida da incerteza, e só depois disso derivar a função. Ao lado podemos ver como se parece a função H no caso de apenas dois símbolos. Ali fica claro que a curva simétrica atinge seu máximo quando ambos os símbolos são igualmente prováveis, isto é Pi = 0.5) e cai para zero sempre que um dos símbolos torna-se dominante em detrimento do outro. Podemos ver isso com mais clareza ao seguirmos o exercício proposto por Schneider [1].

Comecemos supondo que todos os símbolos são igualmente prováveis. Isso quer dizer que Pi=1/M. Substituindo isso na equação da incerteza obtemos:

Uma vez que M não é uma função de i, podemos retirá-lo do somatório:



Fazendo isso acabamos com a mesma equação com a qual começamos. De acordo com Schneider, pode ser mostrado que para um determinado número de símbolos (ou seja, quando M é fixo) que a incerteza, H, tem seu maior valor somente quando os símbolos são igualmente prováveis. Por exemplo, uma ‘moeda honesta’ é mais difícil de prever os seus resultados (dos seus arremessos) do que uma ‘moeda viciada’ [1].

Mas e a informação do DNA?

Uma vez compreendidos esses conceitos mais fundamentais podemos dar um exemplo mais relevante, usando a biologia molecular, com o polímero biológico mais famoso, o DNA. Essa molécula é formada por cadeias de 4 tipos diferentes de nucleotídeos, portanto, M = 4:

A, C, G e T

Com probabilidades (Pi):

PA=½

PC=¼

PG=

PT=

As surpresas destas dos nucleotídeos equivalem a (-Log2Pi ):

uA=-Log2PA = Log2PA(½)= 1 bit

uC=-Log2PC= Log2PC(¼)= 2 bits

uG=-Log2PG= Log2PG()= 3 bits

uT=-Log2PT= Log2PT()= 3 bits

Neste casos a incerteza, H, é:

Mas o que significa dizer que um sinal tem 1,75 bits por símbolo?

Significa que podemos converter o sinal original em uma sequência de 1’s e 0’s (dígitos binários), de modo que, em média, existam 1,75 dígitos binários para cada símbolo no sinal original. Alguns símbolos terão mais dígitos binários (os mais raros) e outros terão menos (os mais comuns). Podemos recodificá-los para que o número de dígitos binários seja igual a ‘surpresa‘ ( ‘surprisal‘ ) [1]:

Desta forma, a cadeia ACATGAAC, cujas letras aparecem nas mesmas frequências que as probabilidades definidas anteriormente, podem ser codificadas como 10110010001101, onde 14 dígitos binários são utilizados para codificar oito símbolos, o que nos dá a média de 14/8 = 1,75 dígitos binários por símbolo (Schneider, 2006 e 2010) [2, 3]. Este é o chamado de “código de Fano” [1].

Esse tipo de código permite sua decodificação sem a necessidade de espaços entre os símbolos, mas, normalmente, é preciso saber o quadro de leitura, que neste exemplo pode ser facilmente descoberto. Isso acontece porque nesta forma de codificação em particular o primeiro dígito binário distingue entre o conjunto que contém A, (simbolizado por {A}) e o conjunto (C, G, T), que são, no conjunto, igualmente prováveis já que 1/2 = 1/4 + 1/8 + 1/8. O segundo dígito, usado caso o primeiro dígito seja 0, distingue C de G e T. O dígito final distingue G de T. Como cada escolha é tão provável como qualquer outra (na nossa definição original das probabilidades dos símbolos), cada dígito binário, neste código, carrega apenas 1 bit de informação [1].

Cuidado! Isso nem sempre será verdade. Um dígito binário fornece um bit apenas se os dois conjuntos representados pelos dígitos forem igualmente prováveis – como o caso aqui, pois o ajustamos deliberadamente o exemplo para que assim o fosse. Porém, nos casos que eles não sejam equiprováveis, cada dígito binário fornece menos de 1 bit, o que é óbvio pois a função H é máxima quando as probabilidades são as mesmas para todos os símbolos. (Schneider, 2006 e 2010) [2, 3].

Porém, como explica Schneider, não há nenhuma maneira de atribuir um código (finito) de modo que cada dígito binário tenha o valor de 1 bit, embora seja possível (ao empregar-se grandes blocos de símbolos) chegar mais perto deste ideal. No exemplo ajustado que acabamos de ver não há maneira de usar menos de 1,75 dígitos binários por símbolo, mas, nada impede que usemos mais e esbanjemos, usando dígitos extras para representar a mensagem. A medida da incerteza, H, portanto, nos diz o que é possível obter em uma situação ideal de codificação, o que automaticamente nos revela o que é impossível, ou seja, enviar a mensagem do exemplo com menos de 1,75 bits por símbolo, codificados utilizando-se apenas um dígito binário por símbolo (Schneider, 2010) [3].

Lembrando-nos que definimos informação como a redução da incerteza, agora, como temos uma fórmula geral para a incerteza, podemos começar a expressar a informação a partir dela.

Comecemos por imaginar que um computador contém alguma informação em sua memória. Então, caso fossemos vasculhar cada estado ligado-desligado*** – i.e. os equivalentes físicos das possibilidade binárias na memória do computador – teríamos uma incerteza de Hantes bits por estado ligado-desligado. Agora, porém, nós limpamos parte da memória do computador, definindo todos os valores como ‘zero’, (‘desligados’), o que faz com que haja uma nova incerteza, menor do que o anterior: Hdepois*****.

Então, a memória do computador perdeu uma média de R= Hantes Hdepois bits de informação por estado ‘ligado-desligado’. Se o computador fosse completamente limpo, então Hdepois= 0 e R = Hantes.

Este ponto é muito importante. Muita confusão terminológica pode ser gerada caso isso não fique claro.

Agora vamos para outro exemplo. Desta vez, devemos pensar em uma antiga máquina de teletipo que recebe caracteres por meio de uma linha telefônica. Caso não houvesse qualquer ruído na linha telefônica e nenhuma outra fonte de erro existisse, o teletipo imprimiria o texto perfeitamente, sem qualquer erro. Porém, como existe ruído sempre haverá alguma incerteza em relação a se o caractere impresso é realmente o caractere que havia sido enviado. Portanto, antes de um caractere ser impresso, o teletipo deve estar preparado para qualquer um dos caracteres possíveis, e este estado tem a incerteza de Hantes . A questão é que mesmo após todos os caracteres tenham sido recebidos ainda há incerteza. É isso que Schneider chama de Hdepois. Esta incerteza é baseada na probabilidade de que o símbolo que foi recebido através da linha não seja igual ao símbolo que foi enviado e, portanto, mede a quantidade de ruído.

Por exemplo, imagine um sistema em que são transmitidos dois símbolos equiprováveis transmitidos a cada segundo a uma taxa de 1 bit por segundo sem erros. Agora, suponha que a probabilidade de que um ‘0’ seja recebido quando um ‘0’ é enviado é de 0,99, enquanto a probabilidade de que seja recebido um ‘1’, quando de fato um ‘0’ foi enviado, é de 0,01. No caso de ter sido enviado um ‘1’, temos os mesmos valores, ou seja, 0,99 de ser recebido um ‘1’ e por conseguinte 0,01 de ser recebido um ‘0’. Neste caso, a incerteza após o recebimento de um símbolo Hdepois= -0,99log20,99 – 0,01log20,01 = 0,081, de modo que a taxa real de transmissão, R = 1- 0,081=0,919 bits por segundo:

Infelizmente muitas pessoas têm cometido erros porque não compreendem esse ponto claramente. Os erros ocorrem porque as pessoas assumem implicitamente que não há ruído na comunicação. Quando não há ruído, R = Hantes, como é o caso da memória de um computador sendo completamente apagada. Isto é, se não há ruído, a quantidade de informação transmitida é igual à incerteza antes da comunicação. Quando há ruído, e alguém assume que não há nenhum, isso leva a todos os tipos de filosofias confusas. Deve-se sempre levar em conta o ruído.” [1]

Nestas últimas décadas pesquisadores como Schneider vêm aplicando esta abordagem à biologia molecular, especialmente a evolução de biomoléculas, como as sequências de DNA e RNA e proteínas. No caso de Schneider, mais especificamente ao que alguns chamam de “máquinas moleculares” e a compreensão do como elas evoluíram nos seres vivos. Além de várias aplicações práticas na própria biologia molecular e biotecnologia, estes estudos servem de inspiração para o campo ainda mais amplo da nanotecnologia [2].

Aqui cabe destacar que a teoria da informação de Shannon aplicada a biologia molecular e a evolução não é uma mera curiosidade e nem uma tentativa desesperada de responder aos criacionistas. Existe um grande histórico da área e medida desenvolvida por Schneider baseada na teoria de Shannon tem mostrado-se tremendamente útil para caracterizar os padrões de sequências de DNA e RNA que definem os sistemas de controle genético [1, 2, 3]. De fato, Schneider mostrou que os sítios de ligação dos ácidos nucleicos (ou seja, aquelas sequências nas quais proteínas específicas ligam-se e modulam a ativação dos genes, alterando seus padrões de transcrição) geralmente contêm a quantidade certa de informação necessária para que os fatores de transcrição liguem-se a elas, encontrando-as no genoma [3]. Desta maneira, eventuais discrepâncias podem ser ainda mais ilustrativas. E exatamente isso que veremos nos próximos posts desta série. No próximo post vou me aprofundar mais um pouco no trabalho de Schneider e apresentar exemplos mais concretos do uso das medidas de R, Rsequência e Rfrequênciae sua relevância à biologia evolutiva. Por fim, apresentarei uma tradução de um vídeo criado pelo usuário cdk007 do youtube sobre a evolução da informação por meio da seleção natural de mutações aleatórias, inspirado em um trabalho de Schneider publicado em 2000 na revista Nuclear Acid Research, usando a teoria da informação molecular de Shannon e seu programa EV [4]. Até lá!

———————————————

* Existem várias medidas de informação, inclusive aplicadas à biologia, como explica Steve Frank em alguns artigos publicados na revista Journal of Evolutionary biology. Além disso, além de existirem precedentes a proposta por Shannon (inclusive nas quais o matemático americano se baseou para construir o seu trabalho a partir dos anos de 1940), existe uma outra versão bem conhecida da teoria da informação, a ‘Teoria Algorítmica da Informação’ (TAI), proposta e desenvolvida por vários autores diferentes, mas cujos principais nomes associados a ela são os dos matemáticos Andrei Kolmogorov e Gregory Chaitin. A TAI é outra abordagem ao problema da definição e quantificação da informação e sobre sua relação com a computação e com a aleatoriedade. Ela tem como base o conceito de ‘complexidade algorítmica’ (ou ‘conteúdo informacional’) de Kolmogorov que mede os recursos  computacionais necessários para especificar uma dado objeto, como uma sequência de sinais, uma string – como em um texto, por exemplo. O conteúdo de informação ou a complexidade algorítmica de um objeto, neste sentido, pode ser medido pelo comprimento da sua descrição mais curta; ou, mais formalmente, como o ‘comprimento do programa mais curto que calcula (ou gera como saída) o objeto em questão, sendo o programa executado em algum computador universal de referência fixo‘ [Hutter, 2008]. 

De acordo com Grunwald e  Vitanyi (2008), tanto a versão da Teoria da Informação “clássica”, de Shannon, como a Teoria Algorítmica da Informação partem da mesma ideia, isto é, que a informação (na verdade a função H) pode ser medida pelo número mínimo de bits necessários para descrever a observação. A diferença, segundo eles, é que, enquanto Shannon considera métodos de descrição dessa grandeza que são ideais em relação a alguma distribuição dada de probabilidade, a Teoria Algorítmica adota uma abordagem não probabilística, considerando qualquer programa de computador que primeiro calcule (imprima) a sequência que representa a observação e depois pare como sendo uma descrição válida. A quantidade de informação na sequência (string) é então definida como o tamanho (medido em bits) do programa mais curto de computador que gera a sequência e depois para. Isso implica que sequências regulares têm complexidade baixa, enquanto sequências aleatórias têm complexidade de Kolmogorov mais ou menos igual ao seu próprio comprimento, ou seja, uma sequência aleatória pode ser mais complexa do que uma sequência cheia de padrões. Isso pode também causar grande confusão, remetendo de novo ao alerta de Schneider sobre o uso mais técnico do termo informação e o perigo da equiparação de informação à incerteza e à entropia.

Segundo Chaitin, a TAI é “o resultado de colocar a teoria da informação de Shannon e teoria da computabilidade de Turing em uma coqueteleira e agitando vigorosamente.” [via wikipedia]. A TAI também sofre abusos por parte dos criacionistas, mas desta vez é o conceito de complexidade (que tem uma definição formal bem rigorosa) que é o alvo. Devo, em outra oportunidade, explorar algumas abordagens à biologia molecular e à evolução que empregam mais esta teoria.

  • Frank, S. A. Natural selection. V. How to read the fundamental equations of evolutionary change in terms of information theory. Journal of Evolutionary Biology 25:2377-2396. doi:10.1111/jeb.12010

  • Frank, S. A. Natural selection maximizes Fisher information. Journal of Evolutionary Biology 22:231-244. doi:10.1111/j.1420-9101.2008.01647.x

  • Grunwald, Peter D.;  Vitanyi, Paul M. B. (2008) Algorithmic information theory ARXIV eprint arXiv:0809.2754 2008arXiv0809.2754G.
  • Hutter, Marcus (2008), Algorithmic complexity Scholarpedia, 3(1):2573. doi:10.4249/scholarpedia.2573

**Também é possível usar outras bases de logaritmo, como fazem outros grupos de pesquisadores, como veremos em outro post desta série, como é o caso dos trabalhos de Christof Adami e Charles Ofria que empregam como base dos logaritmos o número de monômeros das macromoléculas de interesse (20 para os aminoácidos e 4 para os ácidos nucleicos). Porém, por enquanto, usaremos a base 2 o que nos permite quantificar a informação em termos de Bits.

***Schneider adota o termo “flip-flop” que eu preferi chamar de ‘ligado-desligado’ para evitar o uso da palavra “bit” enquanto discute a codificação de Fano já que há dois significados para essa palavra:

1. Um dígito binário, 0 ou 1. Só podendo ser um inteiro. Estes “bits” são as partes individuais dos dados dos computadores.

2. Uma medida de incerteza, H ou R. Esta informação pode ser qualquer número real porque é uma média. É a medida que Shannon utilizado para discutir sistemas de comunicação.

****O objetivo de Shannon era desenvolver uma forma de quantificar a informação associada a uma mensagem de modo que quanto mais improvável fosse a mensagem maior seria a informação ganha pelo receptor. Portanto, dado um conjunto de mensagens X no qual X = {x1,x2, x3,… xk}, uma distribuição de probabilidades do tipo P [X], isto é, P = {P1, P2, P3,… Pk} em que a probabilidade pi = P(xi) para cada mensagem xi. Lembrando que pi deve ser maior ou igual a zero ( pi 0) e a soma total deve ser igual a 1 ( p1 + p2+…+ pk = 1), já que não existem probabilidades menores que 0 e nem maiores que 1 (ou 100%).

Para conseguir alcançar este objetivo, Shannon precisava de uma fórmula bem específica, uma vez que uma medida da incerteza na comunicação de X teria que exibir uma série de características que mais ou menos já vinham sendo investigadas e postuladas por vários outros matemáticos e cientistas; devendo ser uma função com um valor real, (1) H(X), ou seja, H(X) teria que uma distribuição de probabilidade de X, tal que P[X] → R; (2) contínua [H(p1, …, pk)], (3) aditiva [H (p1q1, …, pkqk) = H(P) + H(Q) para as distribuições de probabilidade P e Q]; (4) monotônica [ou seja, deveria aumentar com k para distribuições uniformes: If l > k, então H(Q) > H(P) para qualquer P = (1/k, …, 1/k) e Q = (1/l, …, 1/l); além de ser (5) ‘ramificada’, isto é, H(p1,…, pk) deveria ser independente de como o processo é dividido em partes, e, por fim, (6) deveria ser normalizável em bits, onde o ganho médio de informação para duas mensagens igualmente prováveis seria 1 bit: H(1/2, 1/2) = 1.

De acordo com Shannon existiria uma única função que teria todas estas propriedades e que poderia quantificar a tal ‘entropia informacional’ ou seja, o valor esperado médio de uma distribuição de probabilidade P:

H(X ) = −∑ pi log pi

H(X) é máxima quando p1 = p2 = … = pk = 1/k, isto é quando a distribuição de probabilidade é uniforme e as probabilidades são equiprováveis.

H(X) = 0 apenas quando a probabilidade de xi (pi ) é 1 e todas as outras são 0.

O logaritmo usado é de base 2: logx = y ⇒ x = 2y, o que permite a quantificação em bits.

*****Shannon usou a notação Hy(x), ou seja, a incerteza condicional do receptor y dada a mensagem enviada a partir de x, para o que chamamos de Hdepois, que, por sinal, ele também chamou de “equivocação” [1].

—————————————————————-

Referências:

  1. Schneider, Thomas D. Information Theory Primer With an Appendix on Logarithms version = 2.65 of primer.tex 2012 Mar 14 [PDF]
  2. Schneider TD. A brief review of molecular information theory. Nano Commun Netw. 2010 Sep;1(3):173-180. doi:  10.1016/j.nancom.2010.09.002
  3. Schneider TD. Claude Shannon: biologist. The founder of information theory used biology to formulate the channel capacity. IEEE Eng Med Biol Mag. 2006 Jan-Feb;25(1):30-3.
  4. Schneider TD. Evolution of biological information. Nucleic Acids Res. 2000 Jul 15;28(14):2794-9. doi: 10.1093/nar/28.14.2794

Semelhanças e diferenças entre os genomas e transcriptomas dos animais.

Os seres humanos guardam semelhanças impressionantes com outros animais tão distintos como as moscas de fruta e os vermes nematodes, com os quais compartilhamos um ancestral comum que viveu há mais de 540 milhões de anos. Contudo, além das semelhanças já bem conhecidas entre os números de genes, as sequências dos genes, e das proteínas que eles codificam (e mesmo do padrão de organização espacial de certas famílias multigênicas), novos estudos revelam outras similaridades, desta vez no próprio parão de expressão de muitos destes genes e nas redes regulatórias que eles estão envolvidos, normalmente associados com as regiões do DNA onde ligam-se os fatores de transcrição e elementos que controlam o estado da cromatina [(Ilustração de Darryl Leja, NHGRI, NIH].

As sequências de DNA associadas aos genes precisam ser expressas na forma de RNAs funcionais (como os microRNAs regulatórios), ou, como é mais conhecido, na forma de RNAs mensageiros  (que serão traduzidos na forma de peptídeos e proteínas. Estas biomoléculas, por sua vez, combinam-se para fazer várias estruturas biológicas, agem no metabolismo modulando reações químicas ou interagem entre si e como outras pequenas moléculas não proteicas formando redes de sinalização intra e intercelular que controlam a morfologia das células e dos tecidos que elas formam, modulam a composição da matriz ao seu redor, além de controlarem as taxas de proliferação e morte celular, suas propriedades mecânicas, seu movimento e, assim, seus padrões de migração. Este processo se dá de modo bem organizado, com certos conjuntos de genes formando redes de interação metabólica ou de sinalização, através de seus produtos. Estas redes (ou ‘módulos’) não apenas regulam certas atividades bioquímicas e celulares mais gerais, como controlam também a expressão de seus próprios (e outros conjuntos de) genes. Isso é feito, por exemplo, por meio de expressão de proteínas chamadas de fatores de transcrição que ligam-se às regiões não codificantes do DNA, os elementos cis-regulatórios (como promotores, reforçadores, repressores etc) que, quando associadas aos fatores de transcrição, modulam a transcrição gênica, ligando-a e desligando-a, ou mesmo, aumentando ou diminuindo sua intensidade em diferentes situações e contextos. Estes conjuntos de genes e redes regulatórias são essenciais no processo de desenvolvimento embriológico, estando, por exemplo, por trás da formação dos padrões corporais gerais de cada tipo de organismo [Para saber mais sobre isso veja “É a evolução genética previsível? Parte I” e “É a evolução genética previsível? Parte II ou Além da genética parte I“].

Uma gigantesca análise de dados de expressão genômica liderada por pesquisadores da universidade de Yale e outros estudos conduzidos por cientistas das Universidades de Harvard e Stanford, todos recentemente publicados na revista Nature, mostram claramente que vermes e moscas, apesar das diferenças óbvias, conservam aquilo que muitos biólogos chamam de ‘kits de ferramentas moleculares’: conjuntos de genes co-expressos (e suas vias bioquímicas e de sinalização correspondentes) que são empregados durante o seu desenvolvimento ontogenético e portanto na formação dos seus padrões corporais característicos. Os pesquisadores puderam inclusive utilizar os padrões de expressão para alinhar as fases de desenvolvimento dos nematodes e das moscas, conseguindo encontrar uma nova correspondência entre uma fase do embrião do verme e a pupa da mosca, além daquelas correspondências embrião-embrião e larva-larva que já eram conhecidas.

Na figura ao lado vemos à esquerda uma matriz de associação gene-gene de seres humanos, vermes nematodes e mosca-de-fruta na qual a coloração mais escura reflete o aumento da probabilidade (verossimilhança) de que um par de genes sejam atribuídos a um mesmo módulo. Um bloco escuro ao longo da diagonal representa um grupo de genes dentro de uma espécie. Caso isso esteja associado a um bloco fora da diagonal, então é um módulo inter-espécies (por exemplo, um módulo de três espécies conservadas é mostrado como um círculo e um módulo de verme-mosca é mostrado por uma estrela). No entanto, se um bloco da diagonal não tem associações fora da diagonal então ele forma um módulo espécie-específico de (por exemplo, pentágono verde). A direita é mostrado o enriquecimento funcional da Ontologia de Genes para os genes conservados dentro dos 16 módulos. [GF, fator de crescimento; nuc, nuclear.; proc., processamento. Em b, observamos os alinhamentos primários e secundários dos estágios de desenvolvimento verme-mosca realizados com base em todos os genes ortólogos (com a mesma origem ancestral) entre vermes e moscas]. Em seguida temos o alinhamento verme-mosca dos estágios usando apenas ortólogos da fase da ampulheta que é mais significativo e apresenta um ‘gap‘ (marrom) correspondente ao estágio chamado fase filotípica [Veja para maiores detalhes Genomas e mais genomas em abril de 2013: Parasitas e Tartarugas e Por que cinco dedos?]. A escala do ‘mapa de calor’ em b é indicada no lado esquerdo, em um alinhamento de estágio destacado. Em c, vemos a expressão normalizada dos módulos conservados na mosca que mostra a menor divergência intra-organismo durante a fase filotípica (castanho). Um módulo representativo é indicado com um asterisco azul em a e c. [Nature 512, 445–448 (28 August 2014) doi:10.1038/nature1].

De fato, em um dos artigos os seus autores também relataram que, nos três organismos estudados, é possível prever os níveis de expressão gênica (tanto de elementos codificantes como não-codificantes) por meio de um “modelo universal”, construído a partir de características da cromatina nas regiões promotoras (aquelas nos quais ligam-se proteínas, como fatores de transcrição e a RNA polimerase, que controlam a expressão dos genes), que utiliza apenas um único conjunto de parâmetros, independente do organismo. Porém, um outro estudo feito pelo mesmo pessoal de Yale, publicado em separado em artigo da revista PNAS, documenta diferenças genéticas extensas entre as várias regiões genômicas destas várias linhagens, sendo bastante particulares da história evolutiva de cada uma delas. Os autores, por exemplo, relataram que o complemento de pseudogenes do genoma humano reflete uma explosão maciça de atividade retrotransposons (‘genes móveis‘ que usam intermediários de RNA para se proliferarem pelo genoma) que teria ocorrido na aurora da evolução dos primatas, diferentemente do que ocorre com os pseudogenes do verme e da mosca, que são reflexo de uma história de cópias extras inativadas. Porém, nos três casos, os pesquisadores puderam observar que pseudogenes mantinham um nível consistente de expressão, por volta de 15% deles sendo transcritos.

Estes resultados não são um paradoxo, mas ilustram um princípio básico da evolução molecular. Enquanto regiões com alta relevância funcional e estrutural tendem a ser mantidas por meio da seleção natural purificadora, as modificações nestas regiões normalmente ocorrem de maneira conservadora e indireta, por meio, principalmente, da duplicação de genes funcionais e da divergência mutacional das sequências das cópias que se dá através de processos como a subfuncionalização, neofuncionalização, originação gênica e por efeitos de dose. No entanto, não é geralmente isso que acontece com a maioria das sequências que perdem sua relevância funcional e estrutural. Em geral, elas transformam-se em pseudogenes, verdadeiros fósseis moleculares. A ‘pseudogenização’ é  o resultado mais provável da duplicação de um gene, uma vez que a maioria das cópias extras é deteriorada e inativada por mutações. Eventualmente, um gene, mesmo sem ser duplicado, que era antes funcional também pode tornar-se um pseudogene caso ele perca da sua utilidade, por exemplo, por uma mudança ambiental que passa a prover o recurso que antes era fornecido apenas por um processo de conversão bioquímica, guiado pelo gene em questão. Porém, o mais importante é que quando ocorre a pseudogenização, diferentemente das sequências gênica e regulatórias funcionais, há uma tendência à divergência, com as sequências passando a refletir muito mais a história contingente particular de cada linhagem, após a separação de outras linhagens, com sua evolução passando a ser muito mais governada por processos estocásticos, como a deriva genética e o efeito carona.

“Por um lado, vimos semelhanças que refletem a necessidade biológica e, por outro lado, as diferenças que espelhavam a história do organismo”, disse Cristina Sisu, do grupo de Yale e primeira autora do artigo do PNAS.

Estes resultados mostram como grandes diferenças nos padrões corporais podem ser obtidas a partir dos mesmos genes (e dos módulos gênicos básicos que eles constituem), que foram duplicados e reformulados de maneira contingente ao longo da evolução de cada grupo, mas, mesmo assim, mantendo certas semelhanças cruciais. Estas semelhanças, por sua vez, são um reflexo tanto de uma origem comum, como provavelmente também de ‘princípios biológica de construção’ universais, muito deles associados a restrições na forma como novas funções e estruturas surgem, ou seja, a partir de outras pré-existentes e, portanto, da organização genético-desenvolvimental prévia. Ao mesmo tempo, o estudo dos pseudogenes deixa claro que aquelas regiões que não estão diretamente envolvidas com a organização e funcionamento mais básico dos organismos estão bem mais livres para divergir e acumular as marcas da história e do acaso.

————————————–

Referências:

  • Hathaway, Bill Evolution used similar molecular toolkits to shape flies, worms, and humans Yale News, August 27, 2014

  • Gerstein, Mark B. et al Comparative analysis of the transcriptome across distant species. Nature, 2014; 512 (7515): 445 DOI: 10.1038/nature13424

  • Araya, Carlos L. et al Regulatory analysis of the C. elegans genome with spatiotemporal resolution Nature, 2014 512, 400–405 28 DOI: 10.1038/nature13497

  • Brown, James B. Diversity and dynamics of the Drosophila tanscriptome Nature 2014 512, 393–399 doi:10.1038/nature12962

  • Ho, Joshua W. K. et al Comparative analysis of metazoan chromatin organization Nature, 2014 512, 449–452 doi:10.1038/nature13415

  • Boyle, Alan P. et al. Comparative analysis of regulatory information and circuits across distant species Nature, 2014 512, 453–456 doi:10.1038/nature13668

  • Sisu, Cristina et al. Comparative analysis of pseudogenes across three phyla PNAS 2014 [published ahead of print August 25, 2014] doi:10.1073/pnas.1407293111

Uma guerra evolutiva dentro de nós

Em um novo estudo, publicado na revista Nature, uma equipe de pesquisadores fornece mais evidências de que o genoma dos primatas foi moldado por uma batalha, ainda em curso, entre elementos genéticos móveis (“genes saltadores”), derivados de infecções virais ancestrais, e os genes que evoluíram em resposta a estes elementos e que controlam sua expressão, sendo talvez esta  ‘corrida armamentista evolutiva’ um dos principais impulsos por trás da evolução regulatória e do aumento de complexidade genômica de nossa linhagem [1].

Ao longo de sua evolução, os primatas tiveram seus genomas modificados por ondas de inserções de retrotransposon, que foram seguidas pela evolução de maneiras de reprimir a transcrição desses retrotransposon e sua expansão pelos genomas e evitar novas inserções. Estes retrotransposons uma vez inseridos só podem se replicar dentro do genoma e dependendo de onde uma nova cópia é inserida, um ‘salto’ destes pode perturbar genes normais, produzindo mutações e ocasionando doenças. Porém, outras vezes, estes efeitos são mínimos e negligenciáveis para o hospedeiro, simplesmente aumentando o tamanho total do genoma, evoluindo de maneira neutra. Em outras circunstâncias, entretanto, muito mais raras, estes saltos e expansões podem trazer consequências vantajosas aos hospedeiros, uma vez que o novo DNA adicionado pode ser uma fonte de novos elementos reguladores que aumentam a expressão do gene [1] [Figura ao lado. Autor: David Greenberg]. Contudo, como estes eventos são raros e a probabilidade de efeitos desvantajosos (deletérios) é maior, isso implica que a seleção natural normalmente favorece a evolução dos mecanismos de prevenção destes ‘saltos’ [1].

Estima-se que ‘elementos móveis de transposição’ constituam, pelo menos, 50 por cento do genoma humano, sendo os retrotransposons, de longe, o tipo mais comum [Para saber mais sobre isso leia “Sobre sucata, lixo, DNAs egoístas, comensais e simbiontes:“]. Entre os genes repressores estão aqueles que codificam “proteínas dedos de zinco”, como as da família KRAB, capazes de ligarem-se ao DNA e reprimirem a atividade dos genes adjacentes, constituindo-se no maior grupo de proteínas reguladoras nos mamíferos [1]. O genoma humano por exemplo possui mais de 400 genes que codificam proteínas dedo de zinco da família KRAB, com cerca de 170 delas tendo surgido desde que os primatas divergiram dos outros mamíferos [1].

O estudo em questão centrou-se em duas proteínas humanas chamadas ZNF91 e ZNF93 que ligam-se a certas regiões do DNA e, desta maneira, reprimem duas das principais classes de retrotransposons (conhecidos como SVA e L1PA) que estão ainda (ou estavam até há pouco tempo) ativos nos genomas dos primatas. Frank Jacob, primeiro autor do artigo, pós-doutorando, e o aluno de doutorado, David Greenberg, desenvolveram uma estratégia para avaliar os retrotransposons de primatas em células-tronco embrionárias de camundongos, que contêm um único cromossomo humano. Neste ambiente celular, os ‘genes saltadores’, que normalmente são reprimidos em células de primatas, tornam-se ativos. Em seguida, Greenberg desenvolveu um ensaio para testar proteínas ‘dedos de zinco’ individuais em relação a sua capacidade para desativar genes saltadores de primatas neste ambiente de células de camundongos. Por meio destes ensaios os pesquisadores conseguiram mostrar que os genes (KRAB) KZNF parecem realmente permitir que os primatas respondam aos retrotransposons recém surgidos. Os cientistas mostraram que dois genes KZNF específicos primatas (ZNF91 e ZNF93) evoluíram rapidamente para reprimir duas famílias (SVA e L1) distintas retrotransposons, logo depois que eles começaram a se espalhar em nosso genoma ancestral [2].

O estudo revelou que a proteína ZNF91 sofreu uma série de mudanças estruturais entre 8-12.000.000 de anos atrás, o que lhe permitiu reprimir elementos do tipo SVA, enquanto a proteína ZNF93 evoluiu mais cedo, reprimindo os elementos L1 até por volta de 12.500.000 de anos atrás, quando a subfamília dos retrotransposons L1PA3 escapou ao controle ZNF93 através da perda do sítio de ligação à ZNF93. Estes resultados apoiam o modelo no qual a expansão dos genes KZNF limitam a atividade de classes de retrotransposons que surgiram mais recentemente, o que foi seguido por mutações nestes retrotransposons que permitem a eles evadirem esta repressão, o que levou a um novo ciclo de eventos, potencialmente explicando a expansão rápida de genes KZNF específicos desta linhagem.

Porém, mesmo esta corrida armamentista pode ter tido consequências secundárias inadvertidas e importantes na evolução dos primatas. Como a repressão de um ‘gene saltador’ também afeta genes próximos a ele, no mesmo cromossomo, os pesquisadores suspeitam que esses repressores foram cooptados para outras funções de regulação genica (que dependem do mesmo sistema de ligação ao DNA e repressão da atividade de genes próximos); com estas novas funções tendo persistido e evoluído muito mesmo depois que os genes saltadores (que foram a pressão seletiva original por trás da  evolução e fixação destes genes regulatórios) já tivessem sido completamente inativados e degradados devido ao acumulo de mutações aleatórias [1]. Assim, este processo co-evolutivo antagônico (veja mais sobre isso emRainhas, besouros e fungos ‘degenerados’”, “Por que genes imunitários que nos prejudicam persistem?” e “As vantagens da recombinação e do sexo) entre o genoma do hospedeiro e os genes saltadores‘ (que agem como verdadeiros  ‘parasitas intragenômicos’), ao produzir o acúmulo de camadas adicionais de regulação da expressão gênica nas adjacências de outros genes importantes para o hospedeiro, acabou por produzir matéria-prima regulatória adicional que permitiu a evolução de novas características e funções em um processo de ‘exaptação regulatória’ [Veja mais sobre isso em “Além da seleção natural II: Complexidade e novas funções por caminhos alternativos” ].

————————————–

Referências:

  1. Stephens, Tim Human genome was shaped by an evolutionary arms race with itself http://news.ucsc.edu, September 28, 2014 .

  2. Jacobs, Frank M. J., Greenberg, David, Nguyen, Ngan , Haeussler, Maximilian, Ewing, Adam D., Katzman, Sol, Paten, Benedict, Salama, Sofie R., Haussler, David. An evolutionary arms race between KRAB zinc-finger genes ZNF91/93 and SVA/L1 retrotransposons. Nature, 2014; DOI: 10.1038/nature13760