Informação, biologia e evolução Parte III
Chegamos à terceira parte da nossa série de posts sobre a teoria da informação e suas aplicações na biologia e especialmente na evolução, que iniciaram-se nos posts anteriores ‘Informação, biologia e evolução: Parte I‘ e “Informação, biologia e evolução Parte II“. Neste novo post continuamos a falar sobre como podemos medir a informação e ganhos nesta quantidade ao longo da evolução por seleção natural.
Esta abordagem permite aos cientistas investigarem a fundo como biomoléculas interagem umas com as outras e como elas ajustam seus estados. Os estados e os padrões das moléculas, desviando das abordagens mais tradicionais da bioquímica, podem ser medidos usando-se o formalismo da teoria da informação molecular. A teoria de informação de Shannon da forma como emprega por Schneider nos permite calcular a informação média nos sítios de ligação de DNA de qualquer proteína associada ao controle genético, como um fator de transcrição, por exemplo. Podendo esta análise ser estendida a investigação de seus sítios de ligação individuais. De fato, uma fórmula equivalente à fórmula de Shannon para a capacidade do canal pode ser utilizada em sistemas biomoleculares, possibilitando que calculemos a eficiência com que a proteína liga-se aos sítios. De acordo com os resultados dos estudos realizados pelo grupo de Schneider, esta eficiência frequentemente está por volta de 70%, sugerindo que estes sistemas evoluíram para funcionar na capacidade do canal. Estes resultados sugerem que devemos poder construir sistemas de comunicação molecular que são tão robustos como seus equivalentes tecnológicos convencionais [1]. Mas como podemos saber disso? Antes de responder esta questão precisamos voltar ao básico da biologia molecular e compreender como funciona a regulação gênica.
Ligando e desligando genes:
A regulação de um gene requer que uma proteína ligue-se a sítios específicos na sequência de DNA associada a sequência codificadora deste mesmo gene, de modo que sua transcrição seja ativada ou inibida. Lembre-se que existem apenas quatro bases de nucleotídeos no DNA (denominadas A, C, G e T) de modo que os sítios de ligação (ou seja, as regiões nas quais as proteínas regulatórias ligam-se) podem ser representadas pelo padrão destas quatro letras [1].
Um ponto importante é que uma proteína é uma molécula finita. Isso significa que ela pode ligar-se a apenas um segmento de DNA por vez que, normalmente, tem algo em torno de 10 a 20 pares de bases de comprimento. Também é importante compreendermos que o padrão que permite a ligação de uma dada proteína a um sítio não é representado exatamente por uma mesma sequência de bases. Isso implica que algumas das posições na sequência de nucleotídeos podem variar, ou seja, diferentes nucleotídeos podem ser ali aceitos, sem que isso faça diferença para a função em questão. Claro, outras variações podem estar associadas a funções diferentes ou mesmo a perda de função [1].
O que a teoria da informação permite é medir ‘quanto padrão’ existe em um conjunto de sítios de ligação. Por exemplo, veja o caso da proteína Fis que normalmente existem na faixa de apenas 100 moléculas em uma célula bacteriana em inanição. Porém, basta que a célula encontre nutrientes e este número aumenta para mais de 50.000 moléculas. Essa elevação no numero de moléculas acarreta a alteração da regulação de muitos genes controlados pelas moléculas de Fis. Na Fig. 1 podemos observar vários sítios de ligação da proteína Fis, identificados experimentalmente, todos localizados no comecinho do próprio gene que codifica a proteína Fis [pdb 3FIS] [1].
Sabemos que quando não há muitas moléculas de Fis na célula, o gene Fis está ativo, induzindo a expressão de mais moléculas Fis. Porém, quando essas moléculas ocupam os sítios de ligação do próprio gene Fis isso induz uma diminuição da expressão da proteína Fis, ou seja, a um processo de retroalimentação (feedback) negativo. A pergunta é ‘Como é que Fis encontra estes sítios no genoma? ‘ [1].
Os logos de sequência:
Vejamos a figura abaixo. Só de olhar podemos perceber que as sequências são todas bastante diferentes umas das outras, mas a região central (ao redor do zero) tem muitas bases A e T, enquanto que a posição -7 é quase sempre um G, enquanto a posição 7 é quase sempre um C.
Na figura acima estão dispostas, umas em cima das outras, as sequências alinhadas (no topo) e e os logos de sequência (em baixo) para os sítios de ligação de DNA da proteína de Fis da bactéria Escherichia coli. A barra de números (‘numbar’) no topo deve ser lida verticalmente. Ela mostra a gama de -10 a 10 para posições em todo o sítio. Abaixo da numbar estão os 6 sítios Fis e suas sequências complementares. Ambas são indicadas, uma vez que ligam-se ao Fis como um dímero. À direita está a informação individual de cada sequência. Os logos de sequência, na parte inferior da figura, mostram a conservação da sequência no conjunto de dados completo, que consiste em 60 sítios Fis e seus complementos. A altura de cada letra (nucleotídeo) é proporcional à frequência da base naquela posição e as letras estão ordenadas. A altura de toda a pilha de letras é a informação, medida em bits. A possível variação da altura devido aos efeitos de pequenas amostras é mostrado pelas barras de erro. O pico da onda senoidal mostra onde o sulco maior do DNA faz interface com a proteína. De acordo com Schneider, isso pode ser usado para inferir alguns aspectos da forma como os contatos entre proteína e DNA se dão [1].
O grupo de Schneider desenvolveu uma maneira de visualizar este tipo de padrão, através dos chamados logos de sequência. Eles mostram que diferentes partes do sítio são conservadas de maneiras distintas. A Teoria da Informação aplicada a biologia molecular permite caracterizar estes sítios com precisão, mas como exatamente isso é feito ? [1].
Medindo a informação (Rsequência e Rfrequência):
Primeiramente sabemos que antes que uma molécula da proteína Fis tenha se ligado ao DNA lá podem estar qualquer uma das quatro bases possíveis em cada posição específica da sequência. Então, lembrando do post anterior e, acompanhando a ideia de Shannon, podemos dizer que a proteína estaria ‘incerta’ em relação a qual base estaria a sua frente em uma quantidade que pode ser medida através do log2 (4) = 2 bits. Porém, assim que a proteína esteja ligada a um sítio para a Fis, a incerteza em relação ao que está ligada será menor; menor em diferentes níveis, dependendo do caso específico. Isso é assim porque as bases variam mais ou menos em diferentes posições. Por exemplo, no caso das posições -7 e +7 quase sempre elas encontrarão as mesmas bases, portanto a incerteza nestas posições será próxima a log2 (1) = 0 bits. Mas aqui é preciso bastante cautela. Isso é apenas uma aproximação. Existem outras bases nessas posições, mesmo que a frequência delas seja bem baixa. Assim, a incerteza não é zero. Felizmente, podemos calcular a incerteza em relação à frequência de símbolos, como mostrou Shannon [1]. Como vimos no post anterior (“Informação, biologia e evolução Parte II“):
onde fb, l são, respectivamente as frequências das bases b ∈ {A, C, G, T} na posição l no alinhamento de sequências [1].
Aqui precisamos tomar vários cuidados. Primeiro de tudo, como não existe um número infinito de sequências, como a teoria de Shannon exigiria, substituímos as probabilidades das bases por suas frequências. De acordo com Schneider, isso demanda uma correção para o tamanho pequeno da amostra [1, 2]. Segundo, a incerteza, que às vezes chamado de “entropia de Shannon”, não é igual a entropia da termodinâmica e por isso este termo não deve ser usado, mesmo porque em um certo momento a entropia termodinâmica entrará na discussão já que ela está envolvida nos processos físico-químicos associados a ligação entre biomoléculas. Terceiro, é preciso que fique claro que a incerteza dada pela Eq. (1) não é a informação, como Schneider sempre enfatiza e como já discuti no post anterior (“Informação, biologia e evolução Parte II“).
Recapitulando. Antes que a molécula de Fis ligar-se ao sítio ela está em algum lugar no DNA genômico e tem 2 bits de incerteza. Porém, logo após a ligação, essa incerteza é reduzida, H(l). Aqui voltamos a outra questão importante, como Shannon percebeu, o receptor de uma mensagem terá menos informação por causa do ruído no sinal, o que faz com que a informação recebida R seja menor do que a incerteza transmitida H(x):
Shannon chamou Hy(x) (a ‘entropia condicional’) de equivocação. Ela mede a ambiguidade média do sinal recebido [1].
De modo semelhante, H(l) é a ambiguidade “observada” pela proteína de ligação ao DNA uma vez que ela tenha se ligado a um sítio, o que faz com que a informação do sítio de ligação seja a incerteza antes da ligação subtraída daquela após a ligação:
Schneider mostra isso ao criar um logo de sequência, ilustrado na parte inferior da figura 1. Nele a Rsequência (l) em todo o sítio de ligação é plotada e esses valores são utilizados para variar as alturas de pilhas de letras que representam a abundância relativa de cada base em cada posição do sítio de ligação. Os logos de sequência são amplamente utilizados em biologia molecular para representar os padrões de DNA, RNA e proteínas. Com a variação de uma parte de um sítio de ligação normalmente é independente das outras partes, podemos somar os valores de informação em todas as posições de um sítio de ligação para encontrar a totalidade da informação do sítio de ligação. Essa é a “área” sob o logo de sequência que é encontrada somando-se as alturas de todas as pilhas de letras [1].
Compreendemos melhor a importância da Rsequência ao compararmos com uma outra medida da informação. Schneider explica que, como em muitos casos (mas não no caso da Fis), o número de sítios de ligação de uma proteína ao genoma é conhecido, o problema enfrentado pela proteína de ligação ao DNA é o de localizar um número de sítios de ligação, γ, tendo em vista todo o comprimento do genoma, medido em pares de base, G. Isso significa, em termos da teoria da informação, que a incerteza antes de acontecer a ligação a um dos sítios é log2 L, enquanto que a incerteza após ter ocorrido a sido ligação é reduzida para log2 γ. Então, como acontece com o cálculo da informação nos sítios de ligação, as informações necessárias para encontrar os sítios de ligação é:
Sítios de ligação naturais têm Rsequências próximas às Rfreqquências. Isso quer dizer que a informação usada dos sítios de ligação é apenas suficiente para localizar os sítios de ligação no genoma. Uma vez que o tamanho do genoma e o número de sítios de ligação são mais ou menos fixados pelo ambiente, a informação nos sítios de ligação, Rsequência, tem de evoluir para o necessário, ou seja, a Rfrequência, o que foi verificado por um modelo de computador chamado Ev. Existe uma versão em Java que pode ser executada em seu próprio computador, disponível aqui. Este incrível resultado foi publicado em 2000 em um artigo da revista científica Nuclear Acid Research [2] e inspirou um vídeo criado pelo usuário cdk007 e que foi agora traduzido por mim e pode ser visto aqui.
O vídeo explica de maneira bem simplificada o que é informação, de acordo com a teoria de Shannon, e como ela pode ser aplicada à biologia molecular e à evolução, como foi feito no artigo de Schneider [2]. No vídeo, o autor usa algumas convenções diferentes das de Schneider, que eu mantive na versão traduzida. Ao invés de ‘H’ é usado a letra ‘U’ de ‘Uncertainty’ para a entropia de Shannon e ‘I’, de ‘Information’, ao invés de ‘R’.
———————————-
Referências:
-
Schneider TD. A brief review of molecular information theory. Nano Commun Netw. 2010 Sep;1(3):173-180. doi: 10.1016/j.nancom.2010.09.002
-
Schneider TD. Evolution of biological information. Nucleic Acids Res. 2000 Jul 15;28(14):2794-9. doi: 10.1093/nar/28.14.2794
Última resposta: Parte II
O DNA talvez seja o sistema de registro em código mais sofisticado do universo. Como é que as mutações – não dirigidos, não intencionais, não inteligentes, não pessoais agindo nas cópias (“letras” da fita trocadas, apagadas ou acrescentadas, duplicação de genes, inversão cromossómica, etc) geraram os enormes volumes de informação de DNA nos sistemas biológicos?
Não são simplesmente as mutações que geram informação, mas mutações associadas a processos como a deriva genética e principalmente a seleção natural. Mais uma vez você apela para caricaturas e distorções das teorias e abordagens científicas para argumentar contra elas. Procure os artigos aqui neste blog sobre o tema. Use a ferramenta de busca. Além disso, v[a atrás dos artigos de pesquisadores como Thomas Schneider e Christoph Adami.
Como é que tais acidentes aleatórios poderiam gerar 3 bilhões de letras de informação de modo a TRANSFORMAR um verme num infectologista?! As combinações não só constroem proteínas; mas também controlam o seu uso pela quantidade e qualidade das letras, sem admitir erros.
Por que não são simples acidentes aleatórios em sentido estrito. Além de fatores estocásticos como a deriva e as mutações (que não são equiprováveis que fiquem bem claros), existem processos como a seleção natural que mesmo que contingentes não são aleatórios. Além disso existem vários erros em nosso DNA. Todos nós possuímos mutações, algumas delas ligeiramente desvantajosas. E genomas são duplicados por processos tão simples como a poliploidia e isso tudo é muito bem documentado na natureza. Vc simplesmente não faz a menor ideia do que está falando.
Nada feito pelos seres humanos se aproxima desta notável eficiência biológica. Quem diria que o DNA pode armazenar informação de modo mais eficiente que nós?
Mesmo que isso fosse verdade, isso é irrelevante. Além do mais, nós, seres humanos, temos usado há milhares de anos de maneira apenas parcialmente consciente e nos últimos séculos de maneira consciente e cientificamente orientada, o mesmo processo básico que ‘a natureza usa’ para produzir eficiência, a variação associada com a seleção. Mais recentemente a biotecnologia tem usado a mesma abordagem, na chamada evolução dirigida.
Em alguns sistemas físicos e químicos até seriam possíveis essas trocas, mas não pra formação e descendência de vida orgânica biológica em alta complexidade.
De onde você tirou isso? Quais são sua s evidências para firmar isso? Mais uma vez você cospe alegações sem oferecer quaisquer evidências. Não há nenhum motivo para que processos naturais não produzam aumento de complexidade locais inclusive “pra formação e descendência de vida orgânica biológica em alta complexidade.” O ônus é seu em provar o contrário e desafiar com consenso entre os físicos e quiímicos.
…mas em nada abala a constatação de que os seres vivos evoluíram e evoluem e que o estudo da origem da vida por mecanismos naturais é o único caminho viável, pelo menos, até que se mostre o contrário.
Meu amigo, a verdade é que não temos qualquer evidência de que os sistemas de informação presentes nas formas de vida se criaram e escreveram a eles mesmos, que a vida criou-se a ela mesma, que uma forma de vida 100% aquática passou a ser 100% terrestre, que dinossauros passaram a ser colibris! que lobos, vacas, ursos viraram baleias, que a reprodução sexual criou-se a ela mesma, em duas formas de vida semelhantes e se uniram e passaram logo a reproduzir e a gerar descendência,… que chimpazés “desceram das árvores” e passaram a ser evolucionistas, e tudo o mais que faz parte da filosofia mitológica chamada “teoria da evolução”.
Vcs tem a vossa fé e direito de ACREDITAR nisso. Só não chamem essas fantasias de “ciência” porque isso não é.
Vc realmente é bem confuso e tem uma ideia bem bizarra do que é a evolução. Além disso, você insiste em misturar a origem da vida com a evolução biológica, desviando do assunto deste post. Isso é outro motivo que vai me fazer simplesmente terminar com esta discussão. Mas, deixado suas descrições bizarras de lado, temos sim muitas evidências que os seres vivos evoluiram e que tem uma origem comum.
As evidências comparativas da anatomia, embriologia, bioquímicas e genética, junto com os fósseis e da biogeografia já fecharam esta questão há mais de um século (e no caso das moleculares reforçaram esta conclusão há décadas). Suas afirmações em contrário, estas sim são produtos de fé cega e desinformada.
Como eu disse e repito, muitos religiosos (além de pessoas dos mais diferentes backgrounds políticos e ideológicos) aceitam estas evidências e estão de acordo em relação ao fato da evolução. Apenas pessoas como você, altamente desinformadas, confusas sobre as evidências e ideologicamente enviesadas continuam negando a evolução.
Sim temos várias, mas você não as aceita.
Essa é uma mera opinião, sem quaisquer argumentos e evidências que a suportem. É portanto um simples argumento de autoridade, mais uma velha e conhecida falácia. Franklin é um conhecido criacionista e suas credenciais não valem nada sem que ele forneça argumentos e evidências respaldadas na literatura científica e consiga justificar seu repú consenso científico.
Sim, para o “CONSENSO” especulativo dos crentes naturalistas; opiniões de outros cientistas não valem nada, só as deles!! nada parcial e preconceituoso né…!
Na verdade, há farto material incluindo publicações científicas, com citações constrangedoras e comprometedoras dos próprios evolucionistas demonstrando as insolúveis e crescentes lacunas dessa crença ideológica/filosófica/religiosa. Ex:disso:
http://www.asa3.org/ASA/PSCF/1996/PSCF9-96DeHaan.html#1
Opiniões de cientistas que não são especialistas nas áreas relevantes, claramente ideologicamente motivados e que mutilam os fatos e distorcem as informações e evidências não servem para desabonar o consenso. Copiar e colar trechos opiniosos de textos destas pessoas não é argumento e não serve como evidência. Não há qualquer preconceito em não aceitar asserções sem argumentos e não respaldados na literatura científica especializada. Mostre as publicações revisadas por pares e publicadas em revistas científicas de grande impacto destes tais cientistas criacionistas que mostram que a evolução não ocorreu e que estabelecem a viabilidade do criacionismo como alternativas científicas.
Como já disse, as evidências experimentais científicas já realizadas até em ambientes menos severo, refutam seu argumento. Mais uma vez é a vossa fé em crer nesse milagre espetacular descabido.
Quais evidências, Cícero? Realmente é assustador ver o nível de projeção psicológica e cara de pau que vocês chegam. Mais uma vez, ‘milagres’ (como explicação científica aceitável e suficiente) é no que os criacionistas acreditam. Com você pode negar isso e imputar esta crença aos cientistas sérios.
As evidências fósseis e filogenéticas comparativas demonstram claramente funções específicas e necessárias aos seres vivos e não sinais macroevolutivos morfológicos.
O estudo apenas provou descendência hereditária genética do MESMO ser.
Errado. As evidências de formas de transição e a capacidade de reconstruirmos as árvores e de encontrarmos grupos basais (os grupos tronco) são evidências claras de transições macroevolutivas morfológicas. Mais uma vez, desafio, ao invés de apenas negar o que eu digo, mostre por que isso seria assim, de preferência usando fontes científicas sérias e especializadas e não material criacionista.
Foi exatamente isso que eles obtiveram. A divisão de trabalho celular mostrada em experimentos anteriores e a secreção de matriz extracelular que mantém os agregados juntos são exatamente o tipo de coisa que você nega ter acontecido. Mas existem muito mais evidências de evolução de nova informação genética, com novos genes, novos circuitos fenéticos e funções tendo surgido por meio de mutações, deriva e seleção natural.
É sua especulação fantasiosa forçada. Não há nada NOVO. A alga Chlamydomonas reinhardtii, continua a mesma alga Chlamydomonas reinhardtii…
Ela não é mais uma forma unicelular, ela é uma forma multicelular e que se reproduz por propágulos unicelulares. Eles conseguiram não evoluir em laboratório uma forma multicelular a partir de uma unicelular, mas conseguiram evoluir um ciclo uni-pluricelular de reprodução. Não há especulação aqui. As evidências são claras. Vc é o ‘cego’ aqui que recusa a ver. Note que a questão da especiação é irrelevante, especialmente por que estamos falando de formas que reproduzem-se assexuadamente, portanto, a diferenciação genética e fenotipica é trivial associada a especiação seria trivial.
Errado. Mutação, deriva e seleção nunca conseguiram aumentar informação genética pra formação de NOVOS seres em NOVOS clados verticais.
Vc não sabe o que é informação. Agora é claro. Tente defini-la, respaldar esta definição com referências científicas sérias e explicar por que “ Mutação, deriva e seleção nunca conseguiram aumentar informação genética pra formação de NOVOS seres em NOVOS clados verticais.”. Aliás defina o que é um clado vertical e traga uma boa referência para isso. Vc realmente está bem perdido, mas não quer se achar mesmo.
http://evolucionismo.org/profiles/blogs/informacao-biologia-e-evolucao-2
http://pergunte.evolucionismo.org/post/5895251714
http://evolucionismo.org/profiles/blogs/a-origem-de-nova-informacao
http://evolucionismo.org/profiles/blogs/a-origem-de-nova-informacao-1
http://ncse.com/rncse/26/3/evolution-biological-complexity
Chandrasekaran , C. & Betrán , E. (2008) Origins of new genes and pseudogenes. Nature Education 1(1)
Schneider TD. Evolution of biological information. Nucleic Acids Res. 2000 Jul 15;28(14):2794-9. PubMed PMID: 10908337; PubMed Central PMCID: PMC102656.
Adami Information Theory in Molecular Biology. Physics of Life Reviews 1 (2004) 3-22. [PDF]
C. Adami, C. Ofria, and T. C. Collier. Evolution of Biological Complexity. Proc. Nat. Acad. Sci. 97 (2000) 4463-4468. [PDF]
Szostak, JW. Functional information: molecular messages. Nature. 2003 June 12; 423: 689. PDF
Hazen RM, Griffin PL, Carothers JM, Szostak JW. Functional information and the emergence of biocomplexity. Proc Natl Acad Sci U S A. 2007 May 15;104 Suppl 1:8574-81. Epub 2007 May 9. PDF
Continua …