Informação, biologia e evolução Parte IV:

Informação e Complexidade

Nessa quarta parte da série de postagens “Informação, biologia e evolução” [‘Informação, biologia e evolução: Parte I‘ e “Informação, biologia e evolução Parte II” e “Informação, biologia e evolução Parte III”] abordarei as relações entre informação e complexidade. Como ocorre com a palavra ‘informação’, a palavra ‘complexidade’ tem vários significados relacionados, a maioria dos quais muito vagos e, por vezes, ambíguos. Por causa disso não existem medidas de caráter geral para a complexidade que tenham sido consensualmente aceitas pelos cientistas:

Apesar da importância e ubiquidade do conceito de complexidade na ciência e na sociedade moderna, não existem atualmente meios gerais e amplamente aceitos para medir a complexidade de um objeto físico, sistema ou processo. A falta de qualquer medida de caráter geral pode refletir o estágio inicial da nossa compreensão dos sistemas complexos, que ainda carece de uma estrutura unificada geral que atravesse todas as ciências naturais e sociais.”[1]

Para quantificá-la é necessário, primeiro, defini-la de maneira rigorosa e precisa, restringindo seu escopo de aplicação. Infelizmente, isso normalmente tem como resultado que muitos de seus sentidos coloquiais, que tanto desejaríamos ver respaldados por essas medidas, são completamente perdidos. Nessas situações, a aplicação à biologia, de maneira geral (e a biologia evolutiva, de maneira mais específica) torna-se duvidosa [1, 2].

A maioria concorda, porém, que ninguém sabe exatamente o que se quer dizer com a palavra “complexidade” quando se refere a um organismo biológico. De fato, embora medidas de complexidade abundem (muitas delas inventados pelos físicos), sua relação com a biologia nem sempre é clara.”[2]

Um dos problemas é que algumas das mais conhecidas medidas de complexidade a identificam com a aleatoriedade, pura e simplesmente. Medidas como o ‘conteúdo de informação algorítmica’ e a ‘profundidade lógica’ parecem realmente completamente irrelevantes à biologia, já que tentam capturar a aleatoriedade inerente a um certo tipo de ‘objeto’. Essas medidas, que tentam identificar o comprimento da menor descrição de um processo, atribuem maior complexidade a processos aleatórios, que resistiriam à compressão [1].

Dessa forma, o ‘conteúdo de informação algorítmica’ – (AIC) um medida definida pelo matemático russo, Kolmogorov, em 1965, e pelo matemático americano, Gregory Chaitin, em 1977 – estabelece que “a quantidade de informação contida em uma sequência de símbolos é dada pelo comprimento do programa de computador mais curto que gera a tal sequência” [1]. Isso faz com que cadeias altamente regulares – periódicas ou monotônicas, e que, assim, poderiam ser produzidas por programas curtos – conteriam pouca informação. Enquanto isso, cadeias aleatórias que requeressem-se um programa tão longo quanto a própria sequência, teriam um altíssimo conteúdo de informação, ou seja, a informação e, portanto, a complexidade seria máxima. A ‘Profundidade lógica’, de Bennett, é uma outra medida relacionada à AIC [1]. Ela é definida como a quantidade mínima de recursos computacionais (tempo, memória, etc) necessários para resolver uma dada classe de problema, referindo-se, principalmente, ao tempo de execução do programa mais curto capaz de gerar uma dada sequência ou padrão de sequências [1].

Complexidade dos seres vivos:

Existem outras maneiras mais diretas de ‘quantificar’ a complexidade dos sistemas biológicos, por exemplo, como contar o número de partes ou componentes ou interações de um sistema, o que Dan McShea chama de ‘complexidade estrutural’ [1, 2]. Contar as funções desempenhadas pelo organismo como um todo ou por seus componentes é outra possibilidade também discutida por McShea, que refere-se a estas medidas como ‘complexidade funcional’ [vejaAlém da seleção natural II: Complexidade e novas funções por caminhos alternativos”, “Complexidade por subtração da complexidade ”, “Fatores não adaptativos e a evolução da regulação gênica em procariontes.”, “O preço da complexidade]. Por fim, podemos contar também o número de níveis hierárquicos exibidos pelo sistema – ou seja, sua ‘complexidade hierárquica’.

Como já discuti em outras postagens, medidas deste tipo podem ser muito úteis para certos estudos. Separar a complexidade estrutural da funcional pode nos trazer vários insights importantes sobre como processos não-adaptativos podem colaborar com o aumento do primeiro tipo de complexidade, mas não necessariamente do segundo, e como a seleção natural pode tanto aumentar como diminuir ambos os tipos de complexidade [Além da seleção natural II: Complexidade e novas funções por caminhos alternativos]. De maneira semelhante, a complexidade hierárquica pode fazer sentido nas comparações entre seres uni e pluricelulares que, do ponto de vista funcional e estrutural, podem não serem necessariamente tão diferentes, em termos de complexidade ou pelo menos mais difíceis de comparar. Tais medidas podem ser empregadas para comparação de diferentes linhagens ao longo do tempo geológico e nos ajudar a julgar se existe algum tipo de tendências em direção ao aumento ou diminuição de algumas desta medidas e, se tais padrões existirem, definir de que tipo eles são [2]. Porém, sua aplicação tem sérias limitações; tanto porque existem várias formas de medir cada um dos tipos de complexidade descritas acima, não existindo um consenso amplo sobre quais as  melhores formas de fazê-lo, como porque muitas dessas medidas podem ser bastante difíceis de serem implementadas na prática.

Além disso, alguns dos resultados dessas medidas podem simplesmente destoar do que esperaríamos intuitivamente de uma medida que visa quantificar a complexidade, o que reduz, de novo, seu escopo e interesse. Por exemplo, sistemas grandes e altamente acoplados não necessariamente devem ser considerados mais complexos do que aqueles que são menores e menos acoplados. De fato, sistemas muito grandes que encontrem-se totalmente ligados podem ser descritos de uma maneira compacta e podem exibir um comportamento muito mais uniforme do que um sistema menor, muito mais heterogêneo, cuja descrição seria muito menos compressível e seu comportamento bem mais variado [1, 2].

Complexidade em sistemas dinâmicos:

Existem, entretanto, outras medidas que talvez aproximem-se mais ao que desejaríamos em uma medida de complexidade, pelo menos, em certos contextos mais limitados e bem definidos. Algumas delas podem produzir resultados que parecem apropriados, pelo menos naquilo que seriam os extremos do espectro de complexidade, preservando, assim, algumas das características que intuitivamente gostaríamos de observar nessas medidas. Entre essas medidas estão a ‘complexidade estatística’, a ‘complexidade neural’ e ‘complexidade física’ [1].

Essas abordagens encaram a complexidade como algo distinto da aleatoriedade, e os sistemas complexos são aqueles que possuem uma elevada quantidade de estrutura ou de informação, muitas vezes em várias escalas temporais e espaciais, porém, sem que seja necessário existir uma relação direta e linear com o tamanho ou o nível de conectividade e integração [1,2].

Os pesquisadores que trabalham com a teoria dos sistemas dinâmicos interessam-se em medidas que exprimam a complexidade desses processos [1]. Já abordei antes, aqui no evolucionismo.org [“De determinantes ‘genéricos’ aos ‘genéticos’: A importância da física nos primódios da evolução animal” e “É a evolução genética previsível? Parte II ou Além da genética parte I“], algumas das contribuições do estudos dos sistemas dinâmicos à biologia evolutiva, principalmente no que concerne a evolução de novas morfologias, foco da evo-devo, e, nesse sentido, a evolução da complexidade morfológica em seres multicelulares. Porém, como estamos lidando com propostas de métricas de informação e complexidade, vamos entrar em um terreno diferente do que eu havia abordado nessas postagens anteriores.

De acordo com Sporns, a complexidade de qualquer sistema físico ou de qualquer processo dinâmico deve expressar o grau com que os componentes daquele sistema (ou os constituintes daquele processo) envolvem-se em interações estruturadas organizadas. A alta complexidade seria alcançada por sistemas que apresentam uma mistura de ordem e desordem (ou seja, de aleatoriedade e regularidade) e que tenham uma capacidade de dar origem a fenômenos emergentes [1]. Existe, então, um consenso que tanto processos periódicos como processos completamente aleatórios representariam os extremos de uma escala, como os  aleatórios (sem qualquer estrutura) em uma ponta e os completamente ordenados, em outra. Portanto, qualquer medida útil de complexidade deveria atribuir a esses extremos baixa complexidade. Portanto, sistemas altamente complexos seriam posicionados em algum lugar entre os sistemas altamente ordenados (regular) e os altamente desordenados (aleatórios), como mostra à grosso modo a figura ao lado [1], adaptada da originalmente publicada por Huberman and Hogg (1986) [1].

Talvez a medida mais interessante  de complexidade, para os nossos propósitos, já que e que relaciona-se mais diretamente às teorias da informação, seja a chamada ‘complexidade física’ (Cf), desenvolvida por Adami e Cerf, em 2000. Ela está relacionada a chamada ‘complexidade eficiente’, proposta por Murray Gell-man [1, 2]. Seus criadores a conceberam para estimar a complexidade de qualquer sequência de símbolos que seja ‘a cerca de contexto físico ou ambiente‘ específico [2]. A Cf é definida como a AIC que é compartilhada entre uma sequência de símbolos (como um genoma) e algum tipo de descrição do ambiente em que ela tenha algum significado, como o nicho ecológico dos organismos que as carregam.

Como AIC não é computável, a Cf também não o é. Porém, a Cf média de um conjunto de sequências pode ser aproximada. Assim, a Cf média de um conjunto de genomas de toda uma população de seres vivos pode ser aproximada por meio da ‘informação mútua’ (uma medida derivada da teoria de Shannon) entre conjuntos de sequências genômicas e o ambiente em que os indivíduos da  população que as portam vivem [2, 3].

A Cf média também foi utilizada para estimar a complexidade de biomoléculas e em outros estudos, que tal medida correlaciona-se positivamente, com a complexidade estrutural e funcional de um conjunto de moléculas de RNA, o que sugere uma ligação entre as capacidades funcionais de estruturas moleculares que evoluíram e a quantidade de informação que eles codificam [1]. Por fim, simulações realizadas por Adami e seus colaboradores, corroboram os resultados das simulações realizadas por Tom Schneider [2, 3, 4]. Assim, como Schneider mostrou claramente, através de seus programa EV, que as medidas de ganho de informação Rsequência e Rfrequência, [veja “Informação, biologia e evolução Parte III“] aumentam, o grupo de Adami, usando a plataforma AVIDA, também mostrou que a informação mútua entre genomas autorreplicantes e o seu ambiente  – e portanto, sua complexidade física média (Cf média ) – aumentou ao longo das gerações [2, 3. 4].

Mas para compreendermos melhor isso, voltemos um pouco atrás.

Adami em um artigo de 2000, publicado na revista BioEssays. define a Cf de uma sequência como “a quantidade de informação que é armazenada na sequência sobre um determinado ambiente”. Dessa maneira, o ambiente em questão é aquele no qual esta sequência (um genoma, por exemplo) replica-se e, portanto, no qual seu hospedeiro vive, algo similar a ideia de nicho ecológico [2].

Adami chama a atenção para o fato de a complexidade física (Cf) ser algo diferente de sua contrapartida matemática ou algorítmica (a AIC, de Kolmogorov e Chaitin). Enquanto esta última preocupa-se com a regularidade (ou, no caso, a irregularidade) intrínseca de uma sequência, um reflexo das leis imutáveis ​​da matemática, a Cf, por outro lado, refere-se sempre a algum contexto específico no qual a sequência deve ser interpretada [2, 3].

Em consonância com Schneider, Adami enfatiza que ‘a aleatoriedade é, em alguns aspectos, o ”outro lado” da informação’.

Informação, entropia e complexidade

Como vimos nos posts anteriores desta série, ela pode ser associada a entropia na teoria da informação de Shannon:

A entropia é uma medida do potencial de conhecimento, ou se aplicado a uma sequência, uma medida da quantidade de informação de uma sequência poderia carregar, e, assim, quantifica a incerteza sobre a identidade genética de um indivíduo selecionado aleatoriamente a partir de uma pool.” [2]

De acordo com Adami, podemos imaginar a entropia de sequência como sendo o comprimento de uma fita, enquanto a informação é o comprimento da fita que contém gravações:

A medição (ou seja, a gravação) transforma fita vazia em fita gravada” [2]

Isto é, ela transforma entropia (incerteza) em informação (gravação). Esta metáfora tem paralelos diretos com a evolução, pois é exatamente o que acontece durante a evolução adaptativa, a força que impulsiona o aumento da Cfmédia nos seres vivos [2].

Infelizmente, como já mencionei nos outros posts, as tentativas de medir a informação (e, portanto, a complexidade, usando-se esta abordagem) são muitas vezes assombradas por usos errôneos desses conceitos. Muitas vezes a entropia foi postulada diretamente como a medida de complexidade baseada na teoria da informação. Porém, como vimos, a entropia de uma sequência é a quantidade de informação que tal sequência poderia transportar, o que pode ser compreendido de modo rigoroso como simplesmente o comprimento da sequência. Porém, o simples comprimento da sequência ou o tamanho total do genoma não é um bom preditor de nenhuma medida consistente da complexidade de um organismo, ao que os biólogos evolutivos referem-se como paradoxo-C [2].

A capacidade de previsão que obtemos a partir daí tem como implicação que a sequência e o sistema têm algo em comum, ou seja, existe uma correlação entre eles. Esta correlação provavelmente não se estenderia a outros sistemas, portanto, a sequência em questão dificilmente faria previsões sobre qualquer outro sistema, a menos, claro, que o tal sistema fosse muito parecido com aquele com o qual a sequência está correlacionada. Caso contrário, você não terá informação.

A informação é uma forma estatística de correlação e, portanto, requer, matemática e intuitivamente, uma referência sobre o sistema do qual a informação é sobre.” [2]

Ao invés disso, você terá informação potencial (a tal ‘entropia informacional’). Por outro lado, informação, neste sentido técnico (mas também no sentido mais intuitivo), é sempre sobre algo específico, o que nos leva a outra conclusão importante: Uma sequência pode incorporar informação sobre um dado nicho ao mesmo tempo que pode ser completamente aleatória em relação a outro, portanto, qualquer medida deste tipo deve ser relativa ou condicional ao ambiente em questão [2].

De volta a Shannon:

Como vimos anteriormente, a entropia de Shannon (H) é o número esperados de bits (‘decisões binárias’) necessários para especificar o estado de um determinado objeto dado uma distribuição de probabilidades, portanto, mede quanta informação pode ser potencialmente armazenada nele [3]. Desta maneira, em um sítio i de um genoma qualquer que possa abrigar um de quatro nucleotídeos cujas probabilidades são dadas por

a entropia de Shannon deste sítio seria igual a [3]:

Portanto, a entropia máxima por cada sítio seria igual a 2, caso usássemos o logaritmo na base 2, como faz Schneider, ou 1, caso, como prefere Adami, usássemos o logaritmo na base 4, correspondente ao tamanho do ‘alfabeto de símbolos’ usado, [A, C, G, T], caso a probabilidade de cada um dos nucleotídeos seja ¼. Para exibir informação máxima, no DNA, um sítio teria que ser perfeitamente conservado em toda a população, ou mais especificamente, em todo o conjunto de sequências (‘ensembles‘) perfeitamente equilibrados. Nesse caso, a probabilidade de uma das bases ocupar aquele sítio seria igual a 100% (p = 1) e as das demais bases seria igual a zero, o que tornaria Hi = 0 de acordo com a segunda equação [3].

Isso tem como consequência que a quantidade de informação por sítio é igual [3]:

Porém, para medir a complexidade de uma sequência de DNA de um organismo precisamos aplicar a equação  a todos os sítios e fazer seu somatório, o que nos dará, para um organismo com l par de bases: [3]

Aqui, como na abordagem de Schneider, obtemos a informação ao diminuir uma entropia de outra. No caso, a entropia máxima da sequência, representada pelo seu comprimento (já que usamos o logaritmo do tamanho do alfabeto) subtraída do somatório da entropia de cada sítio [3].

Adami enfatiza que tais valores são apenas aproximações da verdadeira Complexidade física do genoma de um organismo. Além disso, os sítios não são necessariamente independentes – e, portanto, que a probabilidade de encontrar uma certa base em uma posição pode ser condicionada à probabilidade de encontrar outra base em outra posição. Este fenômeno, conhecido como epistasia, pode tornar a entropia por molécula significativamente diferente do obtida pelo somatório das entropias por sítio. Neste caso, a entropia por molécula, levando-se em conta todas as correlações epistáticas entre sítio, é definida como [3]:

Tal medida envolve uma média dos logaritmos das probabilidades condicionais associada a encontrar o genótipo g dado o ambiente atual E, P(g | E). Pode-se estimar a entropia por molécula através da criação de clones mutantes para os vários sítios e em várias posições ao mesmo tempo, de modo que se possam medir os efeitos epistáticos, o que é possível fazer através de experimentos com ecossistemas simples de organismos [3], que é o que veremos no próximo post desta série.

——————

Referência:

  1. Sporns, Olaf  (2007) Complexity Scholarpedia, 2(10):1623. doi:10.4249/scholarpedia.1623

  2. Adami, C. (2002) What is complexity? BioEssays 24, 1085-1094. doi: 10.1002/bies.10192

  3. Adami C, Ofria C, Collier TC. ( 2000) Evolution of biological complexity. Proc Natl Acad Sci U S A. Apr 25;97(9):4463-8. doi: 10.1073/pnas.97.9.4463 

  4. Schneider TD. (2000) Evolution of biological information. Nucleic Acids Res.  Jul 15;28(14):2794-9. doi: 10.1093/nar/28.14.2794

Créditos das Figuras:

Julia set; autor: SolkollOwn work

Barnsley’s fern, autor: DSP-userusando o modelos de Mike Borrello , criado com VisSim

Leia também

Um comentário

  • Rodrigo Véras 3 de julho de 2014  

    Oi, Peterson. O autor da obra é o conhecido biólogo molecular James Darnell, da Universidade Rockefeller, que foi coautor de edições anteriores do muito usado livro-texto ‘Molecular Cell Biology’.

    http://www.ncbi.nlm.nih.gov/books/NBK21475/

    Sobre a origem da vida recomendo dois livros em português. Um já foi inclusive comentado aqui no nosso blog [evolucionismo.org/profiles/blogs/origem-da-vida-recentes-contribuicoes-para-um-modelo-cientifico-d] e o outro é do químico Pier Luigi Luisi [ http://www.edusp.com.br/detlivro.asp?ID=414107]

    —————————————

    Maia, Hernâni L.S. & Dias, Ilda V.R. Origem da Vida: Recentes Contribuições para um Modelo Científico, Livraria da Física, 1a ed., 2012, 286 páginas

    Luisi, Pier Luigi A EMERGÊNCIA DA VIDA: Das Origens Químicas à Biologia Sintética [trad.Bernardini, Aurora Fornoni] São Paulo: EDUSP, 424 pp.

    Abraços,

    Rodrigo

Deixe um comentário