Change of language, change of content

From now on this blog is about my adventures in bioinformatics and in the use of open source software:
The code is bash, perl, R -especially sweave/noweb-, LaTeX and my lovely, beastly OS editor`s (Gnu-Emacs) elisp.

I will publish code snippets and short comments in English language. You con read about the same and my other more biology focussed interests in German on Alles was lebt.

Dienstag, 20. Januar 2009

Protein-Polymorphismus und die neutrale Theorie

ResearchBlogging.orgWie ich in früheren Posts bereits angedeutet habe, wurde in der Zeit bevor man schnell und günstig DNA sequenzieren konnte hauptsächlich eine auf Verschiedenheiten in Enzymen basierende Methode verwendet um Variabilität innerhalb von Populationen zu untersuchen. Masatoshi Nei und Dan Graur haben zu den so gewonnenen Daten, eine sehr fundierte und gut zu lesende Metaanalyse durchgeführt; sozusagen das letzte Wort zu diesen Daten in der Populationsgenetik...

Sogenannte Allo(en)zyme katalysieren sehr grundlegende Stoffwechselprozesse und sind daher hoch konserviert, d.h in fast allen Lebewesen sind Orthologe vorhanden. Zerkleinert man gesamte Organismen, und lässt den entstehenden "Brei" in einem elektrischen Feld durch eine Gel laufen (Gelelektrophorese) trennen sich die Proteine, wie die interessierenden Enzyme, gemäß ihrer Ladung auf. Die dazu verwendeten Stärkegele werden dann mit dem Substrat für eines der Allozyme und einem Farbstoff, der ausfällt, wenn die entsprechende Reaktion stattfindet, gefärbt. Mit dieser Methode sind in dem meisten Organismen etwas mehr als 20 Enzyme analysierbar.
Auf den ersten Blick erscheinen diese evolutionär konservierten Moleküle aber nicht besonders geeignet um Unterschiede innerhalb einer Art auf Populationsebene zu untersuchen. Eine erstaunliche Entdeckung war daher, dass solche Enzyme innerhalb einer Art oft in unterschiedlichen Allelen vorkommen, sichtbar als unterschiedliche weit gelaufene Banden im Gel.
Seit Anfang der 1960 resultierte dies in einer Fülle von Studien, die diese Methode zur Anwendung brachten und für experimentell arbeitende Populationsgenetiker "find it, grind it" zur Losung machten.

Die Entwicklung der neutralen Theorie ist daher auch im Licht der so gewonnenen Daten zu sehen. Warum gibt es diese Variabilität in natürlichen Populationen? Wer seine Fliegen mit etwas Hintergrundwissen zerrieb, musste eine neutrale Erklärung in Betracht ziehen.

Schon vor der Untersuchung dieser ersten molekularen Polymorphismen war der Grad der innerhalb einer Art beobachteten Variabilität das beherrschende Thema der Populationsgenetik. Warum kommt es durch Selektion nicht zu einer vollständigen Optimierung des Phänotypes und damit zu einem Verschwinden der Variabilität?

Es können zwei Gruppen von Hypothesen getestet werden, die dieses Phänomen erklären könnten:

Zum Ersten die neutrale Erklärung: Es könnte einfach keine Selektion auf die interessierenden Merkmale gegeben sein und daher könnten zwei Allele durch Zufall zum gegebenen Zeitpunkt vorhanden sein.

Zum Anderen "selektionistische" Erklärungen, d.h. Selektion selbst könnte zwei unterschiedlich Merkmale begünstigen. Dies wird "balancing selection" genannt. Ein Paradebeispiel hierfür stellt Häufigkeits-abhängige Selektion dar. Spezielle Merkmale werden positiv selektiert weil sie selten sind, wird das entsprechende Allel häufiger, verschwindet dieser Vorteil und das alternative Allel hat den Vorteil. Der große Polymorphismus bei MHC Allelen lässt sich so beispielsweise sehr schlüssig mit Häufigkeits-abhängiger Selektion erklären.
Eine weitere "selektionistische" Erklärung wäre "Overdominance", dabei haben Heterozygote eine größere Fitness als die beiden möglichen Homozygoten, daher hält die Selektion beide Allele in der Population.

Betrachtet man die Theorien ohne jegliche Daten, muss man feststellen, dass die neutrale Erklärung die sparsamere und daher -falls sie ausreicht- bessere ist. Die auf Selektion basierenden Erklärungen sind etwas umständlicher wurden aber von vielen Biologen bevorzugt, da man neutrale Erklärungen oft als unschön empfand. Die selektionistischen Erklärungen wurden als "darwinistisch" verteidigt, neutrale Erklärungen schienen für viele in Widerspruch mit "Darwins Theorie" zu stehen. Wie sollte eine hauptsächlich neutrale Variabilität das "Substrat" für die allgemeine akzeptierte Evolution durch natürliche Selektion liefern?

Natürlich waren auch die Vertreter der neutralen Erklärungsversuche (wie Lewontin) im weiteren Sinne "Darwinisten", sie vertraten meist die Auffassung, dass selbst der in ihren Modellen unbedeutende kleine Teil der selektierten Merkmale ausreiche um "darwinistische" Evolution zu ermöglichen.

Eine weitere Warnung ist bei der Diskussion über sie neutrale Theorie angebracht:
Sie betrachtet speziell molekulare Polymorphismen. Grundlage dafür ist die Annahme, dass negativ selektierte Allele so schnell den Extremzustand "Verlust des Alles aus der Population" anstreben, dass sie zu vernachlässigen sind. Es ist nach diesen Annahmen einfach unwahrscheinlich, dass man gerade in dem kurzen Moment, in dem ein selektierter Locus in der Population polymorph ist die Daten erhebt. (Würde mann nur innerhalb der Population einer Art arbeiten könnte man in der neutralen Theorie auch ohne weiteres positive Selektion zulassen, schließlich würde das gleiche schnelle "Anstreben des Extremzustandes", diesmal der Fixierung auch für positive selektierte Allele zutreffen, die neutrale Theorie kann positive Selektion aber nicht zulassen, da sie auch einen Zusammenhang zwischen der Sequenz-Divergenz zwischen Arten und der Zeit seit der Divergenz vorhersagt, darauf werde ich noch eingehen).

Und eine weiter Warnung, dass die Theorie auf molekularer Ebene anzuwenden ist: Würde man phänotypische Merkmale, die zum Großteil von mehreren Genen kontrolliert werden, betrachten, müsste man auch Effekte der (nicht vollständigen) Erblichkeit dieser Merkmale und Interaktion mehrerer Loci bei ihrere Erzeugung mit einbeziehen. Solche Aspekte sind nicht Teil der neutralen Theorie, sondern der quantitativen Genetik.

Nach dieser langen Einleitung zurück zum besprochenen Paper. Nei und Graur untersuchten also ob der beobachtete Grad des Polymorphismus, der in Allozym-Studien als Heterozygotie (=Gendiversität; H) für einen Locus angegeben wird, den Voraussagen der neutralen Theorie entspricht. Sie wählten dafür Daten für 341 Spezies aus 77 Studien, in denen die Heterozygotie für mindestens 10 individuelle Genomen an 20 Protein-Loci ermittelt wurden.

Die Voraussagen der neutralen Theorie sind nun folgende:
  1. Die beobachtete mittlere Heterozygotie (über alle Loci) nimmt mit steigender Populationsgröße zu.
  2. Die beobachtete mittlere Heterozygotie ist gleich oder kleiner als der durch Formel [8] gegebene Erwartungswert.

Die effektive Populationsgröße (Ne) in Formel [8] muss man durch die Populationsgröße (N) ersetzen, da Ne nicht direkt messbar oder schätzbar ist.

Die erste Aussage basiert auf einer angenommenen Korrelation von Ne und N, diese reicht aus um nicht nur für Ne sondern auch für N eine positive Regression mit der Heterozygotie vorauszusagen.
Anders bei der zweiten Aussage: Das "oder kleiner" resultiert daraus, dass die effektive Populationsgröße (Ne) jeweils kleiner oder gleich der aktuellen Populationsgröße (N) ist. Muss man nun also Ne durch N ersetzen, ergibt die Formel keinen exakten Erwartungswert, sondern erlaubt nur das genannte "kleiner gleich".

Für alle 77 in die Analyse einbezogenen Studien mussten Nei und Graur nun also die Populationsgröße der jeweils zugrunde liegenden 341 Spezies abschätzen. Sie beschreiben für einzelne Spezies genau wie sie dies anstellten: Mit viel Sachverstand und Pedanterie...

Die erste Voraussage bewahrheitete sich im analysierten Datensatz oder wie die beiden Autoren etwas wissenschaftlicher schreiben: "Die erste neutrale Null-Hypothese konnte nicht abgelehnt werden". Die Regression von Populationsgröße (N) und Heterozygotie (H) war signifikant und der Regressionskoeffizient r = 0.65 sagt, dass 65% der Varianz in H oder N durch Covarianz von H und N erklärbar ist. Eine erstaunlich gute Regression, bedenkt man, dass N nur eine Schätzung und obendrein ein Ersatz für Ne ist.

Die zweite Aussage machte etwas mehr Probleme: Für zwei der 341 Spezies musste "diese Nullhypothese zunächst abgelehnt werden", sie zeigten signifikant höhere Diversität als vorausgesagt.
Die Ausreißer waren Drosophila engyochracea und D. mimica, hawaiianische Fruchtfliegen-Arten.

Für diese drei Spezies testeten die beiden Autoren alternative Hypothesen. Sie nahmen dazu die Verteilung der Allelfrequenzen genauer unter die Lupe. Diese entspricht in den zwei Spezies der unter Neutralität angenommenen Verteilung. De Facto erwartet man bei einer auf Overdominance basierenden Alternativhypothesen nicht die beobachtete Verteilung: In dieser sind die meiste Loci nicht polymorph und die Allelfrequenzen der polymorphen Loci gleichmäßig zwischen 0 und 1 verteilt (U-Form der Verteilung). Ovedrdominance wurde eine Clustern der Frequenzen um 0.5 produzieren.

In einer ausführlichen Diskussion stellen Nei und Graur dann dar warum eine heterogene Umwelt mit vielen verschiedenen Nischen nicht in der Lage ist über Adaptation an einzelne Nischen Variabilität zu erzeugen. Kurz gesagt lassen dies Genfluss, mendelsche Vererbung und finite Populationsgrößen in realistischen Modellen nicht zu.

Aus dem selben Grund aus dem die neutrale Theorie vorteilhafte Mutationen ignorieren kann, können sie auch nicht für den beobachteten Polymorphismus verantwortlich sein: Sie werden zu schnell fixiert. Dies mag zunächst wie ein Zirkelschluss erscheinen, allerdings sagen alle plausiblen Modelle für eine Fixierung von positiv selektierten Allelen eine extrem schnelle Fixierung voraus.
Würde man extrem kleine Selektionsvorteile und hohe Mutationsraten annehmen, könnte man zwar die beobachtete Variabilität erreichen, solche Prozesse würden dann aber zwischen Arten zu hohe Substitutionsraten ergeben. Substitution ist die Fixierung eines neuen Allels, wie sei nach einer Divergenz zweier Arten beobachtet wird. Da solche Substitutionsraten für phylogenetischen Studien benutzt werden, sind sie bekannt und man weiss, dass sie über den gesamten "Baum des Lebendigen" in der gleichen Größenordnung liegen.

Die beiden Autoren schließen, dass eine neutrale Erklärung auch für die beiden Ausreißer in Betracht kommt, da spezielle für diese Arten die Abschätzung der Populationsgröße sehr schwierig war und möglicherweise N schlicht unterschätzt wurde, was dann zu zu niedrigen Werten für die erwartete Diversität erbrachte.
Die Daten scheinen also mit der neutralen Theorie der molekularen Evolution gut übereinzustimmen.

Zu den Problemen der Neutralen Theorie komme ich erst im nächsten Post. Würde ich auf Englisch schreibe, hätte ich dafür auch schon einen Titel:
"The mean is not the message: The overdispersion of the molecular clock".
_____________________________________________________________________________________________________________________________________________________________
Masatoshi Nei, Dan Graur (1984). Extent of protein polymorphism and the neutral mutation theory Evolutionary biology Link(kein DOI zu finden)

Kommentare:

Argent23 hat gesagt…

Wow, genialer Post! Für mich der spannendste in der Serie bisher - mal sehen ob du das Niveau halten kannst ;-)

Und wie ich gesehen hab ziehst du mittlerweile schon internationales Publikum an!

Ingo Bading hat gesagt…

Wie ist das: Wenn ich hier die Argumentation auf gruppenselektionistischer Basis mit in Rechnung stelle, könnte ich sagen: Populationen mit größerer genetischer Vielfalt können sich leichter an veränderte Selektionsdrücke anpassen als Populationen mit geringerer genetischer Vielfalt.

Darum sind Populationen mit zu geringer genetischer Vielfalt im Verlauf der Evolution häufiger ausgestorben als Populationen mit größerer genetischer Vielfalt.

Deshalb finden wir heute zumeist größere genetische Vielfalt vor. Vielleicht sogar je nach den langfrisitigeren Überlebensbedignungen von Populationen in unterschiedlicher Stärke.

---

Aber noch mal eine grundsätzlichere Frage: Es GIBT ja definitiv auch selektionsneutrale Mutationen im menschlichen Genom, soweit wir das bis heute vermuten können, oder etwa nicht? Waren nicht der Ausgangspunkt von Motoo Kimura eben diese selektionsneutralen Nonsense-Mutationen im Genom, also außerhalb der die Funktionsbereiche von Proteinen kodierenden Genomabschnitte und (wie wir heute wissen) außerhalb der die Ablesung von Genen steuernden Genomabschnitte.

Das sind doch die eigentlich "neutralen" Mutationen. Das muß man sich doch erst mal klarmachen, damit man überhaupt den Ansatzpunkt von Motoo Kimura versteht. Oder?

derele hat gesagt…

@Argent23:

Ich werd's versuchen.

Ich hab gestern auch gesehen, dass Michael White auf Adaptive Complexity meinen Blog erwähnt hat...
das meinst du doch, oder?

@Ingo:

Ich denke aus mehreren Gründen kann der von dir vorgeschlagene Variabilität erzeugende Gruppenselektions-mechanismus nicht funktionieren:

Variabilität entsteht in einem Gleichgewichtszustand, dieser wird durch Demographie, Selektion (auf Individuenebene), Migration und Mutation beeinflusst.

Kleinere Populationen sind zwar auch weniger variabel, sie sterben aber einfach dadurch schneller aus, dass sie kleiner sind.
Würde die in deinem Kommentar dargestellte Gruppenselektion eine Rolle spielen durfte es nur noch große Populationen geben, schließlich hätten sie einen Vorteil gegenüber kleinen.
Wie würde die Selektion Populationen grösser machen? Indem sie die Individuen kleiner und die Generationszeiten kürzer macht.
Das Gegenteil ist entlang der meisten Linien der Fall: "Phylogenetic size increase", häufig bis zum Aussterben (möglicherweise durch die dadurch kleiner werdende Populationsgröße- ich meine das ist eine Gould-Hypothese).

Mutatorgene, die die Mutationsrate und damit die Variabilität auf Populationsebene erhöhen würden werden auf der Ebene des Individuums (oder Gens, wie du willst) zu sehr negativ selektiert, als dass sie in der Population bleiben könnten um dann diese als Gruppe anderen Gruppen gegenüber überlegen zu machen.

Und das denke ich der entscheidende Schwachpunkt deiner Hypothese: Variabilität als solches hat keine genetische Grundlage, sie ist eher ein übergelagertes Prinzip, der vorgeschlagene Mechanismus daher "naive" Gruppenselektion..
---

Motoo Kimura hat seine Theorie tatsächlich primär entwickelt um Variabilität in hoch konservierten Proteinen zu erklären.

Nicht kodierende DNA und Variabilität in dieser war damals meines Wissens noch nicht bekannt, oder spielte zumindest in diesem Forschungsfeld keine Rolle.

Heute weis man, dass ~95% des menschlichen Genoms unter Selektionsdruck stehen. Mutationen werden zum überwiegenden Teil negativ selektiert.
Warum? Darüber wird viel spekuliert...
...auch ernsthaft, nicht nur auf unterstem "Junk erklärt Komplexität Niveau".

dvizard hat gesagt…

Interessanter Post! Ich muss mich darauf achten, keinen Beitrag der Serie zu verpassen, in letzter Zeit vernachlässige ich meine Blogroll ein wenig...
Eine Frage aber, nur halb zum Thema (dazu noch: ich hatte nur sehr grundlegende Vorlesungen in Populationsgenetik):
Die Theorien sagen eine schnelle Fixierung von positiven Mutationen voraus? Das ist etwas, was ich mir intuitiv überhaupt nicht vorstellen kann, wie eine nur leicht vorteilhafte Mutation in kurzer Zeit die andere vollständig verdrängen könnte...

derele hat gesagt…

Theorien, die die Geschwindigkeit einer Fixierung unter positiver Selektion voraussagen sind mathematisch sehr kompliziert.

Ich hab gerade eine Tabelle gefunden, die sagt:

In einer haploiden Population dauert es ca. 9000 Generationen von einer Frequenz von 0.01 bis zu einer von 0.99 bei einem Selektionskoeffizienten von s= 0.001. Gleiches gilt für Diploide, wenn die Mutation keine Dominanz hat (die Zeit einfach mal zwei).


Bei diploiden mit einer Mutation mit Dominanz wirds schwieriger:

Dominante Mutationen nehmen erst schnell in der Frequenz zu, dann aber sehr sehr langsam je höher die Frequenz wird.

Genau umgekehrt rezessive. Erst sehr sehr langsam, dann schneller.

Von 0.01 bis 0.99 (bei s=0.001) dauert es dann in beiden Fällen ca. 107000 Generationen. Das würde ich nur "relativ" schnell nennen.

Unter einer Frequenz von 0.01 und über 0.99 wird's wahrscheinlich noch komplizierter...wahrscheinlich kommt es da dann auch wieder auf N und stochastische Effekte an.

Ich hoff ich kann das Thema mal in nen Post packen, ist spannend...

derele hat gesagt…

Ich hatte einen kleinen Fehler in meinem Post:


Nei und Graur benutzten Daten von 341 Spezies aus 77 Studien. Ich hatte nur die 77 Studien erwähnt... und einmal sogar fälschlich 77 Arten geschrieben...