Change of language, change of content

From now on this blog is about my adventures in bioinformatics and in the use of open source software:
The code is bash, perl, R -especially sweave/noweb-, LaTeX and my lovely, beastly OS editor`s (Gnu-Emacs) elisp.

I will publish code snippets and short comments in English language. You con read about the same and my other more biology focussed interests in German on Alles was lebt.
Posts mit dem Label Population genetics werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Population genetics werden angezeigt. Alle Posts anzeigen

Dienstag, 20. Januar 2009

Protein-Polymorphismus und die neutrale Theorie

ResearchBlogging.orgWie ich in früheren Posts bereits angedeutet habe, wurde in der Zeit bevor man schnell und günstig DNA sequenzieren konnte hauptsächlich eine auf Verschiedenheiten in Enzymen basierende Methode verwendet um Variabilität innerhalb von Populationen zu untersuchen. Masatoshi Nei und Dan Graur haben zu den so gewonnenen Daten, eine sehr fundierte und gut zu lesende Metaanalyse durchgeführt; sozusagen das letzte Wort zu diesen Daten in der Populationsgenetik...

Sogenannte Allo(en)zyme katalysieren sehr grundlegende Stoffwechselprozesse und sind daher hoch konserviert, d.h in fast allen Lebewesen sind Orthologe vorhanden. Zerkleinert man gesamte Organismen, und lässt den entstehenden "Brei" in einem elektrischen Feld durch eine Gel laufen (Gelelektrophorese) trennen sich die Proteine, wie die interessierenden Enzyme, gemäß ihrer Ladung auf. Die dazu verwendeten Stärkegele werden dann mit dem Substrat für eines der Allozyme und einem Farbstoff, der ausfällt, wenn die entsprechende Reaktion stattfindet, gefärbt. Mit dieser Methode sind in dem meisten Organismen etwas mehr als 20 Enzyme analysierbar.
Auf den ersten Blick erscheinen diese evolutionär konservierten Moleküle aber nicht besonders geeignet um Unterschiede innerhalb einer Art auf Populationsebene zu untersuchen. Eine erstaunliche Entdeckung war daher, dass solche Enzyme innerhalb einer Art oft in unterschiedlichen Allelen vorkommen, sichtbar als unterschiedliche weit gelaufene Banden im Gel.
Seit Anfang der 1960 resultierte dies in einer Fülle von Studien, die diese Methode zur Anwendung brachten und für experimentell arbeitende Populationsgenetiker "find it, grind it" zur Losung machten.

Die Entwicklung der neutralen Theorie ist daher auch im Licht der so gewonnenen Daten zu sehen. Warum gibt es diese Variabilität in natürlichen Populationen? Wer seine Fliegen mit etwas Hintergrundwissen zerrieb, musste eine neutrale Erklärung in Betracht ziehen.

Schon vor der Untersuchung dieser ersten molekularen Polymorphismen war der Grad der innerhalb einer Art beobachteten Variabilität das beherrschende Thema der Populationsgenetik. Warum kommt es durch Selektion nicht zu einer vollständigen Optimierung des Phänotypes und damit zu einem Verschwinden der Variabilität?

Es können zwei Gruppen von Hypothesen getestet werden, die dieses Phänomen erklären könnten:

Zum Ersten die neutrale Erklärung: Es könnte einfach keine Selektion auf die interessierenden Merkmale gegeben sein und daher könnten zwei Allele durch Zufall zum gegebenen Zeitpunkt vorhanden sein.

Zum Anderen "selektionistische" Erklärungen, d.h. Selektion selbst könnte zwei unterschiedlich Merkmale begünstigen. Dies wird "balancing selection" genannt. Ein Paradebeispiel hierfür stellt Häufigkeits-abhängige Selektion dar. Spezielle Merkmale werden positiv selektiert weil sie selten sind, wird das entsprechende Allel häufiger, verschwindet dieser Vorteil und das alternative Allel hat den Vorteil. Der große Polymorphismus bei MHC Allelen lässt sich so beispielsweise sehr schlüssig mit Häufigkeits-abhängiger Selektion erklären.
Eine weitere "selektionistische" Erklärung wäre "Overdominance", dabei haben Heterozygote eine größere Fitness als die beiden möglichen Homozygoten, daher hält die Selektion beide Allele in der Population.

Betrachtet man die Theorien ohne jegliche Daten, muss man feststellen, dass die neutrale Erklärung die sparsamere und daher -falls sie ausreicht- bessere ist. Die auf Selektion basierenden Erklärungen sind etwas umständlicher wurden aber von vielen Biologen bevorzugt, da man neutrale Erklärungen oft als unschön empfand. Die selektionistischen Erklärungen wurden als "darwinistisch" verteidigt, neutrale Erklärungen schienen für viele in Widerspruch mit "Darwins Theorie" zu stehen. Wie sollte eine hauptsächlich neutrale Variabilität das "Substrat" für die allgemeine akzeptierte Evolution durch natürliche Selektion liefern?

Natürlich waren auch die Vertreter der neutralen Erklärungsversuche (wie Lewontin) im weiteren Sinne "Darwinisten", sie vertraten meist die Auffassung, dass selbst der in ihren Modellen unbedeutende kleine Teil der selektierten Merkmale ausreiche um "darwinistische" Evolution zu ermöglichen.

Eine weitere Warnung ist bei der Diskussion über sie neutrale Theorie angebracht:
Sie betrachtet speziell molekulare Polymorphismen. Grundlage dafür ist die Annahme, dass negativ selektierte Allele so schnell den Extremzustand "Verlust des Alles aus der Population" anstreben, dass sie zu vernachlässigen sind. Es ist nach diesen Annahmen einfach unwahrscheinlich, dass man gerade in dem kurzen Moment, in dem ein selektierter Locus in der Population polymorph ist die Daten erhebt. (Würde mann nur innerhalb der Population einer Art arbeiten könnte man in der neutralen Theorie auch ohne weiteres positive Selektion zulassen, schließlich würde das gleiche schnelle "Anstreben des Extremzustandes", diesmal der Fixierung auch für positive selektierte Allele zutreffen, die neutrale Theorie kann positive Selektion aber nicht zulassen, da sie auch einen Zusammenhang zwischen der Sequenz-Divergenz zwischen Arten und der Zeit seit der Divergenz vorhersagt, darauf werde ich noch eingehen).

Und eine weiter Warnung, dass die Theorie auf molekularer Ebene anzuwenden ist: Würde man phänotypische Merkmale, die zum Großteil von mehreren Genen kontrolliert werden, betrachten, müsste man auch Effekte der (nicht vollständigen) Erblichkeit dieser Merkmale und Interaktion mehrerer Loci bei ihrere Erzeugung mit einbeziehen. Solche Aspekte sind nicht Teil der neutralen Theorie, sondern der quantitativen Genetik.

Nach dieser langen Einleitung zurück zum besprochenen Paper. Nei und Graur untersuchten also ob der beobachtete Grad des Polymorphismus, der in Allozym-Studien als Heterozygotie (=Gendiversität; H) für einen Locus angegeben wird, den Voraussagen der neutralen Theorie entspricht. Sie wählten dafür Daten für 341 Spezies aus 77 Studien, in denen die Heterozygotie für mindestens 10 individuelle Genomen an 20 Protein-Loci ermittelt wurden.

Die Voraussagen der neutralen Theorie sind nun folgende:
  1. Die beobachtete mittlere Heterozygotie (über alle Loci) nimmt mit steigender Populationsgröße zu.
  2. Die beobachtete mittlere Heterozygotie ist gleich oder kleiner als der durch Formel [8] gegebene Erwartungswert.

Die effektive Populationsgröße (Ne) in Formel [8] muss man durch die Populationsgröße (N) ersetzen, da Ne nicht direkt messbar oder schätzbar ist.

Die erste Aussage basiert auf einer angenommenen Korrelation von Ne und N, diese reicht aus um nicht nur für Ne sondern auch für N eine positive Regression mit der Heterozygotie vorauszusagen.
Anders bei der zweiten Aussage: Das "oder kleiner" resultiert daraus, dass die effektive Populationsgröße (Ne) jeweils kleiner oder gleich der aktuellen Populationsgröße (N) ist. Muss man nun also Ne durch N ersetzen, ergibt die Formel keinen exakten Erwartungswert, sondern erlaubt nur das genannte "kleiner gleich".

Für alle 77 in die Analyse einbezogenen Studien mussten Nei und Graur nun also die Populationsgröße der jeweils zugrunde liegenden 341 Spezies abschätzen. Sie beschreiben für einzelne Spezies genau wie sie dies anstellten: Mit viel Sachverstand und Pedanterie...

Die erste Voraussage bewahrheitete sich im analysierten Datensatz oder wie die beiden Autoren etwas wissenschaftlicher schreiben: "Die erste neutrale Null-Hypothese konnte nicht abgelehnt werden". Die Regression von Populationsgröße (N) und Heterozygotie (H) war signifikant und der Regressionskoeffizient r = 0.65 sagt, dass 65% der Varianz in H oder N durch Covarianz von H und N erklärbar ist. Eine erstaunlich gute Regression, bedenkt man, dass N nur eine Schätzung und obendrein ein Ersatz für Ne ist.

Die zweite Aussage machte etwas mehr Probleme: Für zwei der 341 Spezies musste "diese Nullhypothese zunächst abgelehnt werden", sie zeigten signifikant höhere Diversität als vorausgesagt.
Die Ausreißer waren Drosophila engyochracea und D. mimica, hawaiianische Fruchtfliegen-Arten.

Für diese drei Spezies testeten die beiden Autoren alternative Hypothesen. Sie nahmen dazu die Verteilung der Allelfrequenzen genauer unter die Lupe. Diese entspricht in den zwei Spezies der unter Neutralität angenommenen Verteilung. De Facto erwartet man bei einer auf Overdominance basierenden Alternativhypothesen nicht die beobachtete Verteilung: In dieser sind die meiste Loci nicht polymorph und die Allelfrequenzen der polymorphen Loci gleichmäßig zwischen 0 und 1 verteilt (U-Form der Verteilung). Ovedrdominance wurde eine Clustern der Frequenzen um 0.5 produzieren.

In einer ausführlichen Diskussion stellen Nei und Graur dann dar warum eine heterogene Umwelt mit vielen verschiedenen Nischen nicht in der Lage ist über Adaptation an einzelne Nischen Variabilität zu erzeugen. Kurz gesagt lassen dies Genfluss, mendelsche Vererbung und finite Populationsgrößen in realistischen Modellen nicht zu.

Aus dem selben Grund aus dem die neutrale Theorie vorteilhafte Mutationen ignorieren kann, können sie auch nicht für den beobachteten Polymorphismus verantwortlich sein: Sie werden zu schnell fixiert. Dies mag zunächst wie ein Zirkelschluss erscheinen, allerdings sagen alle plausiblen Modelle für eine Fixierung von positiv selektierten Allelen eine extrem schnelle Fixierung voraus.
Würde man extrem kleine Selektionsvorteile und hohe Mutationsraten annehmen, könnte man zwar die beobachtete Variabilität erreichen, solche Prozesse würden dann aber zwischen Arten zu hohe Substitutionsraten ergeben. Substitution ist die Fixierung eines neuen Allels, wie sei nach einer Divergenz zweier Arten beobachtet wird. Da solche Substitutionsraten für phylogenetischen Studien benutzt werden, sind sie bekannt und man weiss, dass sie über den gesamten "Baum des Lebendigen" in der gleichen Größenordnung liegen.

Die beiden Autoren schließen, dass eine neutrale Erklärung auch für die beiden Ausreißer in Betracht kommt, da spezielle für diese Arten die Abschätzung der Populationsgröße sehr schwierig war und möglicherweise N schlicht unterschätzt wurde, was dann zu zu niedrigen Werten für die erwartete Diversität erbrachte.
Die Daten scheinen also mit der neutralen Theorie der molekularen Evolution gut übereinzustimmen.

Zu den Problemen der Neutralen Theorie komme ich erst im nächsten Post. Würde ich auf Englisch schreibe, hätte ich dafür auch schon einen Titel:
"The mean is not the message: The overdispersion of the molecular clock".
_____________________________________________________________________________________________________________________________________________________________
Masatoshi Nei, Dan Graur (1984). Extent of protein polymorphism and the neutral mutation theory Evolutionary biology Link(kein DOI zu finden)

Sonntag, 30. November 2008

Google und die deutsche Evolutionsbiolgie

Zu meinem großen Erstaunen konnte ich eben feststellen, dass ich für den Suchbegriff

Die nahezu neutrale Theorie der molekularen Evolution



den Top-Hit von insgesamt 4010 Treffern auf Google habe. Die äquivalente Englischsprachige Suche ergibt 31300 Treffer mit einem Wikipedia-Eintrag an erster Stelle.

Sehr beunruhigend ist, dass kreationistische Texte wie das deutschen Intelligent-Design Lehrbuch "Evolution, ein kritisches Lehrbuch" von Reinhard Junker und Siegfried Scherer und eine positive Rezension zu diesem, zwei der ersten zehn Plätze einnehmen. Ein dritter Platz unter den ersten zehn bei dieser Suche geht an www.kritische-naturgeschichte.de, eine wissenschaftsfeindliche deutsche Seite, die - scheinbar ideologisch unabhängig - versucht die wissenschaftliche Methode als unanwendbar in der Biologie darzustellen.

Nach der ersten Freude über die Google-Suche, bin mir meiner Verantwortung bewusst, die "Fackel der Aufklärung" im deutschsprachigen Raum hochzuhalten.

Populationsgenetik Serie: Organisatorisches

Ich werde hier in den nächsten Wochen und Monaten hauptsächlich über Populationsgenetik schreiben. Die betreffenden Posts tragen das entsprechende Label. Meine Motivation und meine generellen Hauptquellen dazu beschreibe ich in diesem Eröffnungspost.

Die Posts werden sich in vier Kategorien gliedern:
  1. Grundlagen [Beispiel]
  2. Kernkonzepte, Modelle und Theorien [Beispiel]
  3. Paperdiskussion [Beispiel]
  4. Nebensächliches [Beispiel]
In allen Posts erhalten Formel fortlaufenden Nummer in eckigen Klammern. Wird später auf die Formel verwiesen ist auf dieser Zahl ist ein Link zum betreffenden Post platziert z.B. [6].
Gleiches gilt für Grafiken, die in geschweiften Klammern beschriftet werden z.B. {2}.

Grafiken werden von mir selbst mit Hilfe von R erstellt. Am Ende von Post, die mehr oder weniger aufwändige Plots enthalten wird der Leser einen Link zu einem funktionierenden R-script finden. Der Text aus diesen Google-Docs kann in einen Texteditor kopiert, modifiziert und danach in R zum erstellen eigener Grafiken benutzt werden.
Ich möchte dem interessierten Leser so die Möglichkeit geben selbst etwas mit den Formeln zu spielen und gleichzeitig -mit mir zusammen- einen Einstieg in R zu finden.

Ein Einführung in Populationsgenetik mit Hilfe von R - Eine Einführung in R mit Hilfe von Populationsgenetik.

Viel Spass!

Die Populationsgenetik Serie zieht um! Da die Beiträge untereinander sehr stark verknüpft sind und die Serie andernorts fortgesetzt wird, werde ich alle Posts der Serie in den nächsten Tagen auf den neuen Blog Alles was lebt bringen.

Die nahezu neutrale Theorie der molekularen Evolution

Eine elegante Erweiterung der neutralen Theorie haben Kimura und Ohta in den späten 1980ern entwickelt. Sie haben folgende die Gleichung für die Fixierungswahrscheinlichkeit von Mutationen, die schwach selektiert werden gefunden:

[9]

s ist dabei der sogenannte Selektionskoeffizient relativ zur durchschnittlichen Fitness. In dem zugrunde liegenden Modell hat das in der Population bereits vorhandene Allel die Fitness 1, Homozygote für die neue Mutation haben die Fitness 1+s, Heterozygote 1+s/2.
Folgendes Schaubild zeigt den Einfluss der Populationsgröße auf die Effektivität der Selektion. Der Selektionskoeffizient s ist dabei von -0.02 (2% schlechtere Fitness/Fortpflanzungswahrscheinlichkeit der Homozygoten für die Mutation, 1% der Heterozygoten ) bis 0,01 (1% besseres Abschneiden der Homozygoten, 0,5 der Heterozygoten) aufgetragen.


{2}

Deutlich wird, dass in grösseren Populationen die Selektion wirksamer ist. Nes sollte um die Formel interessant zu machen in der Nähe von 1 liegen, der von mir angenommene Selektionskoeffizient von -0.02 bis 0.01ist vergleichsweise groß und daher gibt die Formel für eher kleine Werte von N interessante Graphen. In realistischeren Situationen wird die Formel wohl eher bei um einige Zehnerpotenzen größeren Populationen angewandt deren Selektionskoeffizient um einige Zehnerpotenzen kleiner sind.
Schön zu sehen ist auch dass die Formel "im Limit" (s=0) die gleichen Werte gibt wie Formel [1].

Die R-Befehle gibt es hier als googledoc. Einfach in eine Textdatei einfügen.
Das ganze als deinscript.R speichern. In R erzeugt das script mit source("deinpfad/deinscript.R") den Plot dieses Posts mit dem Namen nearlyneutralauto.jpg in dem Ordner in dem du R gestartet hast.

Die neutrale Theorie der molekularen Evolution, Teil 2

Vielleicht ist es jemandem aufgefallen: Die Teilaspekte der neutrale Theorie, die ich im ersten Post vorgestellt hatte erlauben nicht unbedingt viele Voraussagen und wären zu Kimuras Zeit, vor Entwicklung der DNA-Sequenzierung, in dieser Form untestbar gewesen.

Wie ich bereits angedeutet habe hat die Theorie auch einen mathematisch etwas schwierigen Teil: Formel, die von Kimura aus Diffusionsgleichungen ableitete, da Mutationen ähnlich diesem physikalischen Prinzip in die Population "diffundieren". Für die durchschnittliche Zeit zwischen dem entstehen der Mutation und ihrer Fixierung konnte er 4Ne Generationen ermitteln.
Mutationen, die zum verschwinden verurteilt sind tun dies dagegen im Durchschnitt innerhalb von

[6]

Generationen.
Mutationen die verloren gehen tun dies als in wesentlich kürzerer Zeit, als solche die fixiert werden.

Nehmen wir nen weiter ein Modell mit unendlich vielen verschiedenen möglichen Allelen an, gibt

[7]

die erwartete Homozygotie unter Neutralität in einem Gleichgewichtszustand von Mutation und Verlust der Mutationen durch Drift. u ist dabei die wieder die neutrale Mutationsrate. Die Formel hat eine schöne Herleitung auf die ich in späteren Posts zurückkommen werde, da dafür noch weitere Konzepte erklärt werden müssen.
Homozygotie beschreit den Zustand eines Locus (Genort) an dem nur eine Allel in der Population vorhanden ist. Dieser "Zustand" ist heute erkennbar indem man den betreffenden Locus für genügend Individuen der Population sequenziert, diese Technik war allerdings erst seit den achtziger Jahren verfügbar und auch bis in die neunziger für eine breite Anwendung noch zu teuer und arbeitsaufwändig.
Man hat nun bereits zu Kimuras Zeit festgestellt, dass diese Voraussagen über Homozygotität für anhand von Allozym -Polymorphismen gewonnenen Daten nicht immer mit der Realität übereinstimmen. Allozyme waren in der Zeit nach der Entwicklung der Populationsgenetik lange Zeit das einzige Werkzeug um Einblicke in die Genetik jenseits von morphologischen, diskreten Merkmalen, wie sie Mendel benutzt hatte, zu erlangen. Ich sollte ihnen einen eigenen Post widmen...

Für die meisten Daten wird aus historischen Gründen, die wir noch kennen lernen werden, eher die die Heterozygotie als die Homozygotie angegeben. Da jeder Lokus entweder im einen oder im anderen Zustand vorliegt, ist der Zusammenhang zwischen beiden Messwerten aber ein einfacher: Die Heterozygotie (H) ist 1- die Homozygotie. Deshalb ist die einfache Umformung von Formel [7]:

[8]

Im nächsten Post werde ich zunächst auf die nahezu neutrale Version der Theorie eingehen, dann sind die Grundlagen vorhanden um einige Veröffentlichungen -auch aktuelle- zu besprechen.

Samstag, 29. November 2008

Grundlagen: Effektive Populationsgröße

Wie wir im ersten Post über die neutrale Theorie gesehen haben spielt bei Zufallsprozessen, wie genetischem Drift (der zufälligen Fixierung bestimmter Allele) , die Populationsgröße eine Rolle. Wir haben für diesen ersten Teil dieser Theorie lediglich die aktuelle Populationsgroesse N betrachtet, diese kann man "einfach" durch "zählen" der betreffenden Individuen der Population bestimmen. Dies funktioniert leider nur auf Kosten mehrerer Voraussetzungen, wie gleichbleibender Populationsgröße und zufälliger Paarung.
Wollen wir unsere Modelle nun aber auf realistischere Systeme anwenden, brauchen wir das Konzept der effektiven Populationsgröße(Ne).

Viele Population haben beispielsweise eine ungleiche Anzahl sich fortpflanzender Männchen und Weibchen. Dies ist bei starker männlicher Konkurrenz um die Weibchen der Fall, wo sich in jeder Generation nur ein Bruchteil der Männchen fortpflanzen.
In diesem Fall ist

[3]

Wobei Nm die Anzahl der sich fortpflanzenden Männchen, Nf die Anzahl der sich fortpflanzenden Weibchen ist.
Spielt man etwas mit dieser Formel, wir beim Einsetzen von Werten sehr schnell deutlich, dass wenn Nm sehr viel größer als Nf der Wert für Ne eher in der Nähe des kleinen Wertes liegt. Dies macht Sinn, da durch die wenigen sich paarenden Männchen in jeder neuen Generation eine Art Flaschenhals ensteht: Die Hälfte der autosomal weitergegebenen Allele wird durch einen kleinen Bruchteil der Individuen weitergegeben.

Ähnliches gilt aus den gleichen Gründen, wenn sich einzelne Individuen -unabhängig vom Geschlecht- sehr unterschiedliche Nachkommenzahlen haben, dann ist

[4]

wobei Vk die Varianz in der Nachkommenzahl ist. Da bei gleichbleibender Populationsgröße (bisher immer noch eine Ausgangsannahme) durchschnittlich zwei Nachkommen pro Elternteil entstehen, ist die Nachkommenanzahl bei zufälliger Fortpflanzung Poisson-verteilt mit einem Mittelwert und einer Varianz von 2. Größere Varianzen lassen in obiger Formel Ne kleiner als N werden.

Doch was passiert wenn sich die Populationsgröße über die Zeit ändert? Ganz einfach

[5]

d.h. Ne ist das harmonische Mittel der Populationsgrößen in n Generationen.

Ähnliche Gleichungen für die effektiven Populationsgrößen kann man auch für andere Abweichungen wie überlappende Generationen finden. In der Regel ist dabei die effektiven Populationsgröße kleiner als die aktuelle Populationsgröße.

Ausgerüstet mit diesem Handwerkszeug können wir uns nun Problemen widmen, die weniger strenge Annahmen verlangen.

Mittwoch, 26. November 2008

Die neutrale Theorie der molekularen Evolution

Meine erstes Thema wird die Ausbreitung von Mutationen innerhalb einer finiten Population sein.

Motoo Kimura entwickelte seine Theorie dazu in den 1960er bis 1980er Jahren ausgehend von Anwendungen von Diffusions Approximationen auf genetische Fragestellungen, an denen zuvor R.A.Fisher und S. Wright gearbeitet hatten. Die Herleitung der Formeln übersteigt dabei mein mathematisches Verständnis. Die Theorie (und ihre nahezu neutrale Erweiterung) ist aber eine der elegantesten in der Biologie und daher auch intuitiv verständlich.
Ich versuche deshalb nur ihre Grundzüge ohne Anspruch auf Vollständigkeit darzustellen, zu zeigen welche Annahmen benötigt werden und welche Vorhersagen dies erlaubt. Bewusst wähle ich diesen Ansatz mit einer der mathematisch komplexesten Theorien zu starten (in den folgenden Posts kann es also nur einfacher werden) und werde später bei mathematisch einfacheren Theorien mehr auf Herleitung und Entwicklung der Formeln eingehen.

Hauptsächlich interessiert mich im aktuellen Post die Fixierungswahrschheinichkeit eines Allels (Ausprägungszustand eines Gens), oder spezieller einer neuen Mutation. Fixierung bedeutet hierbei, dass in der Population ausschließlich das betreffende Allel vorkommt. Der Verlust des Alles oder dessen Fixierung stellen Extremzustände da, die sich in einer vereinfachten Darstellung untersuchen lassen.
Hartl und Clark benutzen das Beispiel einer Bouling-Bahn in der die seitlichen Rinnen Analoga dieser Extremzustände sind. Nimmt man nun an, dass die -analog zur Zeit- unendlich lange Bahn -analog zu möglichen Zufallsereignissen- nicht perfekt eben ist- wird offensichtlich, dass jedes Allel über kurz oder lang einen dieser Extremzustände erreicht.
Wichtig ist lediglich die Breite der Bahn oder ihr biologisches Analogon, die Populationsgröße.

Wir nehmen eine diploide Population mit N Individuen an, in dieser sind 2N Kopie des interessierenden Gens vorhanden und es werden 2N Gameten für die nächste Generation gewählt , die dann wieder N Zygoten bilden (=gleichbleibende Populationsgröße und zufällige Paarung). Die Fixierunswahrscheinlickeit eines Alles ist nun gegeben durch seine aktuelle Frequenz p0/Anzahl der Kopien. Im Falle einer neuen Mutation, die per Definition nur einmal vorhanden ist

[1]

Das macht Intuitiv Sinn, da jedes Gen einen Fixierungszustand ansteuert und zum Startzeitpunkt eben 2N Alternativen gegeben sind.


{1}

Betrachtet man die aus dieser Formel resultierende Fixierungswahrscheinlichkeit für eine Mutation als Funktion der Populationsgröße wird deutlich, dass diese Wahrscheinlichkeit selbst für eine moderate Populationsgröße nicht besonders groß ist. Sie ist allerdings auch nicht 0 für große Populationen (z.B. N=1,000,000-> p= 0,0000005)

u ist die Mutationsrate mit der irgendwo im interessierenden Abschnitt des Genoms eine Mutation entsteht. Neutralität kann man nun für einen ganzen Abschnitt des Genoms, wie z.B. ein Pseudogen, annehmen oder für spezielle Mutationen, wie z.B. jene von degernerierte Basen an der dritten Stelle eines Kodons (= synonyme Mutationen).
Die Rate u, mit der die Mutationen entstehen ist nun erstaunlicherweise gleich der Rate mit der neutrale Mutationen fixiert werden K. Sie ist unabhängig von der Populationsgröße, da in großen Populationen auch mehr Mutationen entstehen.

[2]

d.h. die kleinere Fixierungswahrscheinlichkeit und die Populationsgröße heben sich gegenseitig auf. Ein Zusammenhang von mathematisch schlichter Schönheit.
Die durchschnittliche Zeit zwischen zwei Fixierungen ist dann logischerweise 1/u.

Dieses Modell passt logischerweise nicht immer zu den beobachteten Daten und ist daher sehr hilfreich als Nullhypothese um Neutralität zu testen. Es ist allerdings falsch aus abweichenden Beobachtungen auf Nicht-Neutralität zu schließen, da auch andere Voraussetzungen wie beispielsweise die gleichbleibende Populationsgröße verletzt sein können.

Folgerungen aus der neutralen Theorie der molekularen Evolution tauchen in zukünftigen Post wieder auf. In diesen werde ich näher auf den Einfluss von Selektion und damit auf die nahezu neutrale Version der Theorie eingehen, finite Populationsgrößen näher beleuchten und Zusammenhänge von Polymorphismus und Divergenz aufzeigen.

Dienstag, 25. November 2008

Populationsgenetik, Now!

Meine Serie

Dies ist ein Beitrag in einer Reihe von Posts zu Populations- und quantitativer Genetik. Es gibt im deutschsprachigen Raum meines Wissens kein Lehrbuch zu diesem Thema. Dies ist wohl eine der Folgen des zu niedrigen Stellenwertes der Evolutionsbiologie an deutschen Hochschulen, wie ihn auch der VBIO beklagt.
Eine anderer möglicher Grund für die fehlende "quantitative Tradition" in der deutschen Evolutionsbiologie ist vielleicht auch, dass der bekannteste deutschsprachige Vertreter dieser Disziplin, Ernst Mayr nicht mit mathematischen Modellen arbeitete.

Die Posts dieser Reihe werde ich hauptsächlich mit Hilfe der Bücher "Principles of population genetics" von Daniel L Hartl und Andrew G. Clark, "Quantitative genetics" von Douglas S. Falconer und Trudy F.C. Mackay schreiben. Außerdem habe ich in den letzten Monaten eine Vorlesung bei Brian Charlsworth und Peter Keightley besucht, die Skripte und Aufzeichnungen aus diesen werde ich ebenfalls konsultieren.
Trotzdem werden die Posts natürlich nur einen winzigen Einblick in das große Feld verschaffen und sicher auch Fehler enthalten.



Warum sollte man sich gerade jetzt mit Populationgenetik beschäftigen?

In einem interessanten Post auf dem Fischblog beschreibt Godwael den großen zu erwartenden Erkenntnisgewinn aus der Sequenzierung hunderter kompletter menschlicher Genome. Dabei ist mir aufgefallen, dass die theoretischen Grundlagen der Populationsgenetik im deutschsprachigen Raum wohl eher unbekannt sind.

Wie breiten sich Mutationen aus? Wie ausgeprägt sind die Einflüsse von Migration, Drift und Selektion? All diese Fragestellungen müssen nicht anhand der an kompletten Genomsequenzen gewonnenen Daten untersucht werden, sondern es existiert eine unglaubliche Fülle an Modellen, die das das Zusammenspiel dieser Faktoren testen. Natürlich ist nicht auszuschließen, dass auch neue Modele entwickelt werden müssen, das Gros der neu gewonnenen Daten passt aber zu den bestehenden Erklärungsansätzen.

Welchen Nutzen ziehen Evolutionsbiologen also aus den neu gewonnenen Genom-Daten?
Einer der Hauptnutzen besteht darin, dass sie die Suche nach den am besten passenden Modellen für bislang ununtersuchte Genombereiche erlauben. Evolviert ein Bereich des Genoms dann anders als man es unter einem bestimmten Modell erwarten würde, ist die Verwendung eines anderen Modells mit veränderten Ausgangs-Annahmen nötig. Hat man dann ein Modell gefunden das die Daten anhand der der sparsamsten Parameter (Occam's Razor) bestmöglich beschreibt generiert dies wiederum neue Hypothesen.
Beispielsweise könnte es notwendig werden über historisch noch unbekannte Migrationsbewegungen menschlicher Populationen nachzudenken oder Selektion auf einen Bereich des Genoms in Betracht zu ziehen der zuvor als neutral galt. Je nachdem was die Modelle nahelegen können so beispielsweise Hypothesen für Historiker, Zellbiologen oder Biochemiker generiert werden. Die Fähigkeit der entsprechenden Wissenschaftler diese Implikationen der Evolutionsbiologie für ihr Forschungsfeld zu verstehen wird in einigen Beriechen sicher Entdeckungen fördern. Es ist also für viele Wissenschaftler ratsam sich in nächster Zeit etwas mit theoretischer Evolutionsbiologie zu beschäftigen.