Change of language, change of content

From now on this blog is about my adventures in bioinformatics and in the use of open source software:
The code is bash, perl, R -especially sweave/noweb-, LaTeX and my lovely, beastly OS editor`s (Gnu-Emacs) elisp.

I will publish code snippets and short comments in English language. You con read about the same and my other more biology focussed interests in German on Alles was lebt.
Posts mit dem Label Statistics werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Statistics werden angezeigt. Alle Posts anzeigen

Samstag, 14. Februar 2009

A mere heart of silicon

An Darwins 200. Geburtstag vor zwei Tagen fand ich keine Zeit zu bloggen. Hier eine Erklärung dafür.
Der Titel dieses etwas verspäteten Posts, ist eine Anspielung auf das Darwins Zitat "A scientific man ought to have no wishes, no affections, -- a mere heart of stone."Das "silicon" steht für meine kürzlich entdeckte Liebe zur Bioinformatik und statistischen Datenverarbeitung.

Ich fühle mich im Moment etwas wie der Primat in 2001: A Space Odyssey, nur weniger aggressiv.



Es hat schon etwas wenn man die Herstellung von Werkzeug entdeckt, im Gegensatz zu Kubricks Primaten werde ich meine Werkzeuge Perl und R aber eher einsetzen um zu versehen, weniger um Einfluss auf meine Umwelt zu nehmen.
Besonders Perl ist dabei unglaublich nützlich. Ich empfehle jedem, der viele (schwierig das näher zu definieren) Sequenzen in seiner Arbeit anschaut sich damit zu beschäftigen. In der zweiten Wochen kann man bereits scripte schreiben, die einem die Arbeit erleichtern. Perl schreibt zum Beispiel für mich mein Laborbuch. Einfach ELKE.pl (Emanuel's Labwork Kalculating Environment) starten und die Rektionen berechnen, es entsteht Laborbuch-gerechter Output auf der Festplatt und auf Papier (zugegeben das funktioniert nur, da ich sehr repetitive Laborarbeit mache) .

Im Moment fasziniert mich auch die Hochdurchsatz-Transkriptom-Sequenzierung an sich. Aus mehreren Gründen:
Beim Annotieren der Transkripte benutzt man sogenannten Blast-Suchen, die man automatisiert mit selbst geschriebenen Perl-Programmen durchführt und auswertet. Dabei vergleicht man seine unbekannten Sequenzen mit einer Datenbank bekannter Sequenzen. Solange keine Sequenzen des eigenen Untersuchungsobjekts bekannt sind stammen diese hauptsächlich von verwandten Organismen.
Auf diese Art passiert folgendes: In der oft tausende Zeilen umfassenden Ausgabe seiner Programme findet man unzählige Namen von interessanten Tieren und Genen, die man vorher noch nicht kannte.

Dazu kommt dann auch noch das Gefühl, dass man Neuland betritt, dass man etwas sieht, was noch nie zuvor jemand gesehen hat. Das ist faszinierend: Auch wenn es nur Gene aus einem Wurm der in der Schwimmblase des Aals lebt sind.

Eigentlich wollte ich etwas mehr über Statistik und quantitative Methoden schreiben, stattdessen hab ich den bislang wahrscheinlich "wildesten" Post des Blogs verzapft: Von Darwin über Kubrick, Statistik, Programmieren und Blast bis zum Aal, das muss mir erst mal jemand nachmachen.

Dienstag, 20. Januar 2009

Protein-Polymorphismus und die neutrale Theorie

ResearchBlogging.orgWie ich in früheren Posts bereits angedeutet habe, wurde in der Zeit bevor man schnell und günstig DNA sequenzieren konnte hauptsächlich eine auf Verschiedenheiten in Enzymen basierende Methode verwendet um Variabilität innerhalb von Populationen zu untersuchen. Masatoshi Nei und Dan Graur haben zu den so gewonnenen Daten, eine sehr fundierte und gut zu lesende Metaanalyse durchgeführt; sozusagen das letzte Wort zu diesen Daten in der Populationsgenetik...

Sogenannte Allo(en)zyme katalysieren sehr grundlegende Stoffwechselprozesse und sind daher hoch konserviert, d.h in fast allen Lebewesen sind Orthologe vorhanden. Zerkleinert man gesamte Organismen, und lässt den entstehenden "Brei" in einem elektrischen Feld durch eine Gel laufen (Gelelektrophorese) trennen sich die Proteine, wie die interessierenden Enzyme, gemäß ihrer Ladung auf. Die dazu verwendeten Stärkegele werden dann mit dem Substrat für eines der Allozyme und einem Farbstoff, der ausfällt, wenn die entsprechende Reaktion stattfindet, gefärbt. Mit dieser Methode sind in dem meisten Organismen etwas mehr als 20 Enzyme analysierbar.
Auf den ersten Blick erscheinen diese evolutionär konservierten Moleküle aber nicht besonders geeignet um Unterschiede innerhalb einer Art auf Populationsebene zu untersuchen. Eine erstaunliche Entdeckung war daher, dass solche Enzyme innerhalb einer Art oft in unterschiedlichen Allelen vorkommen, sichtbar als unterschiedliche weit gelaufene Banden im Gel.
Seit Anfang der 1960 resultierte dies in einer Fülle von Studien, die diese Methode zur Anwendung brachten und für experimentell arbeitende Populationsgenetiker "find it, grind it" zur Losung machten.

Die Entwicklung der neutralen Theorie ist daher auch im Licht der so gewonnenen Daten zu sehen. Warum gibt es diese Variabilität in natürlichen Populationen? Wer seine Fliegen mit etwas Hintergrundwissen zerrieb, musste eine neutrale Erklärung in Betracht ziehen.

Schon vor der Untersuchung dieser ersten molekularen Polymorphismen war der Grad der innerhalb einer Art beobachteten Variabilität das beherrschende Thema der Populationsgenetik. Warum kommt es durch Selektion nicht zu einer vollständigen Optimierung des Phänotypes und damit zu einem Verschwinden der Variabilität?

Es können zwei Gruppen von Hypothesen getestet werden, die dieses Phänomen erklären könnten:

Zum Ersten die neutrale Erklärung: Es könnte einfach keine Selektion auf die interessierenden Merkmale gegeben sein und daher könnten zwei Allele durch Zufall zum gegebenen Zeitpunkt vorhanden sein.

Zum Anderen "selektionistische" Erklärungen, d.h. Selektion selbst könnte zwei unterschiedlich Merkmale begünstigen. Dies wird "balancing selection" genannt. Ein Paradebeispiel hierfür stellt Häufigkeits-abhängige Selektion dar. Spezielle Merkmale werden positiv selektiert weil sie selten sind, wird das entsprechende Allel häufiger, verschwindet dieser Vorteil und das alternative Allel hat den Vorteil. Der große Polymorphismus bei MHC Allelen lässt sich so beispielsweise sehr schlüssig mit Häufigkeits-abhängiger Selektion erklären.
Eine weitere "selektionistische" Erklärung wäre "Overdominance", dabei haben Heterozygote eine größere Fitness als die beiden möglichen Homozygoten, daher hält die Selektion beide Allele in der Population.

Betrachtet man die Theorien ohne jegliche Daten, muss man feststellen, dass die neutrale Erklärung die sparsamere und daher -falls sie ausreicht- bessere ist. Die auf Selektion basierenden Erklärungen sind etwas umständlicher wurden aber von vielen Biologen bevorzugt, da man neutrale Erklärungen oft als unschön empfand. Die selektionistischen Erklärungen wurden als "darwinistisch" verteidigt, neutrale Erklärungen schienen für viele in Widerspruch mit "Darwins Theorie" zu stehen. Wie sollte eine hauptsächlich neutrale Variabilität das "Substrat" für die allgemeine akzeptierte Evolution durch natürliche Selektion liefern?

Natürlich waren auch die Vertreter der neutralen Erklärungsversuche (wie Lewontin) im weiteren Sinne "Darwinisten", sie vertraten meist die Auffassung, dass selbst der in ihren Modellen unbedeutende kleine Teil der selektierten Merkmale ausreiche um "darwinistische" Evolution zu ermöglichen.

Eine weitere Warnung ist bei der Diskussion über sie neutrale Theorie angebracht:
Sie betrachtet speziell molekulare Polymorphismen. Grundlage dafür ist die Annahme, dass negativ selektierte Allele so schnell den Extremzustand "Verlust des Alles aus der Population" anstreben, dass sie zu vernachlässigen sind. Es ist nach diesen Annahmen einfach unwahrscheinlich, dass man gerade in dem kurzen Moment, in dem ein selektierter Locus in der Population polymorph ist die Daten erhebt. (Würde mann nur innerhalb der Population einer Art arbeiten könnte man in der neutralen Theorie auch ohne weiteres positive Selektion zulassen, schließlich würde das gleiche schnelle "Anstreben des Extremzustandes", diesmal der Fixierung auch für positive selektierte Allele zutreffen, die neutrale Theorie kann positive Selektion aber nicht zulassen, da sie auch einen Zusammenhang zwischen der Sequenz-Divergenz zwischen Arten und der Zeit seit der Divergenz vorhersagt, darauf werde ich noch eingehen).

Und eine weiter Warnung, dass die Theorie auf molekularer Ebene anzuwenden ist: Würde man phänotypische Merkmale, die zum Großteil von mehreren Genen kontrolliert werden, betrachten, müsste man auch Effekte der (nicht vollständigen) Erblichkeit dieser Merkmale und Interaktion mehrerer Loci bei ihrere Erzeugung mit einbeziehen. Solche Aspekte sind nicht Teil der neutralen Theorie, sondern der quantitativen Genetik.

Nach dieser langen Einleitung zurück zum besprochenen Paper. Nei und Graur untersuchten also ob der beobachtete Grad des Polymorphismus, der in Allozym-Studien als Heterozygotie (=Gendiversität; H) für einen Locus angegeben wird, den Voraussagen der neutralen Theorie entspricht. Sie wählten dafür Daten für 341 Spezies aus 77 Studien, in denen die Heterozygotie für mindestens 10 individuelle Genomen an 20 Protein-Loci ermittelt wurden.

Die Voraussagen der neutralen Theorie sind nun folgende:
  1. Die beobachtete mittlere Heterozygotie (über alle Loci) nimmt mit steigender Populationsgröße zu.
  2. Die beobachtete mittlere Heterozygotie ist gleich oder kleiner als der durch Formel [8] gegebene Erwartungswert.

Die effektive Populationsgröße (Ne) in Formel [8] muss man durch die Populationsgröße (N) ersetzen, da Ne nicht direkt messbar oder schätzbar ist.

Die erste Aussage basiert auf einer angenommenen Korrelation von Ne und N, diese reicht aus um nicht nur für Ne sondern auch für N eine positive Regression mit der Heterozygotie vorauszusagen.
Anders bei der zweiten Aussage: Das "oder kleiner" resultiert daraus, dass die effektive Populationsgröße (Ne) jeweils kleiner oder gleich der aktuellen Populationsgröße (N) ist. Muss man nun also Ne durch N ersetzen, ergibt die Formel keinen exakten Erwartungswert, sondern erlaubt nur das genannte "kleiner gleich".

Für alle 77 in die Analyse einbezogenen Studien mussten Nei und Graur nun also die Populationsgröße der jeweils zugrunde liegenden 341 Spezies abschätzen. Sie beschreiben für einzelne Spezies genau wie sie dies anstellten: Mit viel Sachverstand und Pedanterie...

Die erste Voraussage bewahrheitete sich im analysierten Datensatz oder wie die beiden Autoren etwas wissenschaftlicher schreiben: "Die erste neutrale Null-Hypothese konnte nicht abgelehnt werden". Die Regression von Populationsgröße (N) und Heterozygotie (H) war signifikant und der Regressionskoeffizient r = 0.65 sagt, dass 65% der Varianz in H oder N durch Covarianz von H und N erklärbar ist. Eine erstaunlich gute Regression, bedenkt man, dass N nur eine Schätzung und obendrein ein Ersatz für Ne ist.

Die zweite Aussage machte etwas mehr Probleme: Für zwei der 341 Spezies musste "diese Nullhypothese zunächst abgelehnt werden", sie zeigten signifikant höhere Diversität als vorausgesagt.
Die Ausreißer waren Drosophila engyochracea und D. mimica, hawaiianische Fruchtfliegen-Arten.

Für diese drei Spezies testeten die beiden Autoren alternative Hypothesen. Sie nahmen dazu die Verteilung der Allelfrequenzen genauer unter die Lupe. Diese entspricht in den zwei Spezies der unter Neutralität angenommenen Verteilung. De Facto erwartet man bei einer auf Overdominance basierenden Alternativhypothesen nicht die beobachtete Verteilung: In dieser sind die meiste Loci nicht polymorph und die Allelfrequenzen der polymorphen Loci gleichmäßig zwischen 0 und 1 verteilt (U-Form der Verteilung). Ovedrdominance wurde eine Clustern der Frequenzen um 0.5 produzieren.

In einer ausführlichen Diskussion stellen Nei und Graur dann dar warum eine heterogene Umwelt mit vielen verschiedenen Nischen nicht in der Lage ist über Adaptation an einzelne Nischen Variabilität zu erzeugen. Kurz gesagt lassen dies Genfluss, mendelsche Vererbung und finite Populationsgrößen in realistischen Modellen nicht zu.

Aus dem selben Grund aus dem die neutrale Theorie vorteilhafte Mutationen ignorieren kann, können sie auch nicht für den beobachteten Polymorphismus verantwortlich sein: Sie werden zu schnell fixiert. Dies mag zunächst wie ein Zirkelschluss erscheinen, allerdings sagen alle plausiblen Modelle für eine Fixierung von positiv selektierten Allelen eine extrem schnelle Fixierung voraus.
Würde man extrem kleine Selektionsvorteile und hohe Mutationsraten annehmen, könnte man zwar die beobachtete Variabilität erreichen, solche Prozesse würden dann aber zwischen Arten zu hohe Substitutionsraten ergeben. Substitution ist die Fixierung eines neuen Allels, wie sei nach einer Divergenz zweier Arten beobachtet wird. Da solche Substitutionsraten für phylogenetischen Studien benutzt werden, sind sie bekannt und man weiss, dass sie über den gesamten "Baum des Lebendigen" in der gleichen Größenordnung liegen.

Die beiden Autoren schließen, dass eine neutrale Erklärung auch für die beiden Ausreißer in Betracht kommt, da spezielle für diese Arten die Abschätzung der Populationsgröße sehr schwierig war und möglicherweise N schlicht unterschätzt wurde, was dann zu zu niedrigen Werten für die erwartete Diversität erbrachte.
Die Daten scheinen also mit der neutralen Theorie der molekularen Evolution gut übereinzustimmen.

Zu den Problemen der Neutralen Theorie komme ich erst im nächsten Post. Würde ich auf Englisch schreibe, hätte ich dafür auch schon einen Titel:
"The mean is not the message: The overdispersion of the molecular clock".
_____________________________________________________________________________________________________________________________________________________________
Masatoshi Nei, Dan Graur (1984). Extent of protein polymorphism and the neutral mutation theory Evolutionary biology Link(kein DOI zu finden)

Sonntag, 30. November 2008

Populationsgenetik Serie: Organisatorisches

Ich werde hier in den nächsten Wochen und Monaten hauptsächlich über Populationsgenetik schreiben. Die betreffenden Posts tragen das entsprechende Label. Meine Motivation und meine generellen Hauptquellen dazu beschreibe ich in diesem Eröffnungspost.

Die Posts werden sich in vier Kategorien gliedern:
  1. Grundlagen [Beispiel]
  2. Kernkonzepte, Modelle und Theorien [Beispiel]
  3. Paperdiskussion [Beispiel]
  4. Nebensächliches [Beispiel]
In allen Posts erhalten Formel fortlaufenden Nummer in eckigen Klammern. Wird später auf die Formel verwiesen ist auf dieser Zahl ist ein Link zum betreffenden Post platziert z.B. [6].
Gleiches gilt für Grafiken, die in geschweiften Klammern beschriftet werden z.B. {2}.

Grafiken werden von mir selbst mit Hilfe von R erstellt. Am Ende von Post, die mehr oder weniger aufwändige Plots enthalten wird der Leser einen Link zu einem funktionierenden R-script finden. Der Text aus diesen Google-Docs kann in einen Texteditor kopiert, modifiziert und danach in R zum erstellen eigener Grafiken benutzt werden.
Ich möchte dem interessierten Leser so die Möglichkeit geben selbst etwas mit den Formeln zu spielen und gleichzeitig -mit mir zusammen- einen Einstieg in R zu finden.

Ein Einführung in Populationsgenetik mit Hilfe von R - Eine Einführung in R mit Hilfe von Populationsgenetik.

Viel Spass!

Die Populationsgenetik Serie zieht um! Da die Beiträge untereinander sehr stark verknüpft sind und die Serie andernorts fortgesetzt wird, werde ich alle Posts der Serie in den nächsten Tagen auf den neuen Blog Alles was lebt bringen.

Samstag, 29. November 2008

Grundlagen: Effektive Populationsgröße

Wie wir im ersten Post über die neutrale Theorie gesehen haben spielt bei Zufallsprozessen, wie genetischem Drift (der zufälligen Fixierung bestimmter Allele) , die Populationsgröße eine Rolle. Wir haben für diesen ersten Teil dieser Theorie lediglich die aktuelle Populationsgroesse N betrachtet, diese kann man "einfach" durch "zählen" der betreffenden Individuen der Population bestimmen. Dies funktioniert leider nur auf Kosten mehrerer Voraussetzungen, wie gleichbleibender Populationsgröße und zufälliger Paarung.
Wollen wir unsere Modelle nun aber auf realistischere Systeme anwenden, brauchen wir das Konzept der effektiven Populationsgröße(Ne).

Viele Population haben beispielsweise eine ungleiche Anzahl sich fortpflanzender Männchen und Weibchen. Dies ist bei starker männlicher Konkurrenz um die Weibchen der Fall, wo sich in jeder Generation nur ein Bruchteil der Männchen fortpflanzen.
In diesem Fall ist

[3]

Wobei Nm die Anzahl der sich fortpflanzenden Männchen, Nf die Anzahl der sich fortpflanzenden Weibchen ist.
Spielt man etwas mit dieser Formel, wir beim Einsetzen von Werten sehr schnell deutlich, dass wenn Nm sehr viel größer als Nf der Wert für Ne eher in der Nähe des kleinen Wertes liegt. Dies macht Sinn, da durch die wenigen sich paarenden Männchen in jeder neuen Generation eine Art Flaschenhals ensteht: Die Hälfte der autosomal weitergegebenen Allele wird durch einen kleinen Bruchteil der Individuen weitergegeben.

Ähnliches gilt aus den gleichen Gründen, wenn sich einzelne Individuen -unabhängig vom Geschlecht- sehr unterschiedliche Nachkommenzahlen haben, dann ist

[4]

wobei Vk die Varianz in der Nachkommenzahl ist. Da bei gleichbleibender Populationsgröße (bisher immer noch eine Ausgangsannahme) durchschnittlich zwei Nachkommen pro Elternteil entstehen, ist die Nachkommenanzahl bei zufälliger Fortpflanzung Poisson-verteilt mit einem Mittelwert und einer Varianz von 2. Größere Varianzen lassen in obiger Formel Ne kleiner als N werden.

Doch was passiert wenn sich die Populationsgröße über die Zeit ändert? Ganz einfach

[5]

d.h. Ne ist das harmonische Mittel der Populationsgrößen in n Generationen.

Ähnliche Gleichungen für die effektiven Populationsgrößen kann man auch für andere Abweichungen wie überlappende Generationen finden. In der Regel ist dabei die effektiven Populationsgröße kleiner als die aktuelle Populationsgröße.

Ausgerüstet mit diesem Handwerkszeug können wir uns nun Problemen widmen, die weniger strenge Annahmen verlangen.

Samstag, 20. September 2008

Powerful statistics

Jeder, der schonmal gedacht hat er hätte in einer Präsentation chronologische Daten optimal visualisiert sollte sich das hier mal anschauen...

Hans Rosling bei einem TED-Vortrag




Wie geil ist da eigentlich? Die Idee dahinter nennt sich Gapminder und ist als Google Gadget verfügbar. Jetzt brauch ich nur noch Wurm-Daten, die so ne Darstellung erlauben :-).