Change of language, change of content

From now on this blog is about my adventures in bioinformatics and in the use of open source software:
The code is bash, perl, R -especially sweave/noweb-, LaTeX and my lovely, beastly OS editor`s (Gnu-Emacs) elisp.

I will publish code snippets and short comments in English language. You con read about the same and my other more biology focussed interests in German on Alles was lebt.
Posts mit dem Label Research Blogging werden angezeigt. Alle Posts anzeigen
Posts mit dem Label Research Blogging werden angezeigt. Alle Posts anzeigen

Dienstag, 20. Januar 2009

Protein-Polymorphismus und die neutrale Theorie

ResearchBlogging.orgWie ich in früheren Posts bereits angedeutet habe, wurde in der Zeit bevor man schnell und günstig DNA sequenzieren konnte hauptsächlich eine auf Verschiedenheiten in Enzymen basierende Methode verwendet um Variabilität innerhalb von Populationen zu untersuchen. Masatoshi Nei und Dan Graur haben zu den so gewonnenen Daten, eine sehr fundierte und gut zu lesende Metaanalyse durchgeführt; sozusagen das letzte Wort zu diesen Daten in der Populationsgenetik...

Sogenannte Allo(en)zyme katalysieren sehr grundlegende Stoffwechselprozesse und sind daher hoch konserviert, d.h in fast allen Lebewesen sind Orthologe vorhanden. Zerkleinert man gesamte Organismen, und lässt den entstehenden "Brei" in einem elektrischen Feld durch eine Gel laufen (Gelelektrophorese) trennen sich die Proteine, wie die interessierenden Enzyme, gemäß ihrer Ladung auf. Die dazu verwendeten Stärkegele werden dann mit dem Substrat für eines der Allozyme und einem Farbstoff, der ausfällt, wenn die entsprechende Reaktion stattfindet, gefärbt. Mit dieser Methode sind in dem meisten Organismen etwas mehr als 20 Enzyme analysierbar.
Auf den ersten Blick erscheinen diese evolutionär konservierten Moleküle aber nicht besonders geeignet um Unterschiede innerhalb einer Art auf Populationsebene zu untersuchen. Eine erstaunliche Entdeckung war daher, dass solche Enzyme innerhalb einer Art oft in unterschiedlichen Allelen vorkommen, sichtbar als unterschiedliche weit gelaufene Banden im Gel.
Seit Anfang der 1960 resultierte dies in einer Fülle von Studien, die diese Methode zur Anwendung brachten und für experimentell arbeitende Populationsgenetiker "find it, grind it" zur Losung machten.

Die Entwicklung der neutralen Theorie ist daher auch im Licht der so gewonnenen Daten zu sehen. Warum gibt es diese Variabilität in natürlichen Populationen? Wer seine Fliegen mit etwas Hintergrundwissen zerrieb, musste eine neutrale Erklärung in Betracht ziehen.

Schon vor der Untersuchung dieser ersten molekularen Polymorphismen war der Grad der innerhalb einer Art beobachteten Variabilität das beherrschende Thema der Populationsgenetik. Warum kommt es durch Selektion nicht zu einer vollständigen Optimierung des Phänotypes und damit zu einem Verschwinden der Variabilität?

Es können zwei Gruppen von Hypothesen getestet werden, die dieses Phänomen erklären könnten:

Zum Ersten die neutrale Erklärung: Es könnte einfach keine Selektion auf die interessierenden Merkmale gegeben sein und daher könnten zwei Allele durch Zufall zum gegebenen Zeitpunkt vorhanden sein.

Zum Anderen "selektionistische" Erklärungen, d.h. Selektion selbst könnte zwei unterschiedlich Merkmale begünstigen. Dies wird "balancing selection" genannt. Ein Paradebeispiel hierfür stellt Häufigkeits-abhängige Selektion dar. Spezielle Merkmale werden positiv selektiert weil sie selten sind, wird das entsprechende Allel häufiger, verschwindet dieser Vorteil und das alternative Allel hat den Vorteil. Der große Polymorphismus bei MHC Allelen lässt sich so beispielsweise sehr schlüssig mit Häufigkeits-abhängiger Selektion erklären.
Eine weitere "selektionistische" Erklärung wäre "Overdominance", dabei haben Heterozygote eine größere Fitness als die beiden möglichen Homozygoten, daher hält die Selektion beide Allele in der Population.

Betrachtet man die Theorien ohne jegliche Daten, muss man feststellen, dass die neutrale Erklärung die sparsamere und daher -falls sie ausreicht- bessere ist. Die auf Selektion basierenden Erklärungen sind etwas umständlicher wurden aber von vielen Biologen bevorzugt, da man neutrale Erklärungen oft als unschön empfand. Die selektionistischen Erklärungen wurden als "darwinistisch" verteidigt, neutrale Erklärungen schienen für viele in Widerspruch mit "Darwins Theorie" zu stehen. Wie sollte eine hauptsächlich neutrale Variabilität das "Substrat" für die allgemeine akzeptierte Evolution durch natürliche Selektion liefern?

Natürlich waren auch die Vertreter der neutralen Erklärungsversuche (wie Lewontin) im weiteren Sinne "Darwinisten", sie vertraten meist die Auffassung, dass selbst der in ihren Modellen unbedeutende kleine Teil der selektierten Merkmale ausreiche um "darwinistische" Evolution zu ermöglichen.

Eine weitere Warnung ist bei der Diskussion über sie neutrale Theorie angebracht:
Sie betrachtet speziell molekulare Polymorphismen. Grundlage dafür ist die Annahme, dass negativ selektierte Allele so schnell den Extremzustand "Verlust des Alles aus der Population" anstreben, dass sie zu vernachlässigen sind. Es ist nach diesen Annahmen einfach unwahrscheinlich, dass man gerade in dem kurzen Moment, in dem ein selektierter Locus in der Population polymorph ist die Daten erhebt. (Würde mann nur innerhalb der Population einer Art arbeiten könnte man in der neutralen Theorie auch ohne weiteres positive Selektion zulassen, schließlich würde das gleiche schnelle "Anstreben des Extremzustandes", diesmal der Fixierung auch für positive selektierte Allele zutreffen, die neutrale Theorie kann positive Selektion aber nicht zulassen, da sie auch einen Zusammenhang zwischen der Sequenz-Divergenz zwischen Arten und der Zeit seit der Divergenz vorhersagt, darauf werde ich noch eingehen).

Und eine weiter Warnung, dass die Theorie auf molekularer Ebene anzuwenden ist: Würde man phänotypische Merkmale, die zum Großteil von mehreren Genen kontrolliert werden, betrachten, müsste man auch Effekte der (nicht vollständigen) Erblichkeit dieser Merkmale und Interaktion mehrerer Loci bei ihrere Erzeugung mit einbeziehen. Solche Aspekte sind nicht Teil der neutralen Theorie, sondern der quantitativen Genetik.

Nach dieser langen Einleitung zurück zum besprochenen Paper. Nei und Graur untersuchten also ob der beobachtete Grad des Polymorphismus, der in Allozym-Studien als Heterozygotie (=Gendiversität; H) für einen Locus angegeben wird, den Voraussagen der neutralen Theorie entspricht. Sie wählten dafür Daten für 341 Spezies aus 77 Studien, in denen die Heterozygotie für mindestens 10 individuelle Genomen an 20 Protein-Loci ermittelt wurden.

Die Voraussagen der neutralen Theorie sind nun folgende:
  1. Die beobachtete mittlere Heterozygotie (über alle Loci) nimmt mit steigender Populationsgröße zu.
  2. Die beobachtete mittlere Heterozygotie ist gleich oder kleiner als der durch Formel [8] gegebene Erwartungswert.

Die effektive Populationsgröße (Ne) in Formel [8] muss man durch die Populationsgröße (N) ersetzen, da Ne nicht direkt messbar oder schätzbar ist.

Die erste Aussage basiert auf einer angenommenen Korrelation von Ne und N, diese reicht aus um nicht nur für Ne sondern auch für N eine positive Regression mit der Heterozygotie vorauszusagen.
Anders bei der zweiten Aussage: Das "oder kleiner" resultiert daraus, dass die effektive Populationsgröße (Ne) jeweils kleiner oder gleich der aktuellen Populationsgröße (N) ist. Muss man nun also Ne durch N ersetzen, ergibt die Formel keinen exakten Erwartungswert, sondern erlaubt nur das genannte "kleiner gleich".

Für alle 77 in die Analyse einbezogenen Studien mussten Nei und Graur nun also die Populationsgröße der jeweils zugrunde liegenden 341 Spezies abschätzen. Sie beschreiben für einzelne Spezies genau wie sie dies anstellten: Mit viel Sachverstand und Pedanterie...

Die erste Voraussage bewahrheitete sich im analysierten Datensatz oder wie die beiden Autoren etwas wissenschaftlicher schreiben: "Die erste neutrale Null-Hypothese konnte nicht abgelehnt werden". Die Regression von Populationsgröße (N) und Heterozygotie (H) war signifikant und der Regressionskoeffizient r = 0.65 sagt, dass 65% der Varianz in H oder N durch Covarianz von H und N erklärbar ist. Eine erstaunlich gute Regression, bedenkt man, dass N nur eine Schätzung und obendrein ein Ersatz für Ne ist.

Die zweite Aussage machte etwas mehr Probleme: Für zwei der 341 Spezies musste "diese Nullhypothese zunächst abgelehnt werden", sie zeigten signifikant höhere Diversität als vorausgesagt.
Die Ausreißer waren Drosophila engyochracea und D. mimica, hawaiianische Fruchtfliegen-Arten.

Für diese drei Spezies testeten die beiden Autoren alternative Hypothesen. Sie nahmen dazu die Verteilung der Allelfrequenzen genauer unter die Lupe. Diese entspricht in den zwei Spezies der unter Neutralität angenommenen Verteilung. De Facto erwartet man bei einer auf Overdominance basierenden Alternativhypothesen nicht die beobachtete Verteilung: In dieser sind die meiste Loci nicht polymorph und die Allelfrequenzen der polymorphen Loci gleichmäßig zwischen 0 und 1 verteilt (U-Form der Verteilung). Ovedrdominance wurde eine Clustern der Frequenzen um 0.5 produzieren.

In einer ausführlichen Diskussion stellen Nei und Graur dann dar warum eine heterogene Umwelt mit vielen verschiedenen Nischen nicht in der Lage ist über Adaptation an einzelne Nischen Variabilität zu erzeugen. Kurz gesagt lassen dies Genfluss, mendelsche Vererbung und finite Populationsgrößen in realistischen Modellen nicht zu.

Aus dem selben Grund aus dem die neutrale Theorie vorteilhafte Mutationen ignorieren kann, können sie auch nicht für den beobachteten Polymorphismus verantwortlich sein: Sie werden zu schnell fixiert. Dies mag zunächst wie ein Zirkelschluss erscheinen, allerdings sagen alle plausiblen Modelle für eine Fixierung von positiv selektierten Allelen eine extrem schnelle Fixierung voraus.
Würde man extrem kleine Selektionsvorteile und hohe Mutationsraten annehmen, könnte man zwar die beobachtete Variabilität erreichen, solche Prozesse würden dann aber zwischen Arten zu hohe Substitutionsraten ergeben. Substitution ist die Fixierung eines neuen Allels, wie sei nach einer Divergenz zweier Arten beobachtet wird. Da solche Substitutionsraten für phylogenetischen Studien benutzt werden, sind sie bekannt und man weiss, dass sie über den gesamten "Baum des Lebendigen" in der gleichen Größenordnung liegen.

Die beiden Autoren schließen, dass eine neutrale Erklärung auch für die beiden Ausreißer in Betracht kommt, da spezielle für diese Arten die Abschätzung der Populationsgröße sehr schwierig war und möglicherweise N schlicht unterschätzt wurde, was dann zu zu niedrigen Werten für die erwartete Diversität erbrachte.
Die Daten scheinen also mit der neutralen Theorie der molekularen Evolution gut übereinzustimmen.

Zu den Problemen der Neutralen Theorie komme ich erst im nächsten Post. Würde ich auf Englisch schreibe, hätte ich dafür auch schon einen Titel:
"The mean is not the message: The overdispersion of the molecular clock".
_____________________________________________________________________________________________________________________________________________________________
Masatoshi Nei, Dan Graur (1984). Extent of protein polymorphism and the neutral mutation theory Evolutionary biology Link(kein DOI zu finden)

Mittwoch, 29. Oktober 2008

Promoting Science-Blogging!

Ich werde Ende Februar am "VW Foundation Evolutionary Biology Status Symposium" in Muenster teilnehmen.

Es gibt die Moeglichkeit Diskussionsgruppen (auch ausserhalb streng wissenschaftlicher Themenbereiche) vorzuschlagen, als habe ich eben an die Organisatoren geschrieben:

I have registered for the symposium a few days ago. I just had an idea for a discussion group.

"Science 2.0: Blogging as a new way of science communication"
  • A blog as a medium to publish your thoughts and for scientific discussion
  • Examples of the English speaking science-blogging community
  • Future directions, interaction with classical ways of science communication and publishing
All the best,
Emanuel

Mal gespannt wie der Vorschlag ankommt. Das ganze boete natuerlich die Moeglichkeit zu schamloser Eigenwerbung...

Sonntag, 12. Oktober 2008

We are all half dead!

ResearchBlogging.orgThis will be the first post in a new series on this blog, it will be in English and deal with papers, accompanying a course on Quantitative Genetics for Master Students. I am only voluntarily participating in this courses and try to keep up with paper discussion/essays this way...
...I will try to make the discussion both accessible for the interested reader and deep enough to meet the criteria of a good essay for the course.

Back to the topic. What do I mean with the title of this post?
With "we" I mean all animals and with "half dead" the fact that the average animal carries (heterozygote) more than one recessive allele that would be lethal if homozygote. The lethal allele has no influence on fitness of heterozygotes (half dead means fully alive here;-)) and reduces homozyygote fintness to 0.

You don`t need fancy technology to figure this out and the methods used for the study of McCune et al. are nearly as old as the field of quantitative genetics itself (the reference describing the method is in fact from 1927 and not accessible online). The experimentator mates simply siblings resulting from a cross of wild-caught animals and records the zygotes or embryos with developmental distortions leading to death. Sofar this seems facile, the only difficulty in interpretation of the reults is easy to resolve: If similar phenotyps are observed in different crosses the phenotypically healthy siblings from both crosses are outbred with each other. When all the ofspring of this controll is healthy two different recessive lethal allels were found.
This method has a single severe downside: In animals that have a reduced rate of survival as embryos or zygotes due to chance or environmental influences the experiments are not possibele. Therefore Xenopus laevis was the only vertebrate for which data on R (the number of recessive lethals per individual) was investigated by this method before. Extensive data is in contrast available on R for Drosophila.

McCune et al. found, that in both teleost fish species (Lucania goodei and Danio rerio) R is of comparable size to R in Drosophila.
The title "A Low Genomic Number of Recessive Lethals in Natural Populations of Bleufin Killifish and Zebrafish" is already part of their interpretation. They suggest that vertebrates have a higher number of genes and therefore R is smaller in relation to the number of sites that can cause lethal phenotypes.

McCune et al. infer the number of genes in their fishes from the number of genes in humans. They postulate that, because of the high synteny between vertebrates this number would be approximately the same. Unfortunately the estimation for the number of human genes was 35,000 back in 2002, the real number based on newer estimates is not higher than 25,000. The ratio of Drosophila/vertebrate genes comes down from 2.5 to 1.79 considering this.
McCune et al. propose the smaller size of vertebrate populations as a reason for the lower R (in relation to the number of genes) in vertebrates compared to invertebrates. This sounds intuitively right, because smaller populations result in higher inbreeding. For this reason selection against recessive lethal alleles would be more effective in the smaller vertebrate populations.

Nevertheless I have other doubts regarding the plausibility of the assumptions that R must be set in relation to the "exome-size". There would be no need for correcting with the number of genes, if all animals had a set of genes comparable in size, essential for their development. As R is the same in all animals the whole discussion (and the title) of the paper would make no sense in this context.

P.S. I am not aware whether vertebrates and invertebrates have this comparably large set of essential genes. It seems not to be known yet...
...or I should search harder.


Amy R. McCune, Rebecca C. Fuller, Allisan A. Aquilina, Robert M. Dawley, James M. Fadool, David Houle, Joseph Travis, and Alexey S. Kondrashov (2002) A Low Genomic Number of Recessive Lethals in Natural Populations of Bluefin Killifish and Zebrafish. Science 296 (5577), 2398.
[DOI: 10.1126/science.1071757]

Samstag, 27. September 2008

Vergleichende Entwicklungsgenomik- Zwei Paper und massig Fehlinterpretationen

ResearchBlogging.org In diesem Post möchte ich anhand zweier Papern diskutieren, was Evo-Devo im allgemeinen ist und eine Unterdisziplin, die man im Deutschen wohl am besten "Vergleichende Entwicklungsgenomik" nennt, vorstellen. Außerdem möchte ich zeigen, warum Arbeiten auf diesem Gebiet für unser Verständnis der Evolutionstheorie wichtig sind. Zum Schluss möchte ich noch einen verwandten Beitrag auf dem deutschen Researchblogging kritisieren und zeigen warum dieser Fehlinterpretationen und schlichte Fehlinformation enthält.

Evo-Devo (Evolutionary developmental biology) lässt sich am besten mit "Evolutionäre Entwicklungsbiologie" ins Deutsche übersetzen. Der Forschungszweig basiert darauf, dass natürliche Selektion oft nicht unmittelbar auf den Genotyp eines Individuums wirken kann, sondern auf den Phänotyp. Dieser Phänotyp wird durch ein komplexes genetisches Programm bei der Entwicklung des Organismus produziert. Bei einem solchen Entwicklungsprogramm sind die Mengen an Proteinen oder RNAs entscheidend; so können gewisse Schwellenwerte dieser Moleküle Zellschicksale beeinflussen und den Phänotyp bestimmen.
Eines der grundsätzlichsten Dogmen von Evo-Devo ist daher, dass Unterschiede in der Genexpression während der Entwicklung für unterschiedliche Phänotypen verantwortlich sind. Diese Expressionsunterschiede wiederum werden durch Unterschiede in nicht kodierenden, den Genen vorgelagerten (cis-)regulatorischen Sequenzen (hauptsächlich Promotoren und Enhancer) oder in den Protein-Sequenzen von übergeordneten Transkriptionsfaktoren verursacht (oder wiederum in der Expression dieser Transkriptionsfaktoren).
Evo-Devo will daher in die bisweilen postulierte Lücke zwischen Macro- und Microevolution vorstoßen. Gerade Experten auf dem Gebiet der Entwicklungsbiologie räumen mitunter die Möglichkeiten saltatorischer Evolution ein. Das heißt, sie halten Makromutationen für möglich, die in einem einzigen Mutationsschritt starke Änderungen des Phänotyps (sogenannte "Hopeful Monster") produzieren. Dies soll hauptsächlich durch Änderungen an wichtigen "Schaltstellen"-Transkriptinsfaktoren in den Entwicklungsprogrammen geschehen. Diese Sichtweise wird von der Mehrzahl der Evolutionsbiologen -bis auf Darwin selbst zurückgehend- abgelehnt. Die konventionelle Theorie besagt, dass Veränderungen durch graduelle Mutationen erfolgen, die sich über Generationen akkumulieren. Einzelne Wissenschaftler auf dem Gebiet der evolutionären Entwicklungsbiologie versuchen also mitunter Modifikationen an den bestehenden Fundamenten der Evolutionsbiolgie zu erreichen, was auf heftige Kritik (auch aus den eigenen Reihen) stößt. Wahrscheinlich ist Evo-Devo daher eines der lebendigsten Forschungsgebiete in der aktuellen Biologie.

Die von mir im Folgenden besprochenen Studie untersuchen beide dieses zentrale Dogma von Evo-Devo genauer und lassen meines Erachtens auch Schlüsse zur genannten Kontroverse zu.

Cretekos et al. benutzen dazu die Unterschiede im Wachstum der Vorderextremitäten zwischen Carollia perspicillata (einer Fledermaus) und der Maus. Beide Taxa stammen aus unterschiedlichen Ordnungen der Säugetiere Chiroptera (=Fledertiere) beziehungsweise Rodentia (=Nagetiere), teilen also einen gemeinsamen Vorfahren vor etwa 80-100 Millionen Jahren.
Die Studie betrachtet Veränderungen in Prx1, einem Transkriptionsfaktor, der durch klassische entwicklungsbiologische Methoden als wichtig in der Extremitätenentwicklung identifiziert wurde. Die Kollegen stellten beim Verglich der Gen-Sequenzen aus Maus und Fledermaus nur einen nicht-synonymen (in das Protein übersetzten)Unterscheid fest. Dieser Unterschied befindet sich in einem Bereich des Genes, der ohnehin wenig konserviert ist, und nicht mit der typischen Funktion des Traskriptionsfaktors in Verbindung gebracht wird.
Unterschiede in der Expression von Prx1 konnten in der späten Entwicklung der Vorderextremitäten festgestellt werden, in der Fledermaus war der Transkriptionsfaktor speziell im Bereich der Handwurzelknochen stärker exprimiert. Dieses Ergebnis korreliert gut mit dem zu diesem Zeitpunkt verstärkt auftretenden Längenwachstum in der Fledermaus.
Cretekos et al. betrachteten weiterhin also einen Enhancer "stromaufwärts" des Gens, der ebenfalls mit klassischen Methoden identifiziert worden war. Dieser Enhancer enthält zwei Bereiche die zwischen Nager und Fledertier relativ konserviert sind, in diesen wurde dann die Funktion vermutet. Um dies zu testen konnte die Gruppe die jeweilige Enhancer-Region an ein Reportegen koppeln und in Mäuse einbringen, dabei wurde stärkere Reporter-expression beim Chiroptera-Enhancer beobachtet.
Doch damit nicht genug, der Gruppe gelang es schließlich das Fledermaus-Kontrollelement in die Maus einzubringen, so dass es die Expression des Prx1-Gens steuert. Die entsprechenden Mäuse zeigten tatsächlich ein verstärktes Wachstum der Vorderextremitäten.
Die Studie konnte so eindrucksvoll das zentrale Dogma der evolutionären Entwicklungsbiologie bestätigen und weiterhin zeigen, dass die zugrunde liegenden Veränderungen im untersuchten Fall auf Enhancer-Elementen basieren.

Auch die Studie von Prabhakar et al. beschäftigt sich mit der Funktion von Enhancern, die betreffende genomische Region war aber mit anderen Mitteln identifiziert worden. Dabei wurden komplett sequenzierten Genome von Wirbeltieren nach konservierten, nichtkodierenden Sequenzen durchsucht. Aus diesen Sequenze wurden wiederum jene identifiziert, die in der Menschlichen Linie (entgegen des allgemeinen Trends) evolvieren. Diese Vorgehen basiert auf der Tatsache, dass Elemente mit einer bestimmten Funktion weniger evolvieren als funktionslose Elemente, ändern sie allerdings ihre Funktion erfolgt die Evolution sogar schneller als dies unter Neutralität (Funktionslosigkeit) der Fall wären. Die identifizierte Region liegt im Intron eines Gens, das mit der Funktion des Endosoms in Verbindung gebracht wird. Weier "stromäbwärts" befindet sich wieder ein Transkriptionsfaktor, dessen Wirkung die Entwicklung der Gliedmaßen beeinflusst. Die Expression welcher Gene genau der mögliche Enhancer beeinflusst ist also noch nicht geklärt.
Zur Untersuchung der Funktion der Enhancer-Region benutzten die Kollegen also wieder ein Reporterassay (ß-Galactosidase). Sie brachten die postulierten Kontrollelemente aus Rhesusaffen (Macaca mulatta), Schimpansen (Pan troglodytes) und dem Menschen (Homo sapiens) (Divergenz vor 6 bzw. 25 Mya) gekoppelt an das Reportergen, in Mäuse ein. So konnten die Forscher zeigen, dass die menschlichen Elemente im Vergleich zu denen aus beiden anderen Primaten, verstärkt Gene beim Wachstum der Extremitäten anschalten. Sie konnten so die durch den Genom-Verglich identifizierten Unterschiede bestätigen: Der Zustand und die Wirkung des Enhancers sind sich in nicht-menschlichen Affen ähnlich und entsprechen daher wahrscheinlich dem Zustand im gemeinsamen Vorfahren.
Mit sehr cleveren Experimenten bewiesen die Kollegen, dass genau die 13 Basen Unterschied im Menschen im Vergleich zu Schimpanse und Rhesusaffe den Unterschied ausmachen. Sie konstruierten Fragmente aus den beiden "Vierbeinern" in denen nur die betroffenen 13 Unterschiede eingebracht waren. Diese Konstrukte hatten die gleiche Wirkung wie das original-menschliche Element.

Die Studie konnte so, aufbauend auf dem zuvor beschriebenen zentralen Dogma von Evo-Devo, zeigen, dass durch Genomvergleiche die betreffenden Elemente identifiziert werden können. Ein denkbarer Name für ein solches Vorgehen ist "Vergleichende Entwiklungsgenomik" oder im Englischen "Comparative developmental genomics".

Weiter demonstrieren beide Studien eindrucksvoll die evolutionären Möglichkeiten für graduelle Veränderungen in Entwicklungsprogrammen. In beiden Beispielen konnte durch Veränderung einzelner Basen in regulativen Bereichen Unterschiede in der Genexpression erzeugt werden. Da es sich um Variationen in einzelnen Basenpaaren (SNPs) handelt, die langsam und nacheinander ins Genom einfließen, verlangen die hier beobachteten Unterschiede geradezu nach Gradualismus.

Fee hat vor einigen Wochen auf dem Blog Science-meets-spciety ebenfall über das letztere Paper geschrieben und ich möchte einige Fehler in diesem (auch auf Researchblogging erschienenen) Post abschließend korrigieren. Ich hoffe so eine Diskussion anzuregen, falls es im deutschsprachigen Raum genügend Interesse gibt.

S-M-S:
Wir teilen bis zu 98% der codierenden DNA mit unseren nächsten Verwandten, den Schimpansen (Pan troglodytes) und doch unterscheiden wir uns markant von ihnen.

Das stimmt nicht! Eine der grundlegendsten Entdeckungen der letzten Jahre waren Unterschiede in der Kopienzahl einzelner Gene im Menschlichen Genom. 2007 wurde so (Hauptsächlich durch den Vergleich der Genome von Venter und Watson) offensichtlich, dass einzelne Menschen sich in 2-3% ihres Genoms unterscheiden. Der Unterschied zu unseren nächsten interspeziefschen Verwandten dürfe daher mindestens 5% betragen.

S-M-S:
Der größte Teil der DNA in menschlichen Zellen ist nicht kodierend und wurde, als man dies entdeckte, fälschlicherweise als Junk-DNA (Abfall-DNA) verschrien.

Diese Sichtweise ist grundsätzlich falsch! Es wurden seit der Entdeckung nicht-kodierender Bereiche schon versucht Funktionen für diese für eine höhere Organisation zu postulieren. Vergleicht man aber unterschiedliche Organismen (z.B. der Zwiebel oder des Salamanders) mit der des Menschen oder der Kugelfische (Tetraodontidae; anderes Extrem) fällt schnell auf dass eine höhere Komplexität nicht mit der Genomgröße korreliert.
Die in Frage stehenden regulatorischen Elemente machen einen winzigen Teil des Genoms aus.

S-M-S:
Dabei stiessen sie auf einen Abschnitt von 546 Basenpaaren Länge, der sich seit der Entwicklung der Wirbeltiere nur wenig verändert hatte. Jedoch hatten sich in der relativ kurzen Zeit von 6 Millionen Jahren, seit sich die Entwicklungszweige von Mensch und Schimanse trennten, 16 Veränderungen etabliert, die alle in einem Abschnitt von 81 Basenpaaren clusterten. So etwas ist für einen genetischen Detektiv ein eindeutiges Indiz, dass weitere Untersuchungen gewinnbringend sein könnten.

Die Forscher wussten im Gegensatz zum Schreiber dieser Zeilen um die Existenz von Enhancen. Andernfalls hätten sie den entsprechenden Bereich nicht als solchen identifizieren können. In der besprochenen Studie wurden nicht zum ersten Mal Selektion auf einen nicht-kodierenden Bereich nachgewiesen. Ähnliche Fehlinterpretationen und die übertriebene Darstellung von Neuheiten (wissenschaftlichen Revolutionen) in der Wissenschaftsberichterstattung veranlassen auch beispielsweise Kreationisten regelmäßig zu ähnlichen Dummheiten.

S-M-S:
[...]so aktivierten alle die Expression von Genen in den Augen, Ohren und in den embryonalen Kiemenbögen, die später den Kiefer bilden.

Die Expression eines Reportergens! Dies ist im Vergleich zu den anderen Fehlern aber eher zweitrangig.

S-M-S:
Ein neuer Teilbereich der entwicklungsgenetischen Forschung, der bestimmt noch viele Überraschungen und neue Erkenntnisse birg.

Quatsch! "Vergleichende Entwicklungsgenomik" ist zwar ein recht neuer boomender Bereich der Entwicklunsbiologie, erfunden wurde er aber in diesem Paper nicht. Die Studie bestätigt vielmehr experimentell die Validität der zugrundeliegenden in silico Analysen.


Ich hab hier mal die jährliche Zähl an Veröffentlichungen, die "Comparative developmental genomics" im Volltext (Pub-med) erwähnen geplotet:


Dabei fällt auf, dass das erste Paper bereits aus dem Jahre 1988 stammt, als eigentlich noch keine Genome zum Vergleich bereitstanden. Veröffentlichungen vor dem Jahre 2001 können also wahrscheinlich als "Hintergrundrauschen" oder "Vorahnung" interpretiert werden, wirkliche "Comparative genomics" in dem heute etablierten Sinn waren damals noch kaum möglich. Ab diesem Zeitpunkt wurden dann anhand der vorhandenen Daten die betreffenden Methoden entwickelt. Prabhakar et al. haben also zwar eine schöne Studie angefertigt, mitnichten aber das "Teilgebiet" erfunden.

Kommentare/ Kritik erwünscht, ich bin kein Entwicklungsbiologe und habe sicher selbst Fehler gemacht!

________________________________________________________________________________________________________________

C. J. Cretekos, Y. Wang, E. D. Green, J. F. Martin, J. J. Rasweiler, R. R. Behringer (2008). Regulatory divergence modifies limb length between mammals Genes & Development, 22 (2), 141-151 DOI: 10.1101/gad.1620408

S. Prabhakar, A. Visel, J. A. Akiyama, M. Shoukry, K. D. Lewis, A. Holt, I. Plajzer-Frick, H. Morrison, D. R. FitzPatrick, V. Afzal, L. A. Pennacchio, E. M. Rubin, J. P. Noonan (2008). Human-Specific Gain of Function in a Developmental Enhancer Science, 321 (5894), 1346-1350 DOI: 10.1126/science.1159974

Montag, 8. September 2008

Würmer in Paris: Compatibility polymorphism in snail/trematode interactions

ResearchBlogging.orgChristoph Grunau und Emmanuel Roger gaben die für mich beeindruckenste Präsentation der gesamten Konferenz. Sie stellten Ergebnissen aus ihrem Labor in Perpignan zu Untersuchungen an der Interaktion von Biomphalaria glabrata und Schistosoma mansoni vor.

Die Interaktion von Trematoden und Schnecken beruht (nach der aktuellen Hypothese) darauf, dass das sich zur Muttersporocyste entwickelnde Miracidium des Parasiten den Wirt entweder aktiv in seiner Immunantwort beeinflusst, oder aber durch ein Mimikry von Wirtsepitopen vom Immunsystem unerkannt bleibt. Letzteres ist bei B. glabrata und S. mansoni der Fall.

Während bei einer Beeinflussung/Unterdrückung des Immunsystems in anderen Wirt/Parasit-Systemen generell von anfälligen und resistenten Wirten gesprochen werden kann, ist die Interaktion beim Mimikry von Wirtsepitopen komplizierter:

Die selbe Parasiten-Linie ist unterschiedlich kompatibel mit künstlich auf Resistenz oder Anfälligkeit selektierten Schnecken-Linien (Soweit wäre das natürlich auch durch bloße Resistenz der Schnecke erklärbar). Werden aber anderer Schnecken-Linien mit einer anderen Parasiten-Linie selektiert ist die in dieser künstlichen Co-Evolution resistente Schneckenlinie anfällig für die Parasiten-Linie aus der ersten Selektion. Ein schönes Schaubild dazu (Fig.3) kann man sich in diesem Paper anschauen, wenn man Zugriff hat.

Die Versuche der Gruppe zur Identifizierung der molekularen Grundlage dieser Interaktion wurden nun mit einem zu einer brasilianischen Schnecken-Linie kompatiblen Stamm von S. mansoni und einem inkompatiblen Stamm durchgeführt (Zur Vermehrung des inkompatiblen Stamms stand eine andere Schneckenlinie zur Verfügung).

Verwendet wurde ein proteomischer Ansatz (2D Gele) und es konnten sogenannte Schistosoma mansoni polymorphic mucin-like proteins (Sm PoMuc) als Hauptverdächtige identifiziert werden.

Mucine oder Mucin-ähnliche Proteine sind im Schleim (Mucus) vieler Organismen enthalten. Solcher Mucus wird oft von als Reaktion auf eine Infektion produziert, und kann dazu dienen Parasiten zu bekämpfen. Andererseits sekretieren Parasiten aber auch Mucin-ähnliche Moleküle um die Wirtsabwehr zu täuschen.

In Sm PoMucs werden fast ausschließlich in den in der Schnecke parasitierenden Stadien exprimiert. In den Miracidien werden sie in sogenannten Apicaldrüsen produziert und sekretiert. Möglicherweise kann sich der Parasit so in einem küstlichen Nebelschleier verbergen (im Deutschen klingt das schon fast poetisch; anders als das Englische "covered by a smoke screen").

Die Struktur der Sm PoMucs erwies sich als höchst polymorph. Gemeinsam haben alle Transkripte ein Signalpeptid (in Übereinstimmung mit der extrazellulären Lokalisation) gefolgt von einer Region bestehend aus einer variablen Anzahl von (3 leicht unterschiedlichen; r1, r1' und r2) 9-Aminosäuren-Repeats gefolgt von 3 leicht unterschiedlichen C-terminalen Regionen (1, 2, 3).
Eine unterschiedliche Kombination dieser Elemente kennzeichnet drei Gruppen von Sm PoMucs (die erste Gruppe und die zweite Gruppe haben nur r2 und unterschiedliche C-terminale Regionen 1 und 2; die dritte Gruppe hat R1' und R1 gefolgt von der C-terminalen Region 3).
Eine vierte Gruppe wiest eine wahrscheinlich durch alternatives Splicen noch stärker abweichende Sequenz auf.
Im Kompatiblen und inkompatiblen Parasiten-Stamm unterscheidet sich in allen drei Gruppen die Anzahl der Repeats. Codiert werden die drei Gruppen von jewels einem Gen. Die unterschiedliche Anzahl der Repeats entsteht ebenfalls durch alternatives splicen.

Besonders von Bedeutung ist weiterhin, das die Repeats Serin-, Threonin- und Prolin-reich sind, was als Zeichen für eine posttranslationale Glycolsylierung gilt.
So könnten möglicherweise speziell die unterschiedlich angefügten Zucker für die unterschiedlichen Eigenschaften der Moleküle in der Wirts-Parasit-Interaktion verantwortlich sein.

Für mich war der Vortrag deshalb so interessant, da er mir die Beschränkungen der in meinem Projekt verwendeten transkriptomischen Methoden vor Augen geführt hat:
Allein das Assembley der Repeats wäre aus 454-Pyrosequenz-Daten (bei der bisherigen read-Länge von 250 Basen) wahrscheinlich sehr schwierig bis unmöglich. Und selbst mit sehr viel längeren reads bräuchte man eine extrem hohe Coverage der betreffenden Regionen um ein solches Maß an Polymorphismus aufdecken zu können.
Außerdem interessant (und etwas beunruhigend, wenn man die Arbeit mit Proteinen nicht besonders mag) ist die Tatsache, dass ein wesentlicher Teil des Polymorphismus durch posttranslationale Modifikation entstehen kann. Generell neu und überraschend ist das natürlich nicht unbedingt, allerdings könnte es besonders im Co-Evolutions-Context eine gewaltige Rolle spielen.
Gerade in der Interaktion mit mehreren sympatrischen Wirtsarten könnten solche Mechanismen zu einer Evolution von Plastizität führen. Speziell diese Plastizität könnte als Gegenspieler von adaptiven Prozessen sympatrische, ökologische Artbildung von den an unterschiedliche Wirtsorganismen angepassten Parasiten-Stämmen verhindern.
_______________________________________________________________________________________________________________________________________

E ROGER, B GOURBAL, C GRUNAU, R PIERCE, R GALINIER, G MITTA (2008). Expression analysis of highly polymorphic mucin proteins (Sm PoMuc) from the parasite Schistosoma mansoni☆ Molecular and Biochemical Parasitology, 157 (2), 217-227 DOI: 10.1016/j.molbiopara.2007.11.015

Montag, 23. Juni 2008

Vergleichbarkeit von Orthologen bei Primaten und Nagern

ResearchBlogging.orgSoooooo, es ist also endlich Zeit für meinen ersten Post. Meine recht willkürliche Wahl viel auf ein Paper aus dem Bereich der Genomik. Dem Titel meines Blog werde ich wahrscheinlich erst in einigen Monaten gerecht werden und mehr über Populationsgenetik schreiben...
Ich habe versucht sämtliche Fachausdrücke (außer "Knockout", das war mir dann doch zu blöd) ins Deutsche zu übersetzen, obwohl ich befürchte, dass dies die Verständlichkeit nicht unbedingt verbessert. Aber urteilt selbst!

In den nächsten Jahren wird die verfügbare Sequenzinformation von Nicht-Modellorganismen dank der neuen Generation von Sequenzier-Geräten sprunghaft zunehmen. Um die Flut an Daten, die diese Maschinen produzieren, zu ordnen ist allerdings das Wissen, das über Modelorganismen gewonnen wurde, von entscheidender Bedeutung. Ein sehr wichtiger Schritt der Analyse von Sequenzdaten (über die vorausgehenden Schritte werde ich sicher noch in einigen Posts berichten, wenn ich endlich mal selbst an solchen Daten sitze) ist die Annotation von Genen. Dabei werden sehr unterschiedliche Methoden (über diese auch sicher in anderen Posts mehr) eingesetzt um vorauszusagen, wie die vorliegende Sequenz in ein Protein übersetzt wird: Man muss z.B. bestimmen in welchem Leserahmen übersetzt wird, was trotz teilweise vorhandener Sequenzierfehler möglichst robust geschehen sollte. Findet man orthologe Gene, z. B. aus einem schon komplett sequenzierten Modellorganismus, hat das aber über die simple Annotation hinaus (die sehr erleichtert wird) noch andere Vorteile: Man kann Schlüsse über die Funktion und Wichtigkeit (Wesentlichkeit) des entdeckten Gens aus dem Wissen über das Orthologe im Modellorganismus ziehen.
Für die Wichtigkeit eines Gens ist dessen "Wesentlichkeit" (= direkte Übersetzung des englischen "essentiality") ein eindeutiges Maß. Wesentliche (=essentielle) Gene sind dabei solche, die bei einer Nullmutation die Reproduktion des Trägers ausschließen (= seine Fitness auf 0 reduziert).

Doch wie gut sind Voraussagen anhand von Orthologen über den Effekt von Genen auf die Fitness? Wie schnell und häufig ändern Gene ihre Wesentlichkeit und ihre Funktion?

Um Veränderungen der Wesentlichkeit zu beleuchten analysierten Ben-Yang Liao und Jianzhi Zhang, in einer im März in PNAS veröffentlichten Studie, die Überlebenswichtigkeit von Gene zweier sehr gut erforschter Säugetiere; des Menschen und der Maus. Deren letzter gemeinsamer Vorfahre lebte vor etwa 87 Millionen Jahren (Mya) und beide unterscheiden sich, obwohl wir einige menschliche Merkmale als stark abgeleitet wahrnehmen, in evolutionärem Maßstab nur marginal.
Die Studie nutz die Vorteile des riesigen Wissens über beide Organismen um 120 Gene zu identifizieren, die beim Menschen durch eine Nullmutation Krankheiten verursachen, die vor Erreichen der Fortpflanzungsfähigkeit zu Tod führen, oder unfruchtbar machen, und für die ein Phänotyp beim Knock-out in der Maus beobachtet wurde.

Für 27 der 120 identifizierten Gene ist überraschenderweise der Phänotyp beim Maus-Knockout nicht mit einem Totalverlust der Fitness verbunden.
Übernehmen Paraloge in der Maus die Funktion des entsprechenden Gens? Bei den identifizierten Genen handelt es sich um eins-zu-eins Orthologe, Genduplikation in einer der beiden zur Maus oder zum Menschen führenden Linien ist also ausgeschlossen. Die Funktion des entsprechenden Gens könnte aber von einem Paralogen übernommen werden, das schon im gemeinsamen Vorfahren vorhanden war. Um dies zu testen verglichen die beiden Forscher (1.) die Gruppe der Gene die für Mensch und Maus wesentlich sind mit (2.) der Gruppe von Genen, die nur für den Menschen, nicht für die Maus essentiell sind: Der Anteil der Gene mit Paralogen und die durchschnittliche Ähnlichkeit mit dem nächsten Paralogen unterscheiden sich in beiden Gruppen nicht. Zusammen mit früheren Studien der selben Autoren, die generell das Vorkommen einer Kompensation der Genfunktion durch Paraloge in Säugetieren selten und unwahrscheinlich erscheinen lassen, kann man Kompensation durch Paraloge also im vorliegenden Fall nahezu ausschließen.

Weiter fanden Liao und Zhang eine verstärkte Selektion auf eine Veränderung der Proteinsequenz (zwischen Maus und Mensch) in der zweiten Gruppe verglichen mit der ersten: Sie verglichen die Anzahl der synonymen und nichtsynonymen ausgetauschten Basen (= synonyme und nichtsynonyme Distanz; dS und dN) in diesen Gruppen und einer weiteren (3.) Gruppe von Genen, die für die Maus nicht wesentlich sind, ungeachtet dessen, ob sie für den Menschen essentiell sind.
Die nichtsynonyme Distanz ist für die 2. Gruppe größer als für die erste, während die synonyme Distanz gleich ist. Die Proteinsequenz ist also bei den Genen mit veränderter Wesentlichkeit unterschiedlicher als bei Genen die gleich essentiell sind.
Dies könnte zwei Ursachen haben: Positive Selektion auf eine veränderte Funktion, oder eine schwächere negative Selektion durch die veränderte Wesentlichkeit. Um zwischen diesen beiden Möglichkeiten (bei denen jeweils Ursache und Wirkung vertauscht sind) zu unterscheiden verglichen die Forscher die nichtsynonyme Distanz der 2. mit der 3. Gruppe (die die zweite Gruppe, plus für Maus und Menschen nicht essentielle Gene enthält): Dass die Distanz zwischen der zweiten Gruppen nicht kleiner sondern größer ist als zwischen der dritten Gruppe interpretierten sie als Indiz dafür, dass man nicht von einer abgeschwächten negativen Selektion auf die 2. Gruppe ausgehen kann (diese musste in der dritten Gruppe noch schwächer sein).
Verringerte negative Selektion auf nicht essentielle Gene als Grund für den Unterschied zwischen dN(1.) und dN(2.) ist also unwahrscheinlich.

Weiter konnten die Autoren Orthologe der Gene der zweiten Gruppe aus zwei vollständig sequenzierten Primatenarten (Schimpanse und Makake) und einer weiteren Nagerart, der Ratte zur Analyse heranziehen. Sie nutzen dazu eine Methode um positive Selektion aufzuspüren: Sie verglichen das Verhältnis von nichtsynonymen zu synonymen Distanzen (dN/dS) für die 27 Gene entlang des phylogenetischen Baums. Die meisten (17) Gene hatten dabei das höchste dN/dS-Verhältnis zwischen den Primatenarten. Die meisten nichtsynonymen Polymorphismen sind also erst in den Hominidae (Menschenaffen) entstanden.Zu dN/dS-Verhältnissen wird es hier sicher noch einige Posts geben, doch was macht außerdem die Ergebnisse diese Papers nun so interessant?

Zum einen gibt es für medizinisch motivierte Studien an Mausmodellen Zweifel an der Übertragbarkeit der Ergebnisse. Ein großer Teil der Proteine der Gene der 2. Gruppe ist in der Vakuole lokalisiert und wurden möglicherweise durch die Evolution einer längeren Lebenszeit der Menschenaffen speziell in Neuronen essentiell. Besonders für neurologische Krankheiten könnten Nager also suboptimale Modelle sein.

In anderen Organismen könnten möglicherweise Voraussagen über die Wichtigkeit eines Gens nur sehr eingeschränkt möglich sein. Dies ist natürlich besonders bedauerlich, wenn man mit einem Organismus arbeitet, dessen letzter gemeinsamer Vorfahre mit einem Modellorganismus (= Verfügbarkeit von Knockout-Phänotypen) vor etwa 400 Mya gelebt hat. Mich würde natürlich in diesem Zusammenhang interessieren, wie oft z.B. bei C. elegans und C. briggsae (100 Mya) unterschiedliche Knockout-Phänotypen beobachtet werden.

Ich hab eben bemerkt, dass auf Nimravid’s Weblog das Paper schon dikutiert wurde.

________________________________________________________________________________________________________________

B.-Y. Liao, J. Zhang (2008). Null mutations in human and mouse orthologs frequently result in different phenotypes Proceedings of the National Academy of Sciences, 105 (19), 6987-6992 DOI: 10.1073/pnas.0800387105