Maksimum tutumluluk (filogenetik) - Maximum parsimony (phylogenetics)

Gelen Soyoluşun , en parsimoni bir bir optimumu kriteri altında filogenetik ağaç karakter durum değişiklikleri toplam sayısıdır en aza indirir tercih edilecek olan. Maksimum tutumluluk kriteri altında, optimal ağaç homoplasti miktarını en aza indirecektir (yani, yakınsak evrim , paralel evrim ve evrimsel tersine çevirmeler ). Başka bir deyişle, bu kriter altında, verileri açıklayan mümkün olan en kısa ağaç en iyi olarak kabul edilir. Azami cimriliğin arkasındaki bazı temel fikirler 1970'de James S. Farris ve 1971'de Walter M. Fitch tarafından sunuldu .

Maksimum tutumluluk, sezgisel ve basit bir kriterdir ve bu nedenle popülerdir. Bununla birlikte, bir filogenetik ağacı puanlamak kolay olsa da (karakter-durum değişikliklerinin sayısını sayarak), en cimri ağacı hızla oluşturmak için bir algoritma yoktur . Bunun yerine, en cimri ağaç "ağaç uzayında" (yani, tüm olası ağaçlar arasında) bulunmalıdır. Az sayıda takson (yani, dokuzdan az) için, mümkün olan her ağacın puanlandığı ve en iyisinin seçildiği kapsamlı bir arama yapmak mümkündür. Dokuz ila yirmi takson için, genellikle en iyi ağacı döndürmesi garanti edilen dal ve bağlı kullanımı tercih edilecektir . Daha fazla sayıda takson için, buluşsal bir arama yapılmalıdır.

En cimri ağaç her zaman mümkün olan en kısa ağaç olduğundan, bu şu anlama gelir - aslında incelenen organizmaların evrimsel tarihini tanımlayan "gerçek" ağaçla karşılaştırıldığında - maksimum cimrilik kriterine göre "en iyi" ağaç genellikle meydana gelen gerçek evrimsel değişimi hafife alırlar. Ayrıca, maksimum tutumluluk istatistiksel olarak tutarlı değildir. Yani, yeterli veri verildiğinde yüksek olasılıkla gerçek ağacın üretilmesi garanti edilmez. 1978'de Joe Felsenstein tarafından gösterildiği gibi , maksimum cimrilik, uzun dalların çekiciliği gibi belirli koşullar altında tutarsız olabilir . Elbette, herhangi bir filogenetik algoritma, tercih edilen ağacı tahmin etmek için kullandığı model, evrimin o dalda meydana gelme şekliyle tam olarak eşleşmiyorsa, istatistiksel olarak da tutarsız olabilir. Bu bilinemez. Bu nedenle, istatistiksel tutarlılık ilginç bir teorik özellik olsa da, test edilebilirlik alanının dışında yer alır ve ampirik filogenetik çalışmalarla ilgisizdir.

Alternatif karakterizasyon ve gerekçe

Filogenetikte, cimrilik çoğunlukla, gerekli evrimsel değişim miktarını en aza indiren ağaçların lehinde yorumlanır (örneğin bakınız). Alternatif olarak, filogenetik tutumluluk, kalıtım ve ortak ata ile açıklanamayan gözlemlenen benzerliklerin sayısını en aza indirerek açıklama gücünü en üst düzeye çıkaran ağaçların tercih edilmesi olarak tanımlanabilir. Bir yandan gerekli evrimsel değişimin minimizasyonu, diğer yandan homoloji olarak açıklanabilecek gözlemlenen benzerliklerin maksimizasyonu, ağaca dahil edilen bazı gruplarda gözlenen bazı özellikler uygulanamadığında farklı tercih edilen ağaçlara neden olabilir ve ikincisi olabilir. daha genel bir yaklaşım olarak görülebilir.

Evrim doğası gereği cimri bir süreç olmasa da, yüzlerce yıllık bilimsel deneyim, yukarıda bahsedilen cimrilik ilkesine ( Occam'ın usturası ) destek vermektedir. Yani, daha basit, daha cimri bir olaylar zinciri varsayımı, daha karmaşık, daha az cimri bir olaylar zinciri varsayımına tercih edilir. Bu nedenle, cimrilik ( sensu lato ) tipik olarak filogenetik ağaçların inşasında ve genel olarak bilimsel açıklamada aranır.

Detayda

Parsimony , genellikle bir türler kümesi veya tek bir türün üreme açısından izole edilmiş popülasyonları olan bir dizi takson için bir veya daha fazla optimal filogenetik ağacı çıkarmak için ayrı filogenetik karakterlerden oluşan bir matris kullanan karakter tabanlı ağaç tahmin yöntemleri sınıfının bir parçasıdır . Bu yöntemler, aday filogenetik ağaçları açık bir optimallik kriterine göre değerlendirerek çalışır ; en uygun puana sahip ağaç, dahil edilen taksonların filogenetik ilişkilerinin en iyi tahmini olarak alınır. Çoğu tür filogenetik veri ile maksimum tutumluluk kullanılır; yakın zamana kadar, morfolojik veriler için kullanılan, yaygın olarak kullanılan tek karakter tabanlı ağaç tahmin yöntemiydi.

Filogenileri tahmin etmek önemsiz bir problem değildir. Makul büyüklükteki herhangi bir takson seti için çok sayıda olası filogenetik ağaç mevcuttur; örneğin, sadece on tür, iki milyonun üzerinde olası köksüz ağaç verir. Optimallik kriterine göre verilere en iyi uyan ağacı bulmak için bu olasılıklar araştırılmalıdır. Ancak, verilerin kendisi soruna basit, aritmetik bir çözüm getirmez. İdeal olarak, herhangi bir evrimsel karakterin ( fenotipik özellikler veya aleller gibi ) dağılımının doğrudan evrimin dallanma modelini takip etmesini beklerdik . Böylece diyebiliriz ki, eğer iki organizma ortak bir karaktere sahipse, bu karaktere sahip olmayan üçüncü bir organizmadan ziyade birbirleriyle daha yakından ilişkili olmalıdırlar (bu karakter üçünün son ortak atasında mevcut değilse, bu durumda bir semplesiomorfi olurdu ). Yarasalar ve maymunların birbirleriyle bir filden daha yakın akraba olduklarını tahmin edebiliriz, çünkü erkek yarasalar ve maymunlar , fillerde bulunmayan dış testislere sahiptir . Bununla birlikte, yarasaların ve maymunların balinalardan daha yakından ilişkili olduğunu söyleyemeyiz, ancak ikisinin balinalarda bulunmayan dış testisleri vardır, çünkü üçünün son ortak ata türündeki erkeklerin dış testisleri olduğuna inanıyoruz. .

Bununla birlikte, yakınsak evrim , paralel evrim ve evrimsel geri dönüşler (topluca homoplazi olarak adlandırılır ) fenomenleri, filogeniyi tahmin etme sorununa hoş olmayan bir kırışıklık ekler. Birkaç nedenden dolayı, iki organizma son ortak atalarında olmayan bir özelliğe sahip olabilir: Bu özelliğin varlığını safça bir ilişkinin kanıtı olarak kabul edersek, yanlış bir ağacı yeniden oluştururuz. Gerçek filogenetik veriler, verilerin farklı bölümlerinin bazen çok farklı ilişkiler önerdiği önemli homoplaziyi içerir. Filogenetik ağaçları tahmin etmek için kullanılan yöntemler, bazı verilerin basitçe sığmayacağını kabul ederek, genel olarak tüm verilere en uygun filogenetik ağacı seçerek verilerdeki çatışmayı açıkça çözmeyi amaçlar. Sıklıkla, cimriliğin yakınsamanın nadir olduğunu varsaydığına inanılır; aslında, yakınsak olarak türetilmiş karakterlerin bile maksimum cimriliğe dayalı filogenetik analizlerde bir değeri vardır ve yakınsamanın yaygınlığı, cimriliğe dayalı yöntemlerin sonucunu sistematik olarak etkilemez.

Bir ağaca tam olarak uymayan veriler basitçe "gürültü" değildir, ağacın geneliyle çelişseler bile ağacın bazı bölümlerinde ilgili filogenetik sinyali içerebilirler. Yukarıda verilen balina örneğinde, balinalarda dış testislerin olmaması homoplastiktir: Testisleri iç olan memelilerin eski atalarında mevcut duruma dönüşü yansıtır. Balinalar ve eski memeli ataları arasındaki bu benzerlik, dış testisleri olan memelilerin balinalar dışında bir grup oluşturması gerektiğini ima ettiği için kabul ettiğimiz ağaçla çelişmektedir. Bununla birlikte, balinalar arasında, iç testislerin tersine çevrilmesi, çeşitli balina türlerini (yunuslar ve yunuslar dahil) Cetacea grubuyla doğru bir şekilde ilişkilendirir . Yine de, en uygun ağacın ve dolayısıyla hangi verilerin ağaca uymadığının belirlenmesi karmaşık bir süreçtir. Maksimum tutumluluk bunu yapmak için geliştirilmiş bir yöntemdir.

Karakter verileri

Maksimum tutumluluk analizinde kullanılan girdi verileri, bir dizi takson için "karakter" biçimindedir. Bir filogenetik karakterin genel olarak üzerinde anlaşmaya varılmış bir tanımı yoktur, ancak işlevsel olarak bir karakter, bir nitelik, taksonların değiştiği gözlemlenen bir eksen olarak düşünülebilir. Bu nitelikler fiziksel (morfolojik), moleküler, genetik, fizyolojik veya davranışsal olabilir. Karakterler üzerindeki tek yaygın anlaşma, karakter analizi için kullanılan varyasyonun kalıtsal varyasyonu yansıtması gerektiğidir . Doğrudan kalıtsal olması gerekip gerekmediği veya dolaylı kalıtımın (örneğin, öğrenilmiş davranışlar) kabul edilebilir olup olmadığı tamamen çözülmemiştir.

Her karakter, gözlemlenen varyasyonların sınıflandırıldığı ayrı karakter durumlarına bölünür . Karakter durumları genellikle karakter alt tabakasının durumunu tanımlayan tanımlayıcılar olarak formüle edilir. Örneğin, "göz rengi" karakteri "mavi" ve "kahverengi" durumlarına sahip olabilir. Karakterlerin iki veya daha fazla durumu olabilir (yalnızca bir durumu olabilir, ancak bu karakterler maksimum cimrilik analizine hiçbir şey katmaz ve çoğu zaman hariç tutulur).

Filogenetik analiz için karakterleri kodlamak kesin bir bilim değildir ve çok sayıda karmaşık konu vardır. Tipik olarak, taksonlar, her birinin farklı bir durumla puanlanan taksonlara göre, o belirli nitelik açısından birbirine daha çok benziyorsa, aynı durumla puanlanır. Karakter durumları açıkça tanımlanmadığında veya bir karakterdeki olası tüm varyasyonları yakalayamadıklarında bu kolay değildir. Ela gözlü bir takson (veya birey) için daha önce bahsedilen karakter nasıl puanlanır? Yoksa yeşil mi? Yukarıda belirtildiği gibi, karakter kodlaması genellikle benzerlik üzerine kuruludur: Ela ve yeşil gözler, o renge daha çok benzedikleri için (açık olmak üzere) mavi ile birleştirilebilir ve karakter daha sonra "göz rengi: açık; koyu" olarak yeniden kodlanabilir. " Alternatif olarak, "göz rengi: kahverengi; ela, mavi; yeşil" gibi çok durumlu karakterler olabilir.

Karakter durumu betimleme ve puanlamasındaki belirsizlikler, karakter verilerini kullanan filogenetik analizde önemli bir karışıklık, anlaşmazlık ve hata kaynağı olabilir. Yukarıdaki örnekte, "gözler: mevcut; yok" ifadesinin de olası bir karakter olduğunu ve gözler mevcut olmadığında "göz rengi"nin geçerli olmadığı için sorun yaratan bir karakter olduğunu unutmayın. Bu gibi durumlar için bir "?" ("bilinmeyen") puanlanır, ancak bazen "X" veya "-" (ikincisi genellikle dizi verilerinde) bir karakterin puanlanamadığı durumları, durumun basitçe bilinmediği bir durumdan ayırt etmek için kullanılır. Mevcut maksimum tutumluluk uygulamaları genellikle bilinmeyen değerleri aynı şekilde ele alır: verilerin bilinmemesinin nedenlerinin analiz üzerinde özel bir etkisi yoktur. Etkili bir şekilde, program bir ? sanki bu, algoritmada açık bir adım olmasa da, ağaçtaki en az fazladan adımı içerecek durumu elinde tutuyormuş gibi (aşağıya bakın).

Protein ve nükleotid sekansları, doğal olarak ayrı olduğu için genetik veriler, en parsimony olarak karakter tabanlı filogenetik yöntemleri için özellikle uygundur: a belirli bir pozisyondaki bir nükleotid dizisi de olabilir adenin , sitozin , guanin , veya timin / urasil veya bir dizi boşluk ; bir protein dizisindeki bir konum ( artık ) , temel amino asitlerden biri veya bir dizi boşluğu olacaktır. Bu nedenle, dizileme yöntemlerinin belirli bir dizi konumu için kesin bir atama üretemediği durumlar dışında, karakter puanlaması nadiren belirsizdir . Nasıl kodlanması gerektiği konusunda bir fikir birliği olmamasına rağmen, dizi boşlukları bazen karakter olarak kabul edilir.

Karakterler sırasız veya sıralı olarak kabul edilebilir. İkili (iki durumlu) bir karakter için bu çok az fark yaratır. Çok durumlu bir karakter için, sırasız karakterlerin herhangi bir durumdan diğerine değişmenin ("evrimsel olay" sayısı açısından) eşit bir "maliyeti" olduğu düşünülebilir; tamamlayıcı olarak, ara durumlardan geçmeyi gerektirmezler. Sıralı karakterler, durumların evrim yoluyla meydana gelmesi gereken belirli bir sıraya sahiptir, öyle ki bazı durumlar arasında geçiş yapmak bir ara maddeden geçmeyi gerektirir. Bu, tamamlayıcı olarak, farklı devlet çiftleri arasında geçiş için farklı maliyetlere sahip olarak düşünülebilir. Yukarıdaki göz rengi örneğinde, kahverengi-mavi, yeşil-mavi, yeşil-ela, vb.'den gitmek için aynı evrimsel "maliyet"i dayatan, onu sırasız bırakmak mümkündür. Alternatif olarak, kahverengi-ela olarak sipariş edilebilir. -yeşil Mavi; bu normalde kahverengi-yeşilden iki, kahverengi-maviden üç, ama kahverengi-eladan sadece bir evrimsel olaya mal olacağı anlamına gelir. Bu aynı zamanda, gözlerin kahverengiden yeşile geçmek için bir "ela aşaması" ve eladan maviye geçmek için "yeşil bir aşama", vb. onlar sipariş edilmelidir. Aksine, şekil, boyut ve oran karakterleri gibi temeldeki bir sürekli değişkenin ayrıklaştırılmasını temsil eden karakterler için sıralama mantıklıdır ve simülasyonlar bunun, hatalı bölümlerin kurtarılmasını azaltırken, doğru bölümleri kurtarma yeteneğini geliştirdiğini göstermiştir.

Karakter sıralamasının faydası ve uygunluğu konusunda hararetli bir tartışma var ama fikir birliği yok. Bazı otoriteler , durumlar arasında açık bir mantıksal, ontogenetik veya evrimsel geçiş olduğunda (örneğin, "bacaklar: kısa; orta; uzun") karakterleri sıralar . Bazıları bu kriterlerden sadece bazılarını kabul eder. Bazıları sırasız bir analiz yürütür ve elde edilen ağaçta net bir geçiş sırası gösteren karakterleri sıralar (ki bu uygulama döngüsel akıl yürütmeyle suçlanabilir ). Bazı otoriteler, belirli bir yolu takip etmek için evrimsel geçişleri gerektirmek için bir analizin önyargılı olduğunu öne sürerek karakterleri sıralamayı hiç reddederler.

Ayrı ayrı karakterlere farklı ağırlık uygulamak da mümkündür. Bu genellikle 1'lik bir "maliyet"e göre yapılır. Bu nedenle, bazı karakterlerin taksonlar arasındaki gerçek evrimsel ilişkileri yansıtma olasılığı daha yüksek olarak görülebilir ve bu nedenle 2 veya daha fazla bir değerde ağırlıklandırılabilirler; bu karakterlerdeki değişiklikler, ağaç puanlarını hesaplarken bir değil, iki evrimsel "adım" olarak sayılır (aşağıya bakın). Geçmişte karakter ağırlığı hakkında çok fazla tartışma yapıldı. İstisnalar yaygın olsa da çoğu otorite artık tüm karakterlere eşit ağırlık veriyor. Örneğin, alel frekans verileri bazen kutularda toplanır ve sıralı bir karakter olarak puanlanır. Bu durumlarda, alel frekanslarındaki küçük değişikliklerin diğer karakterlerdeki büyük değişikliklerden daha az sayılması için karakterin kendisi genellikle düşük ağırlıklıdır. Ayrıca, bir kodlama nükleotid dizisindeki üçüncü kodon pozisyonu özellikle kararsızdır ve bazen homoplasti sergileme olasılığının daha yüksek olduğu varsayımıyla ağırlığı düşürülür veya 0 ağırlık verilir. Bazı durumlarda, önceki analizde keşfedilen homoplazi derecesi ile ters orantılı olarak yeniden ağırlıklandırılan karakterlerle tekrarlanan analizler yapılır ( ardışık ağırlıklandırma olarak adlandırılır ); Bu, döngüsel akıl yürütme olarak kabul edilebilecek başka bir tekniktir .

Karakter durumu değişiklikleri de ayrı ayrı ağırlıklandırılabilir. Bu genellikle nükleotid dizi verileri için yapılır ; bazı baz değişikliklerinin (AC, AT, GC, GT ve ters değişiklikler) diğerlerinden (AG, CT ve bunların ters değişiklikleri) çok daha az meydana geldiği ampirik olarak belirlenmiştir. Bu değişiklikler bu nedenle genellikle daha fazla ağırlıklıdır. Yukarıda karakter sıralaması tartışmasında gösterildiği gibi, sıralı karakterler bir karakter durumu ağırlıklandırma biçimi olarak düşünülebilir.

Bazı sistematikçiler, oldukça homoplastik olduğu bilinen veya olduğundan şüphelenilen veya çok sayıda bilinmeyen girişi ("?") olan karakterleri hariç tutmayı tercih eder. Aşağıda belirtildiği gibi, teorik ve simülasyon çalışmaları, bunun doğruluğu iyileştirmek yerine büyük olasılıkla fedakarlık ettiğini göstermiştir. Bu aynı zamanda terminal taksonlarında değişken olan karakterler için de geçerlidir: teorik, uyum ve simülasyon çalışmalarının tümü, bu tür polimorfik karakterlerin önemli filogenetik bilgiler içerdiğini göstermiştir.

takson örneklemesi

Bir tutumluluk analizi (veya herhangi bir filogenetik analiz) için gereken süre , analize dahil edilen takson (ve karakter) sayısı ile orantılıdır . Ayrıca, daha fazla takson tahmin etmek için daha fazla dal gerektirdiğinden, büyük analizlerde daha fazla belirsizlik beklenebilir. Zaman ve para olarak veri toplama maliyetleri genellikle dahil edilen taksonların sayısıyla doğrudan ölçeklendiğinden, çoğu analiz, örneklenebilecek taksonların yalnızca bir kısmını içerir. Gerçekten de, bazı yazarlar, doğru filogenetik analiz için gerekli olan her şeyin dört taksonun (anlamlı bir köksüz ağaç üretmek için gereken minimum) olduğunu ve filogenetikte daha fazla karakterin daha fazla taksondan daha değerli olduğunu iddia etmişlerdir. Bu, takson örneklemesi hakkında şiddetli bir tartışmaya yol açmıştır.

Ampirik, teorik ve simülasyon çalışmaları, yeterli takson örneklemesinin önemine dair bir dizi çarpıcı gösteriye yol açmıştır. Bunların çoğu basit bir gözlemle özetlenebilir: filogenetik bir veri matrisi, karakter çarpı takson boyutlarına sahiptir . Takson sayısını iki katına çıkarmak, bir matristeki bilgi miktarını, karakter sayısını iki katına çıkarmak kadar kesin bir şekilde iki katına çıkarır. Her takson, her karakter için yeni bir örneği temsil eder, ancak daha da önemlisi, (genellikle) karakter durumlarının yeni bir kombinasyonunu temsil eder . Bu karakter durumları, yalnızca o taksonun ağaçta nereye yerleştirildiğini belirlemekle kalmaz, tüm analize bilgi verebilir, muhtemelen karakter değişiklikleri modelinin tahminlerini değiştirerek kalan taksonlar arasında farklı ilişkilerin tercih edilmesine neden olabilir.

Tutarlılık analizinin en rahatsız edici zayıflığı, uzun dal çekiciliği (aşağıya bakınız), özellikle dört takson durumunda, zayıf takson örneklemesi ile özellikle belirgindir. Bu, ek karakter örneklemesinin tahminin kalitesini iyileştirmeyebileceği iyi anlaşılmış bir durumdur. Taksonlar eklendikçe, genellikle uzun dalları kırarlar (özellikle fosiller söz konusu olduğunda), bunlar boyunca karakter durumu değişikliklerinin tahminini etkin bir şekilde iyileştirir. Takson örneklemesi ile eklenen bilgi zenginliği nedeniyle, sadece birkaç bin karakter kullanarak yüzlerce taksonla yüksek doğrulukta filogeni tahminleri üretmek bile mümkündür.

Birçok çalışma yapılmış olmasına rağmen, takson örnekleme stratejileri konusunda daha yapılacak çok iş vardır. Bilgisayar performansındaki ilerlemeler ve moleküler dizilemenin düşük maliyeti ve artan otomasyonu nedeniyle, genel olarak örnek boyutları artıyor ve yüzlerce taksonun (veya genler gibi diğer terminal varlıkların) ilişkilerini ele alan çalışmalar yaygınlaşıyor. Elbette bu, karakter eklemenin de yararlı olmadığı anlamına gelmiyor; karakter sayısı da artıyor.

Bazı sistematikçiler, gösterdikleri bilinmeyen karakter girişlerinin ("?") sayısına göre veya analizlerde ağacın "etrafında zıplama" eğiliminde olduklarından (yani, "joker karakterler" olduklarından) taksonları hariç tutmayı tercih ederler. Aşağıda belirtildiği gibi, teorik ve simülasyon çalışmaları, bunun doğruluğu iyileştirmek yerine büyük olasılıkla fedakarlık ettiğini göstermiştir. Bu taksonlar daha cimri ağaçlar üretebilse de (aşağıya bakınız), anlaşma alt ağaçları ve azaltılmış konsensüs gibi yöntemler yine de ilgi ilişkileri hakkında bilgi çıkarabilir.

Daha fazla taksonun dahil edilmesinin genel destek değerlerini düşürme eğiliminde olduğu gözlemlenmiştir ( önyükleme yüzdeleri veya bozulma indeksleri, aşağıya bakınız). Bunun nedeni açıktır: Bir ağaca ek taksonlar eklendikçe, bağlandıkları dalları alt bölümlere ayırırlar ve böylece o dalı destekleyen bilgileri seyreltirler. Bireysel şubelere verilen destek azalırken, genel ilişkilere verilen destek aslında artırılır. Aşağıdaki ağacı üreten analizi düşünün: (balık, (kertenkele, (balina, (kedi, maymun)))). Bir sıçan ve bir mors eklemek muhtemelen (balina, (kedi, maymun)) kanadına olan desteği azaltacaktır, çünkü fare ve mors bu dalın içine veya dışına düşebilir ve bu beş hayvanın tümü göreli olarak yakından ilişkiliyse, ilişkileri hakkında daha fazla belirsizlik olmalıdır. Hata içinde, bu hayvanların birbirleriyle olan ilişkilerini belirlemek imkansız olabilir. Bununla birlikte, sıçan ve deniz aygırı muhtemelen, balık veya kertenkele hariç bu memelilerden herhangi ikisinin gruplandırılmasını sağlamlaştıran karakter verilerini ekleyecektir; örneğin balık ve balinadaki yüzgeçlerin varlığı, balina gibi balina yağı ve yüzgeçleri olan ama kedi ve sıçan gibi bıyıkları olan morsun mevcudiyeti, ilk analizin yanlış yönlendirilmiş olabileceği durumlarda, balinayı sıkıca birbirine bağlar. memeliler.

Bu sorunla başa çıkmak için, anlaşma alt ağaçları , azaltılmış fikir birliği ve çift ​​bozulma analizi , desteklenen ilişkileri tanımlamaya çalışır (dört takson ifadesi gibi "n-takson ifadeleri" şeklinde "(balık, (kertenkele, (kedi)). , balina)))") bütün ağaçlar yerine. Karşılaştırmalı filogenetikte olduğu gibi bir analizin amacı çözümlenmiş bir ağaç ise , bu yöntemler sorunu çözemez. Bununla birlikte, ağaç tahmini çok zayıf destekleniyorsa, ağaçtan türetilen herhangi bir analizin sonuçları muhtemelen zaten kullanmak için çok şüpheli olacaktır.

analiz

Maksimum tutumluluk analizi çok basit bir şekilde çalışır. Ağaçlar, karakter verilerinin cimri bir dağılımını ifade etme derecesine göre puanlanır. Veri seti için en cimri ağaç, analizde taksonlar arasındaki ilişkilerin tercih edilen hipotezini temsil eder.

Ağaçlar, her bir karakterin dağılımını açıklamak için kaç "adım" (evrimsel geçiş) gerektiğini belirlemek için basit bir algoritma kullanılarak puanlanır (değerlendirilir). Bir adım, özünde, bir karakter durumundan diğerine geçiştir, ancak sıralı karakterlerle bazı geçişler birden fazla adım gerektirebilir. Popüler inanışın aksine, algoritma bir ağaçtaki düğümlere (dal kavşakları) belirli karakter durumlarını açıkça atamaz: en az adım, birden çok, eşit maliyetli atamaları ve evrimsel geçişlerin dağıtımlarını içerebilir. Optimize edilen, toplam değişiklik sayısıdır.

Sekizden fazla takson için kapsamlı bir şekilde aranabilecek çok daha fazla olası filogenetik ağaç vardır . Bu nedenle olası ağaçlar arasında arama yapmak için bir dizi algoritma kullanılır. Bunların çoğu, bir başlangıç ​​ağacı (genellikle algoritmanın son yinelemesinden tercih edilen ağaç) almayı ve değişikliğin daha yüksek bir puan üretip üretmediğini görmek için onu bozmayı içerir.

Parsimony aramasından kaynaklanan ağaçlar köksüzdür: Dahil edilen taksonların tüm olası ilişkilerini gösterirler, ancak göreceli sapma zamanları hakkında herhangi bir ifadeden yoksundurlar. Ağacı köklendirmek için kullanıcı tarafından belirli bir dal seçilir. Bu dal daha sonra birlikte monofiletik bir grup oluşturan ağacın diğer tüm dallarının dışında kabul edilir . Bu, ağaca göreli bir zaman duygusu verir. Bir kökün yanlış seçimi, ağacın kendisi köklenmemiş haliyle doğru olsa bile, ağaçta yanlış ilişkilere neden olabilir.

Parsimony analizi genellikle bir dizi eşit derecede en cimri ağaç (MPT'ler) döndürür. Çok sayıda MPT genellikle analitik bir başarısızlık olarak görülür ve yaygın olarak veri kümesindeki eksik girişlerin ("?") sayısı, karakterlerin çok fazla homoplazi göstermesi veya topolojik olarak kararsız "joker karakter" varlığı ile ilgili olduğuna inanılır. takson (birçok eksik girişi olabilir). MPT'lerin sayısını azaltmak için, analizden önce büyük miktarda eksik veriye sahip karakterlerin veya taksonların çıkarılması, yüksek homoplastik karakterlerin kaldırılması veya ağırlığının düşürülmesi ( ardışık ağırlıklandırma ) veya joker karakter taksonlarının ( filogenetik gövde yöntemi) a posteriori ve daha sonra çıkarılması dahil olmak üzere çok sayıda yöntem önerilmiştir. verileri yeniden analiz ediyor.

Çok sayıda teorik ve simülasyon çalışması, yüksek oranda homoplastik karakterlerin, karakterlerin ve bol miktarda eksik veri içeren taksonların ve "joker karakter" taksonlarının analize katkıda bulunduğunu göstermiştir. Karakterleri veya taksonları hariç tutmak çözünürlüğü iyileştiriyor gibi görünse de, elde edilen ağaç daha az veriye dayanır ve bu nedenle filogeninin daha az güvenilir bir tahminidir (karakterler veya taksonlar bilgilendirici olmadıkça, bkz. güvenli taksonomik indirgeme ). Günümüzün genel fikir birliği, birden fazla MPT'ye sahip olmanın geçerli bir analitik sonuç olduğudur; sadece ağacı tamamen çözmek için yeterli veri olmadığını gösterir. Çoğu durumda, MPT'lerde önemli ölçüde ortak bir yapı vardır ve farklılıklar azdır ve birkaç taksonun yerleşiminde belirsizlik içerir. Tüm taksonlar arasındaki ortak ilişkileri gösteren konsensüs ağaçları ve hepsi aynı fikirde olana kadar her ağaçtan "joker karakter" taksonları geçici olarak budanarak ortak yapı gösteren budanmış anlaşma alt ağaçları da dahil olmak üzere, bu küme içindeki ilişkileri özetlemek için bir dizi yöntem vardır. . Azaltılmış fikir birliği , girdi ağaçları tarafından desteklenen tüm alt ağaçları (ve dolayısıyla tüm ilişkileri) göstererek bunu bir adım daha ileri götürür.

Birden çok MPT döndürülse bile, tutumluluk analizi temel olarak herhangi bir tür güven aralığından yoksun bir nokta tahmini üretir . En cimri ağacı tahmin etmede kesinlikle bir hata olduğundan ve yöntem doğası gereği sonuçlarının bu hataya ne kadar duyarlı olduğunu belirlemenin herhangi bir yolunu içermediğinden, bu genellikle bir eleştiri olarak tesviye edilmiştir. Desteği değerlendirmek için çeşitli yöntemler kullanılmıştır.

İyi bilinen istatistiksel yeniden örnekleme prosedürleri olan Jackknifing ve önyükleme , tutumluluk analizi ile kullanılmıştır. Değiştirmeden yeniden örnekleme ("birini dışarıda bırak") içeren jackknife, karakterler veya taksonlar üzerinde kullanılabilir; İkinci durumda yorum karmaşık hale gelebilir, çünkü ilgilenilen değişken ağaçtır ve ağaçların farklı taksonlarla karşılaştırılması kolay değildir. Değiştirme ile yeniden örnekleme (örnek x öğeleri x boyutundaki bir örnekten rastgele, ancak öğeler birden çok kez seçilebilir) önyükleme, yalnızca karakterler üzerinde kullanılır, çünkü yinelenen takson eklemek bir tutumluluk analizinin sonucunu değiştirmez. Önyükleme, filogenetikte (başka yerlerde olduğu gibi) çok daha yaygın olarak kullanılır; her iki yöntem de, orijinal verilerin bozulmasını ve ardından analizin yapılmasını içeren keyfi ancak çok sayıda tekrarlanan yineleme içerir. Her analizden elde edilen MPT'ler bir havuzda toplanır ve sonuçlar genellikle , göründükleri önyükleme MPT'lerinin yüzdesiyle etiketlenen bireysel dallar (veya düğümler) ile %50 Çoğunluk Kuralı Uzlaşması ağacında sunulur. Bu "önyükleme yüzdesi" ( bazen iddia edildiği gibi bir P değeri değildir ) bir destek ölçüsü olarak kullanılır. Teknik olarak, taksonlar tekrar örneklenirse o dalın (düğüm, dal) kurtarılma olasılığı olan tekrarlanabilirliğin bir ölçüsü olduğu varsayılır. Viral filogenilerle yapılan deneysel testler, önyükleme yüzdesinin filogenetik için tekrarlanabilirliğin iyi bir tahmincisi olmadığını, ancak doğruluğun makul bir tahmincisi olduğunu göstermektedir. Aslında, bir doğruluk tahmincisi olarak önyükleme yüzdesinin taraflı olduğu ve bu önyargının ortalama olarak güvenin olduğundan az tahmin edilmesiyle sonuçlandığı gösterilmiştir (%70 kadar küçük bir destek gerçekten %95'e kadar güveni gösterebilir. ). Bununla birlikte, bireysel durumlarda yanlılığın yönü tespit edilemez, bu nedenle yüksek değerlerin önyükleme desteğinin daha da yüksek güveni gösterdiğini varsaymak yersizdir.

Desteği değerlendirmenin başka bir yolu, yukarıda açıklanan önyükleme ve çakı prosedürleri gibi sözde kopyalanmış alt örneklere dayalı bir tahminden ziyade , Bremer desteği veya belirli bir veri kümesinin bir parametresi olan bozulma indeksidir . (Aynı zamanda dal destek olarak da bilinir) Bremer destek sadece MPT (s) puan arasındaki adım sayısı farkı ve etmez en anlamlı ağacın puanı olup , belirli bir clade (düğüm, dal) içerir. Bu bölümü kaybetmek için eklemeniz gereken adımların sayısı olarak düşünülebilir; örtük olarak, klad için artık analiz tarafından desteklenmemesi için MPT puanının tahminindeki hatanın ne kadar büyük olması gerektiğini önermek kastedilmektedir, ancak bunu yapması zorunlu değildir. Şube destek değerleri genellikle orta büyüklükteki veri kümeleri için oldukça düşüktür (bir veya iki adım tipiktir), ancak genellikle önyükleme yüzdeleriyle orantılı gibi görünürler. Veri matrisleri büyüdükçe, önyükleme değerleri %100'de sabit kaldığından şube destek değerleri genellikle artmaya devam eder. Bu nedenle, büyük veri matrisleri için, şube destek değerleri, güçlü bir şekilde desteklenen şubeler için desteği karşılaştırmak için daha bilgilendirici bir araç sağlayabilir. Bununla birlikte, bozunma değerlerinin yorumlanması kolay değildir ve önyüklemeye felsefi itirazları olan yazarlar tarafından tercih ediliyor gibi görünmektedir (her ne kadar birçok morfolojik sistematist, özellikle paleontologlar her ikisini de rapor etse de). Çift bozunma analizi , bir ağaç içindeki tüm olası alt ağaç ilişkileri (n-takson ifadeleri) için bozunma indeksini değerlendiren, azaltılmış konsensüsün bozunma karşılığıdır .

Maksimum tutumlu filogenetik çıkarımla ilgili sorunlar

Uzun şube çekiciliğine bir örnek . A ve C dalları "gerçek ağaçta" çok sayıda ikameye sahipse (varsayım, simülasyonlar dışında hiçbir zaman gerçekte bilinmez), o zaman cimrilik paralel değişiklikleri sinapomorfiler ve A ve C gruplarını birlikte yorumlayabilir . 

Azami tutumluluk, az sayıda mekanik varsayımda bulunan ve bu nedenle popüler olan epistemolojik olarak basit bir yaklaşımdır. Ancak, belirli koşullar altında istatistiksel olarak tutarlı olmayabilir . Tutarlılık, burada daha fazla veri eklenmesiyle doğru cevap üzerinde monoton yakınsama anlamına gelen, istatistiksel yöntemlerin arzu edilen bir özelliğidir . 1978'de Joe Felsenstein tarafından gösterildiği gibi , belirli koşullar altında maksimum cimrilik tutarsız olabilir. Bunun meydana geldiği bilinen durum kategorisine uzun dal çekimi denir ve örneğin, iki karakter (A ve C) için uzun dallar (yüksek düzeyde ikameler), ancak diğer iki karakter için kısa dallar olduğunda meydana gelir. (B&D). A ve B, C ve D gibi ortak bir atadan ayrıldı.

Basitlik için tek bir ikili karakter düşündüğümüzü varsayın (+ veya - olabilir). B'den D'ye olan mesafe küçük olduğundan, tüm durumların büyük çoğunluğunda B ve D aynı olacaktır. Burada her ikisinin de + (+ ve - keyfi olarak atandığını ve bunların değiştirilmesinin yalnızca bir tanım meselesi olduğunu) kabul edeceğiz. Eğer durum buysa, geriye kalan dört olasılık vardır. A ve C'nin ikisi de + olabilir, bu durumda tüm taksonlar aynıdır ve tüm ağaçlar aynı uzunluktadır. A + olabilir ve C - olabilir, bu durumda sadece bir karakter farklıdır ve tüm ağaçların uzunluğu aynı olduğundan hiçbir şey öğrenemeyiz. Benzer şekilde, A - olabilir ve C + olabilir. Geriye kalan tek olasılık, A ve C'nin ikisinin de - olmasıdır. Ancak bu durumda, kanıtlar A ve C'nin birlikte ve B ve D'nin birlikte olduğunu göstermektedir. Sonuç olarak, eğer "gerçek ağaç" bu tür bir ağaç ise, ne kadar çok veri toplarsak (yani ne kadar çok karakter incelersek), kanıt o kadar yanlış ağacı destekleyecektir. Elbette matematiksel simülasyonlar dışında "gerçek ağaç"ın ne olduğunu asla bilemeyiz. Bu nedenle, "gerçek ağacı" doğru bir şekilde elde etmeyi garanti eden bir model tasarlayamazsak, başka herhangi bir optimallik kriteri veya ağırlıklandırma şeması da prensipte istatistiksel olarak tutarsız olabilir. Sonuç olarak, istatistiksel tutarsızlık ilginç bir teorik konu olsa da, ampirik test alanının dışında, ampirik olarak tamamen metafizik bir endişedir. Herhangi bir yöntem tutarsız olabilir ve bunun olup olmadığını kesin olarak bilmenin bir yolu yoktur. Bu nedenle birçok sistemci, filogenetik sonuçlarını ilişki hipotezleri olarak nitelendiriyor.

Maksimum cimrilik ve diğer optimallik kriterine dayalı filogenetik metotlarla ilgili diğer bir komplikasyon, en kısa ağacı bulmanın NP-zor bir problem olmasıdır. Keyfi olarak büyük bir takson seti verildiğinde bir çözüm elde etmenin şu anda mevcut olan tek etkili yolu, en kısa ağacın geri kazanılacağını garanti etmeyen buluşsal yöntemler kullanmaktır. Bu yöntemler , en iyi ağaca aşamalı olarak yaklaşmak için tepe tırmanma algoritmalarını kullanır . Bununla birlikte, optimal olmayan çözümlerin "ağaç adaları" olabileceği ve analizin bu yerel optimumlarda sıkışıp kalabileceği gösterilmiştir . Bu nedenle, ağaç alanının yeterince araştırıldığından emin olmak için karmaşık, esnek buluşsal yöntemler gereklidir. En yakın komşu değişimi (NNI), ağaç ikiye bölme yeniden bağlantısı (TBR) ve cimrilik mandalı dahil olmak üzere çeşitli buluşsal yöntemler mevcuttur .

eleştiri

Özellikle paleontoloji için büyük bir problemin, maksimum tutumluluğun, iki türün aynı nükleotidi aynı pozisyonda paylaşabilmelerinin tek yolunun, eğer genetik olarak ilişkili olmaları olduğunu varsaymasıdır. Bu, tutumluluğun filogenetik uygulamalarının tüm benzerliğin homolog olduğunu varsaydığını ileri sürer (iki organizmanın hiçbir şekilde ilişkili olmayabileceği iddiası gibi diğer yorumlar anlamsızdır). Bu kesinlikle böyle değildir: karaktere dayalı herhangi bir filogeni tahmininde olduğu gibi, tüm benzerlikleri en iyi açıklayan filogenetik ağacı bularak benzerliklerin homolog doğasını test etmek için tutumluluk kullanılır.

"Evrim cimri değildir" diye, cimriliğin filogenetik çıkarımla ilgili olmadığı sıklıkla belirtilir. Çoğu durumda, önerilen açık bir alternatif yoktur; alternatif yoksa, herhangi bir istatistiksel yöntem hiç olmamasına tercih edilir. Ayrıca, "evrim cimridir" ifadesi gerçekten doğru olsaydı ne anlama gelirdi, net değil. Bu, tarihsel olarak tutumluluk kriteri kullanılarak tahmin edilenden daha fazla karakter değişikliğinin gerçekleşmiş olabileceği anlamına gelebilir. Parsimony filogeni tahmini, bir ağacı açıklamak için gereken minimum değişiklik sayısını yeniden yapılandırdığından, bu oldukça mümkündür. Bununla birlikte, simülasyon çalışmaları, bilinen in vitro viral filogenilerle test etme ve diğer yöntemlerle uyumluluk yoluyla, çoğu durumda cimriliğin doğruluğunun bundan ödün vermediği gösterilmiştir. Parsimony analizi, en iyi ağacı seçmek için ağaçlardaki karakter değişikliklerinin sayısını kullanır, ancak tam olarak bu kadar çok değişikliğin ve daha fazlasının ağacı üretmesini gerektirmez. Hesaplanmayan değişiklikler ağaç üzerinde rastgele dağıtıldığı sürece (makul bir boş beklenti), sonuç önyargılı olmamalıdır. Pratikte teknik sağlamdır: maksimum tutumluluk, en az değişiklikle ağacı seçmenin bir sonucu olarak minimum önyargı sergiler.

Bir işin maliyetine ilişkin ilk (bağlayıcı olmayan) tahminlerine dayalı olarak müteahhitler arasından seçim yapmakla bir benzetme yapılabilir. Gerçek bitmiş maliyetin tahmin edilenden daha yüksek olması çok muhtemeldir. Buna rağmen, en düşük tahmini veren yüklenicinin seçilmesi teorik olarak en düşük nihai proje maliyeti ile sonuçlanmalıdır. Bunun nedeni, diğer verilerin yokluğunda, ilgili tüm yüklenicilerin aynı maliyet aşımları riskine sahip olduğunu varsaymamızdır. Pratikte, elbette, vicdansız iş uygulamaları bu sonucu saptırabilir; filogenetikte de, bazı belirli filogenetik problemler (örneğin, yukarıda açıklanan uzun dal çekiciliği ) potansiyel olarak yanlı sonuçlar verebilir. Ancak her iki durumda da, sonucun yanlı olup olmayacağını veya tahminin kendisine dayalı olarak ne ölçüde yanlı olacağını söylemenin bir yolu yoktur. Tutarlılıkla da, diğer kanıtlarla karşılaştırmadan, verilerin olumlu bir şekilde yanıltıcı olduğunu söylemenin bir yolu yoktur.

Parsimony, genellikle, evrimsel değişimin nadir olduğu veya evrimde homoplazinin (yakınsama ve tersine çevrilmesi) minimal olduğu pozisyonunu örtük olarak benimsemekle karakterize edilir. Bu tamamen doğru değildir: tutumluluk, tercih edilen ağaç tarafından varsayılan yakınsama ve geri dönüşlerin sayısını en aza indirir, ancak bu, nispeten çok sayıda homoplastik olayla sonuçlanabilir. Parsimony'nin yalnızca verilerin ima ettiği minimum değişiklik miktarını varsaydığını söylemek daha uygun olacaktır. Yukarıdaki gibi, bu, meydana gelen değişikliklerin yalnızca bunlar olmasını gerektirmez; sadece kanıt bulunmayan değişiklikleri çıkarmaz. Bunu tanımlamanın kısa yolu şudur: "tutumluluk varsayılan homoplazileri en aza indirir, homoplazinin minimal olduğunu varsaymaz."

Son simülasyon çalışmaları, cimriliğin, morfolojik veriler için Bayes yaklaşımları kullanılarak inşa edilen ağaçlardan daha az doğru olabileceğini, bunun tartışmalı olmasına rağmen, potansiyel olarak aşırı hassasiyetten kaynaklanabileceğini göstermektedir. Yeni simülasyon yöntemlerini kullanan çalışmalar, çıkarım yöntemleri arasındaki farklılıkların kullanılan optimizasyondan ziyade arama stratejisi ve kullanılan fikir birliği yönteminden kaynaklandığını göstermiştir. Ayrıca, 38 moleküler ve 86 morfolojik ampirik veri setinin analizleri, model tabanlı filogenetikte kullanılan evrimsel modellerin varsaydığı ortak mekanizmanın çoğu moleküler, ancak birkaç morfolojik veri seti için geçerli olduğunu göstermiştir. Bu bulgu, moleküler veriler için modele dayalı filogenetiğin kullanımını doğrular, ancak morfolojik veriler için, en azından fenotipik veriler için daha karmaşık modeller mevcut olana kadar, tutumluluğun avantajlı kaldığını öne sürer.

alternatifler

Maksimum olabilirlik ve Bayes çıkarımı da dahil olmak üzere, ayrık karakter verilerine dayalı filogenileri çıkarmak için başka yöntemler de vardır . Her biri potansiyel avantajlar ve dezavantajlar sunar. Uygulamada, bu yöntemler aynı veri kümesi için en cimri ağaç(lar)a çok benzeyen ağaçları tercih etme eğilimindedir; bununla birlikte, evrimsel süreçlerin karmaşık modellemesine izin verirler ve yöntem sınıfları istatistiksel olarak tutarlıdır ve uzun dalların çekiciliğine duyarlı değildir . Ancak, olabilirlik ve Bayes yöntemlerinin performansının, kullanılan belirli evrim modelinin kalitesine bağlı olduğuna dikkat edin ; yanlış bir model, önyargılı bir sonuç üretebilir - tıpkı tutumluluk gibi. Ayrıca, cimrilik yöntemlerine göre hesaplama açısından hala oldukça yavaştırlar ve bazen büyük veri kümelerini çalıştırmak için haftalar gerektirebilir. Bu yöntemlerin çoğunun özellikle hevesli savunucuları ve kötüleyicileri vardır; cimrilik özellikle felsefi olarak üstün olarak savunulmuştur (en önemlisi ateşli cladistler tarafından ). Tutumluluğun hâlâ çok etkili olduğu bir alan, morfolojik verilerin analizidir, çünkü yakın zamana kadar, moleküler olmayan veriler için stokastik karakter değişimi modelleri mevcut değildi ve bunlar hala geniş çapta uygulanmadı. Parsimony'nin son zamanlarda, bir ağaç içindeki evrimsel ("model") parametrelerdeki (örneğin, evrimsel değişim hızı) derin değişiklikler karşısında gerçek ağacı kurtarma olasılığının daha yüksek olduğu gösterilmiştir.

Uzaklık matrisleri , filogenetik ağaçlar oluşturmak için de kullanılabilir. Parametrik olmayan uzaklık yöntemleri, başlangıçta , bir ikili mesafeler matrisi kullanılarak fenetik verilere uygulandı ve bir ağaç üretmek için uzlaştırıldı . Mesafe matris dahil olmak üzere farklı kaynaklardan, bir dizi gelebilir immünolojik mesafe , morfometrik analizi ve genetik mesafe . Filogenetik karakter verileri için, ham mesafe değerleri, karakter durumlarındaki ( Manhattan mesafesi ) ikili farklılıkların sayısı basitçe sayılarak veya bir evrim modeli uygulanarak hesaplanabilir . Dikkat çekici bir şekilde, mesafe yöntemleri, DNA-DNA hibridizasyon deneyleri gibi kolayca karakter verilerine dönüştürülemeyen verilerin kullanımına da izin verir . Bugün, mesafeye dayalı yöntemler genellikle hoş karşılanmaz, çünkü karakterleri mesafelere dönüştürürken filogenetik olarak bilgilendirici veriler kaybolabilir. Minimum evrim kriterinin maksimum cimrilikle en yakından ilişkili olduğu bir dizi uzaklık matrisi yöntemi ve optimallik kriteri vardır.

Minimum Evrim

Uzaklık yöntemleri arasında , en kısa toplam dal uzunluklarına sahip filogeniyi arama yönünü maksimum tutumlulukla paylaşan Minimum Evrim (ME) olarak bilinen bir filogenetik tahmin kriteri vardır.

İnce bir fark, maksimum cimrilik kriterini ME kriterinden ayırır: maksimum cimrilik, bir kaçırma buluşsal yöntemine, yani taksonların en basit evrimsel hipotezinin daha karmaşık olanlara göre akla yatkınlığına dayanırken, ME kriteri, Kidd ve Sgaramella-Zonta'nın varsayımları (22 yıl sonra Rzhetsky ve Nei tarafından doğruluğu kanıtlanmıştır), eğer taksonlardan evrimsel uzaklıklar gerçek evrimsel uzaklıkların tarafsız tahminleri olsaydı, o zaman taksonların gerçek filogenisi, uyumlu diğer alternatif filogenilerden daha kısa olurdu. bu mesafelerle. Rzhetsky ve Nei'nin sonuçları, ME kriterini Occam'ın ustura ilkesinden bağımsız hale getiriyor ve ona sağlam bir teorik ve nicel temel sağlıyor.

Ayrıca bakınız

Referanslar