deyim - Phrap

Phrap , DNA dizisi montajı için yaygın olarak kullanılan bir programdır . Bu bir parçası olan Phred -Phrap- Consed paketinin.

Tarih

Phrap, ilk olarak Prof. Phil Green tarafından , İnsan Genom Projesi kapsamında büyük ölçekli kozmid av tüfeği dizilemesinde kozmidlerin birleştirilmesi için geliştirilmiştir . Phrap, bakteri genom düzenekleri ve EST düzenekleri dahil olmak üzere birçok farklı dizi birleştirme projesinde yaygın olarak kullanılmaktadır.

Phrap, genom dizileme merkezlerinde otomatikleştirilmiş veri iş akışlarına kolay entegrasyon için bir komut satırı programı olarak yazılmıştır. Phrap'i bir grafik arabirimden kullanmak isteyen kullanıcılar için MacVector ( yalnızca Mac OS X için) ve CodonCode Aligner ( Mac OS X ve Microsoft Windows için ) ticari programları mevcuttur.

yöntemler

Phrap algoritmalarının ayrıntılı (kısmen eski olsa da) açıklaması Phrap belgelerinde bulunabilir . Phrap algoritmaları içinde yinelenen bir iş parçacığı, Phred kalite puanlarının kullanılmasıdır . Phrap, İnsan Genom Projesi'nin başlangıcında diğer birleştirme programlarının mücadele ettiği bir sorunu azaltmak için kalite puanlarını kullandı : sık sık kusurlu tekrarları, özellikle Alu dizilerini doğru şekilde bir araya getirmek . Phrap, tekrarlanan bölgelerde gözlemlenen farklılıkların muhtemelen sıralama sürecindeki rastgele belirsizliklerden mi yoksa daha büyük olasılıkla Alu tekrarının farklı kopyalarından gelen dizilerden mi kaynaklandığını söylemek için kalite puanlarını kullanır. Tipik olarak, Phrap bir kozmiddeki farklı Alu kopyaları arasında ayrım yapmakta ve kozmidleri (veya daha sonra BAC'leri ) doğru bir şekilde birleştirmek için hiçbir sorun yaşamadı . Mantık basittir: doğru olma olasılığı yüksek olan bir baz araması, asla başka bir yüksek kaliteli ancak farklı baz ile hizalanmamalıdır. Bununla birlikte, Phrap bu tür hizalamaları tamamen dışlamaz ve yerel hizalamaları ararken kullanılan cross_match hizalama boşluğu ve hizalama cezaları, tipik sıralama hataları ve örtüşen (bitişik) diziler için bir arama için her zaman optimal değildir. (Afin boşlukları, homoloji aramaları için yararlıdır, ancak genellikle hata hizalamasının sıralanması için değildir). Phrap, kimeraları, vektör dizilerini ve düşük kaliteli uç bölgeleri tek bir hizada sınıflandırmaya çalışır ve bazen hata yapar. Ayrıca, Phrap'in dahili olarak birden fazla montaj oluşturma turu vardır ve sonraki turlar daha az katıdır - Açgözlü algoritma.

Bu tasarım seçimleri, programın ilk yazıldığı 1990'larda (Saint Louis, ABD'deki Washington Üniversitesi'nde) yardımcı oldu, ancak şimdi daha az. Phrap, Euler gibi daha yeni birleştiricilere kıyasla hataya açık görünüyor ve montaja rehberlik etmek ve mükemmel tekrarları birleştirmek için doğrudan eş-çift bilgisini kullanamıyor. Phrap özgür bir yazılım değildir, bu nedenle daha az kısıtlanmış açık kaynaklı yazılım Sequence Assembly gibi genişletilmemiştir ve geliştirilmemiştir .

Kaliteye dayalı konsensüs dizileri

Phrap tarafından Phred kalite puanlarının programın başarısına katkıda bulunan bir diğer kullanımı, dizi nitelikleri kullanılarak konsensüs dizilerinin belirlenmesiydi. Aslında, Phrap, İnsan Genom Projesinin ilk aşamalarında önemli bir darboğaz olan bir adımı otomatikleştirdi: Birleştirilmiş dizilerin farklı bazlara sahip olduğu tüm konumlarda doğru konsensüs dizisini belirlemek. Bu yaklaşım Bonfield ve Staden tarafından 1995 yılında önerilmiş ve Phrap'te uygulanmış ve daha da optimize edilmiştir. Temel olarak, farklı temellere sahip herhangi bir fikir birliği konumunda, Phrap en yüksek kaliteli diziyi bulmak için hizalanmış dizilerin kalite puanlarını inceler. Bu süreçte, Phrap, yön ve sıralama kimyasını göz önünde bulundurarak, diğer okumalar tarafından yerel dizinin onaylanmasını dikkate alır.

Phred kalite puanları logaritmik olarak hata olasılıklarıyla bağlantılı olduğundan , bu yaklaşımın matematiği oldukça basitti . Bu, hata dağılımları yeterince bağımsız olduğu sürece, doğrulama okumalarının kalite puanlarının basitçe eklenebileceği anlamına gelir. Bu bağımsızlık kriterini karşılamak için, bir bölge aynı yönde birkaç kez sıralandığında baz çağrı hatalarına neden olan tepe desenleri genellikle aynı olduğundan, okumalar tipik olarak farklı yönde olmalıdır.

Bir konsensüs tabanı hem yüksek kaliteli dizi hem de (farklı) düşük kaliteli dizi tarafından kapsanıyorsa, Phrap'in yüksek kaliteli diziyi seçmesi çoğu durumda doğru olacaktır. Phrap daha sonra onaylanan baz kalitesini konsensüs dizisi tabanına atar. Bu, (a) yüksek kaliteli dizi tarafından kapsanmayan (aynı zamanda düşük kaliteye sahip olacak) konsensüs bölgelerini bulmayı ve (b) konsensüs dizisinin hata oranının makul derecede doğru bir tahminini hızlı bir şekilde hesaplamayı kolaylaştırır. Bu bilgi daha sonra, örneğin sorunlu bölgelerin yeniden sıralanması gibi bitirme çabalarını yönlendirmek için kullanılabilir.

Doğru, baza özgü kalite puanları ve kaliteye dayalı bir konsensüs dizisinin birleşimi , İnsan Genom Projesi'nin başarısında kritik bir unsurdu . Phred ve Phrap ve bu iki programın öncülük ettiği fikirleri benimseyen benzer programlar, insan genomunun (ve diğer birçok genomun) büyük bölümlerinin, önemli ölçüde daha yüksek bir doğrulukta (10.000 bazda 1 hatadan daha az) birleştirilmesini sağladı. ) daha önce GenBank veri tabanına gönderilmiş olan, özenle elle düzenlenmiş dizilerin tipik doğruluğundan daha fazla.

Referanslar

  1. ^ Bonfield JK, Staden R (1995): Baz arama doğruluğunun sayısal tahminlerinin DNA dizileme projelerine uygulanması. Nükleik Asitler Araş. 1995 25 Nisan;23(8):1406-10. PMID  7753633
  2. ^ Krawetz SA (1989): GenBank'ta açıklanan dizi hataları: DNA dizisi yorumunun doğruluğunu belirlemek için bir araç. Nükleik Asitler Araş. 1989 25 Mayıs;17(10):3951-7

Dış bağlantılar

Diğer Yazılımlar

  • Phred
  • eksi
  • DNA Başer Komut Satırı Aracı