InterPro - InterPro

InterPro
InterPro logosu.png
İçerik
Açıklama InterPro, protein dizilerini işlevsel olarak analiz eder ve etki alanlarının ve işlevsel bölgelerin varlığını tahmin ederken bunları protein ailelerine sınıflandırır .
Temas
Araştırma Merkezi EMBL
laboratuvar Avrupa Biyoinformatik Enstitüsü
Birincil alıntı InterPro protein aileleri ve etki alanları veritabanı: 20 yıl sonra
Yayın tarihi 1999
Erişim
İnternet sitesi www .ebi .ac .uk /interpro /
URL'yi indir ftp.ebi.ac.uk/pub/databases/interpro/
Çeşitli
Veri yayın
sıklığı
8 haftalık
Sürüm 83.0 (2 Aralık 2020 ; 10 ay önce ) ( 2020-12-02 )

InterPro , bilinen proteinlerde bulunan tanımlanabilir özelliklerin fonksiyonel olarak karakterize edilmesi için yeni protein dizilerine uygulanabileceği protein aileleri, alanları ve fonksiyonel bölgelerin bir veri tabanıdır.

InterPro'nun içeriği, tanısal imzalardan ve bunların önemli ölçüde eşleştiği proteinlerden oluşur. İmzalar, protein ailelerini, etki alanlarını veya sitelerini tanımlayan modellerden ( düzenli ifadeler gibi basit türler veya Gizli Markov modelleri gibi daha karmaşık olanlar ) oluşur. Modeller, bilinen ailelerin veya alanların amino asit dizilerinden oluşturulur ve daha sonra, sınıflandırmak için bilinmeyen dizileri (yeni genom dizilemesinden kaynaklananlar gibi) aramak için kullanılırlar. InterPro'nun üye veritabanlarının her biri, çok yüksek seviyeli, yapı tabanlı sınıflandırmalardan ( SUPERFAMILY ve CATH-Gene3D) oldukça spesifik alt aile sınıflandırmalarına ( PRINTS ve PANTHER ) kadar farklı bir alana katkıda bulunur .

InterPro'nun amacı, farklı üye veritabanları tarafından üretilen tüm imzaların InterPro veri tabanındaki girişlere yerleştirildiği protein sınıflandırması için tek durak noktası sağlamaktır. Eşdeğer etki alanlarını, siteleri veya aileleri temsil eden imzalar aynı girişe konur ve girişler de birbiriyle ilişkili olabilir. Açıklama, tutarlı adlar ve Gen Ontolojisi (GO) terimleri gibi ek bilgiler , mümkün olduğunda her girişle ilişkilendirilir.

InterPro'da bulunan veriler

InterPro üç ana varlık içerir: proteinler, imzalar ("yöntemler" veya "modeller" olarak da anılır) ve girdiler. UniProtKB'deki proteinler aynı zamanda InterPro'daki merkezi protein varlıklarıdır. Hangi imzaların bu proteinlerle önemli ölçüde eşleştiğine ilişkin bilgiler, diziler UniProtKB tarafından serbest bırakıldıkça hesaplanır ve bu sonuçlar kamuya sunulur (aşağıya bakınız). İmzaların proteinlerle eşleşmeleri, imzaların InterPro girdilerine nasıl entegre edildiğini belirleyen şeydir: eşleşen protein kümelerinin karşılaştırmalı örtüşmesi ve dizilerdeki imza eşleşmelerinin konumu, ilişkinin göstergeleri olarak kullanılır. Yalnızca yeterli kalitede olduğu kabul edilen imzalar InterPro'ya entegre edilir. Sürüm 81.0'dan itibaren (21 Ağustos 2020'de yayınlandı) InterPro girişleri, UniProtKB'de bulunan kalıntıların %73,9'una açıklama eklemiş, diğer bir %9,2'si ise entegrasyon bekleyen imzalarla açıklanmıştı.

InterPro sürüm 81.0 itibariyle InterPro girişleri tarafından UniProtKB kalıntılarının kapsamı.

InterPro ayrıca UniParc ve UniMES veritabanlarında bulunan ekleme varyantları ve proteinler için verileri de içerir .

InterPro konsorsiyum üye veritabanları

InterPro imzaları, aşağıda listelenen 13 "üye veritabanından" gelmektedir.

CATH-Gene3D
Tam genomlardaki protein ailelerini ve alan mimarilerini tanımlar. Protein aileleri, bir Markov kümeleme algoritması kullanılarak oluşturulur, ardından dizi kimliğine göre çoklu bağlantı kümelemesi yapılır. Tahmin edilen yapı ve dizi alanlarının eşlenmesi , CATH ve Pfam alanlarını temsil eden gizli Markov model kitaplıkları kullanılarak gerçekleştirilir . Proteinlere birden fazla kaynaktan işlevsel açıklama sağlanır. Etki alanı mimarilerinin işlevsel tahmini ve analizi, Gene3D web sitesinde mevcuttur.
CDD
Conserved Domain Database , antik alanlar ve tam uzunluktaki proteinler için açıklamalı çoklu dizi hizalama modellerinin bir koleksiyonundan oluşan bir protein açıklama kaynağıdır. Bunlar, RPS-BLAST yoluyla protein dizilerinde korunan alanların hızlı tanımlanması için pozisyona özgü skor matrisleri (PSSM'ler) olarak mevcuttur.
HAMAP
Mikrobiyal Proteomların Yüksek Kaliteli Otomatik ve Manuel Açıklaması anlamına gelir. HAMAP profilleri, iyi korunmuş bakteriyel, arkeal ve plastid kodlu (yani kloroplastlar, siyaneller, apikoplastlar, fotosentetik olmayan plastitler) protein ailelerinin veya alt ailelerinin parçası olan proteinleri tanımlayan uzman küratörler tarafından manuel olarak oluşturulur.
MobiDB
MobiDB , proteinlerdeki içsel bozukluğu açıklayan veritabanıdır.
panter
PANTHER , insan uzmanlığı kullanılarak işlevsel olarak ilişkili alt ailelere bölünmüş geniş bir protein aileleri koleksiyonudur. Bu alt aileler, protein aileleri içindeki belirli işlevlerin farklılığını modelleyerek, işlevle (insan küratörlüğünde moleküler işlev ve biyolojik süreç sınıflandırmaları ve yol şemaları) daha doğru bir ilişki kurmanın yanı sıra işlevsel özgüllük için önemli olan amino asitlerin çıkarımını sağlar. Gizli Markov modelleri (HMM'ler), ek protein dizilerini sınıflandırmak için her aile ve alt aile için oluşturulmuştur.
Pfam
Birçok ortak protein alanını ve ailesini kapsayan çoklu dizi hizalamalarının ve gizli Markov modellerinin geniş koleksiyonudur.
İmza oluşturma yöntemine ve odaklandıkları biyolojik varlığa göre gruplandırılmış InterPro konsorsiyumunun 13 üye veri tabanı.
PIRSF
Protein sınıflandırma sistemi, tam uzunluktaki proteinlerin ve alanların evrimsel ilişkisini yansıtan üst ailelerden alt ailelere kadar çok sayıda dizi çeşitliliğine sahip bir ağdır. Birincil PIRSF sınıflandırma birimi, üyeleri hem homolog (ortak bir atadan evrimleşmiş) hem de homeomorfik (tam uzunlukta dizi benzerliğini ve ortak bir alan mimarisini paylaşan) olan homeomorfik ailedir.
BASKILAR
PRINTS , protein parmak izlerinin bir özetidir. Parmak izi, bir protein ailesini karakterize etmek için kullanılan korunmuş motifler grubudur; teşhis gücü, UniProt'un yinelemeli taramasıyla iyileştirilir. Motifler genellikle üst üste binmezler, ancak bir dizi boyunca ayrılırlar, ancak 3B uzayda bitişik olabilirler. Parmak izleri, protein kıvrımlarını ve işlevselliklerini tekli motiflerden daha esnek ve güçlü bir şekilde kodlayabilir; bunların tam tanılama güçleri, motif komşuları tarafından sağlanan karşılıklı bağlamdan kaynaklanır.
PROZİT
PROSITE , protein aileleri ve etki alanlarının bir veri tabanıdır . Yeni bir dizinin hangi bilinen protein ailesine (varsa) ait olduğunu güvenilir bir şekilde belirlemeye yardımcı olan biyolojik olarak önemli bölgeler, modeller ve profillerden oluşur.
AKILLI
Basit Modüler Mimari Araştırma Aracı Genetik olarak hareketli alanların tanımlanmasına ve açıklanmasına ve alan mimarilerinin analizine izin verir. Sinyal, hücre dışı ve kromatin ile ilişkili proteinlerde bulunan 800'den fazla alan ailesi tespit edilebilir. Bu alanlar, phyletic dağılımlar, fonksiyonel sınıf, üçüncül yapılar ve fonksiyonel olarak önemli kalıntılar açısından kapsamlı bir şekilde açıklanmıştır.
ÜST AİLE
SUPERFAMILY , bilinen yapıya sahip tüm proteinleri temsil eden profil gizli Markov modellerinin bir kütüphanesidir. Kitaplık, proteinlerin SCOP sınıflandırmasına dayanmaktadır : her model bir SCOP alanına karşılık gelir ve alanın ait olduğu tüm SCOP üst ailesini temsil etmeyi amaçlar . SUPERFAMILY, tamamen dizilenmiş tüm genomlara yapısal atamaları gerçekleştirmek için kullanılmıştır.
SFLD
Spesifik dizi yapısı özelliklerini belirli kimyasal yeteneklerle ilişkilendiren enzimlerin hiyerarşik bir sınıflandırması.
TIGRFAM'lar
TIGRFAM'ler , küratörlü çoklu dizi hizalamaları, gizli Markov modelleri (HMM'ler) ve dizi homolojisine dayalı olarak işlevsel olarak ilişkili proteinleri tanımlamak için bir araç sağlayan açıklama içeren bir protein aileleri topluluğudur. "Eşivalog" olan girişler, işleve göre korunan homolog proteinleri gruplandırır.

Veri tipleri

InterPro, konsorsiyumun farklı üyeleri tarafından sağlanan yedi tür veriden oluşur:

InterPro'nun Veri Türleri
Veri tipi Açıklama Katkıda Bulunan Veritabanları
InterPro Girişleri Bir veya daha fazla imza kullanılarak tahmin edilen proteinlerin yapısal ve/veya fonksiyonel alanları 13 üye veritabanının tümü
Üye Veritabanı imzaları Üye veritabanlarından imzalar. Bunlar, InterPro'ya entegre edilmiş imzaları ve olmayan imzaları içerir. 13 üye veritabanının tümü
Protein Protein dizileri UniProtKB (İsviçre-Prot ve TrEMBL)
proteom Tek bir organizmaya ait proteinlerin toplanması UniProtKB
Yapı Proteinlerin 3 boyutlu yapıları PDBe
taksonomi Protein taksonomik bilgileri UniProtKB
Ayarlamak Evrimsel ilişkili aile grupları Pfam , CDD
InterPro'da bulunan beş giriş türünü tanımlayan simgeler (Homolog Süper Aile, Aile, Etki Alanı, Tekrar veya Site).

InterPro giriş türleri

InterPro girişleri ayrıca beş türe ayrılabilir:

  • Homolog Süper Aile : Dizileri çok benzer olmasa bile, yapısal benzerliklerinde görüldüğü gibi ortak bir evrimsel kökeni paylaşan bir grup protein. Bu girişler özellikle yalnızca iki üye veritabanı tarafından sağlanır: CATH-Gene3D ve SUPERFAMILY.
  • Aile : Yapısal benzerlikler, ilgili işlevler veya dizi benzerliği yoluyla belirlenen ortak bir evrimsel kökene sahip bir grup protein .
  • Etki Alanı: Belirli bir işleve, yapıya veya diziye sahip bir proteindeki ayrı bir birim.
  • Tekrar: Bir proteinde birçok kez tekrar etme eğiliminde olan, genellikle 50 amino asitten uzun olmayan bir amino asit dizisi.
  • Site: En az bir amino asidin korunduğu kısa bir amino asit dizisi. Bunlar, çeviri sonrası değişiklik sitelerini, korunmuş siteleri, bağlanma sitelerini ve aktif siteleri içerir .

Erişim

Veritabanı, bir web sunucusu aracılığıyla metin ve sıra tabanlı aramalar için ve anonim FTP yoluyla indirilebilir. Diğer EBI veritabanları gibi, içeriği "herhangi bir kişi tarafından ve herhangi bir amaç için" kullanılabildiği için kamuya açıktır . InterPro, verileri her 8 haftada bir, tipik olarak aynı proteinlerin UniProtKB'nin piyasaya sürülmesinden sonraki bir gün içinde halka açıklamayı amaçlamaktadır.

InterPro uygulama programlama arayüzü (API)

InterPro, tüm InterPro girişlerine ve ilgili girişlerine Json formatında programlı erişim için bir API sağlar . API için farklı InterPro veri türlerine karşılık gelen altı ana uç nokta vardır: giriş, protein, yapı, sınıflandırma, proteom ve küme.

InterProScan

InterProScan , kullanıcıların dizileri üye veritabanı imzalarına karşı taramasını sağlayan bir yazılım paketidir. Kullanıcılar, yeni nükleotid veya protein dizilerini işlevsel olarak karakterize etmek için bu imza tarama yazılımını kullanabilir. InterProScan, ilgilenilen genomun "ilk geçiş" karakterizasyonunu elde etmek için genom projelerinde sıklıkla kullanılır . Aralık 2020 itibariyle, InterProScan'ın (v5.x) genel sürümü Java tabanlı bir mimari kullanır . Yazılım paketi şu anda yalnızca 64 bit Linux işletim sisteminde desteklenmektedir.

InterProScan, diğer birçok EMBL-EBI biyoinformatik aracıyla birlikte, RESTful ve SOAP Web Hizmetleri API'leri kullanılarak programlı olarak erişilebilir .

Ayrıca bakınız

Referanslar

Dış bağlantılar