Oxford İngilizce Derlemi - Oxford English Corpus

Oxford İngilizce Corpus (OEC) bir olduğunu Bütünce 21. yüzyıl arasında İngilizce yapımcıları tarafından kullanılan, Oxford İngilizce Sözlük tarafından Oxford University Press 'in dil araştırma programının. Yaklaşık 2,1 milyar kelime içeren türünün en büyüğüdür . Birleşik Krallık, Amerika Birleşik Devletleri, İrlanda, Avustralya, Yeni Zelanda, Karayipler, Kanada, Hindistan, Singapur ve Güney Afrika'dan gelen dilleri içerir. Metin esas olarak web sayfalarından toplanmıştır ; Akademik dergiler gibi bazı basılı metinler, belirli konu alanlarını desteklemek için toplanmıştır. Kaynaklar, "edebi romanlar ve uzman dergilerden günlük gazete ve dergilere ve Hansard'dan blogların, e-postaların ve sosyal medyanın diline " kadar her türden yazıdır . Bu, yalnızca belirli bir yazı türünü örnekleyen benzer veritabanlarıyla karşılaştırılabilir. Derlem genellikle yalnızca Oxford University Press'teki araştırmacılara açıktır, ancak güçlü bir ihtiyaç gösterebilen diğer araştırmacılar erişim için başvurabilir.

Oxford English Corpus'un dijital versiyonu XML olarak biçimlendirilir ve genellikle Sketch Engine yazılımı ile analiz edilir . 27 Nisan 2006'ya kadar sözlük veritabanında 1 milyar kelime vardı.

OE Corpus'taki her belgeye meta veri adlandırma eşlik eder :

  • Başlık
  • yazar (biliniyorsa; birçok web sitesi bunu güvenilir bir şekilde belirlemeyi zorlaştırır)
  • yazar cinsiyeti (biliniyorsa)
  • dil türü (ör. İngiliz İngilizcesi, Amerikan İngilizcesi)
  • kaynak web sitesi
  • yıl (+ tarih, biliniyorsa)
  • tahsilat tarihi
  • alan + alt alan
  • belge istatistikleri (belirteç sayısı, cümleler vb.)

Ayrıca bakınız

Referanslar