Enron Corpus - Enron Corpus

Enron Corpus 600,000 bir veritabanı e-postaların içinde 158 çalışanı tarafından oluşturulan Enron Corporation'a giden yıllarda şirketin çöküşü korpus tarafından Enron e-posta sunucularından oluşturulan Aralık 2001'de Federal Enerji Düzenleme Komisyonu sırasında (FERC) onun sonraki soruşturma. E-posta veritabanının bir kopyası daha sonra Massachusetts Amherst Üniversitesi'nden bir bilgisayar bilimcisi olan Andrew McCallum tarafından 10.000 $ 'a satın alındı . Bu kopyayı, sosyal ağ ve bilgisayar aracılı iletişim üzerine çalışmalar için kullanılan bir veri hazinesi sağlayarak araştırmacılara yayınladı .

Yaratılış

Enron'un çöküşüne ilişkin yasal soruşturmada, keşif süreci, FERC'nin Aspen Systems'ı (şimdi Lockheed Martin'in bir parçası ) kiraladığı büyük miktarda verinin toplanmasını ve korunmasını gerektirdi . E-postalar, Aspen için dava desteği ve veri analizi yüklenicisi olan Joe Bartling tarafından Mayıs 2002'de iki hafta boyunca Houston'daki Enron Corporation merkezinde toplandı . Enron çalışanı e-postalar, barındırılan Enron'un kurumsal veritabanı sistemleri, tüm ek olarak , Oracle veritabanları üzerinde Sun Microsystems sunucuları, yakalanan ve çevrimiçi dahil korunmuş enerji ticareti platformu, EnronOnline .

Enron e-postaları toplandıktan sonra FERC, Emtia Vadeli İşlemler Ticaret Komisyonu ve Adalet Bakanlığı'ndan araştırmacılar tarafından incelenmek üzere özel elektronik keşif platformlarında (önce Concordance, ardından iCONECT) işlendi ve barındırıldı . Soruşturmanın sonunda ve FERC personel raporunun yayınlanması üzerine, toplanan e-postaların ve bilgilerin kamu malı , tarihsel araştırma ve akademik amaçlarla kullanıldığı kabul edildi. E-posta arşivi halka açık hale getirildi ve iCONECT 24/7 kullanılarak web üzerinden aranabilir hale getirildi, ancak 160 GB'ın üzerindeki e-posta hacmi kullanımı pratik olmadı. Toplanan e-postaların ve veritabanlarının kopyaları sabit disklerde kullanıma açıldı .

Güney Kaliforniya Üniversitesi'nden Jitesh Shetty ve Jafar Adibi verileri 2004 yılında işledi ve bir MySQL sürümü yayınladı . 2010 yılında EDRM.net , araştırmacılara kolay erişim için Amazon S3'te kullanıma sunulan 1,7 milyondan fazla ileti içeren gözden geçirilmiş ve genişletilmiş bir külliyatın 2. sürümünü yayınladı .

Sömürü

Külliyat, incelenmek üzere kolayca bulunabilen gerçek e-postaların halka açık birkaç toplu koleksiyonundan biri olarak değerlendirilmektedir; bu tür koleksiyonlar tipik olarak, gizlilik anlaşmaları ve veri temizleme gibi erişimlerini engelleyici bir şekilde zorlaştıran çok sayıda mahremiyet ve yasal kısıtlamalarla sınırlıdır . Shetty ve Adibi, MySQL sürümlerine dayanarak, hangi kullanıcı hesaplarının hangisini e-posta ile gönderdiği konusunda bazı bağlantı analizleri yayınladı . Daha yeni e-posta derlemesiyle dilbilimsel karşılaştırma , İngilizce e-posta kaydındaki değişiklikleri göstermektedir . Ayrıca, doğal dil işleme ve makine öğreniminde araştırma için test veya eğitim verisi olarak kullanılır .

Referanslar

Dış bağlantılar