CRM114 (program) - CRM114 (program)

CRM114 (tam adı: "The CRM114 Discriminator"), verileri sınıflandırmak için istatistiksel bir yaklaşıma dayalı bir programdır ve özellikle e-posta spam'ını filtrelemek için kullanılır .

İsmin kökeni

İsim, belirli bir kod öneki olmayan mesajları filtrelemek için tasarlanmış bir radyo ekipmanı olan Stanley Kubrick filmi Dr. Strangelove'daki CRM-114 Ayrıştırıcısından geliyor .

Operasyon

Diğerleri, e-postadaki tek kelime oluşumlarının sıklığına dayalı istatistiksel Bayes spam filtrelemesi yaparken , CRM114, beş kelimeye kadar olan ifadelere dayalı isabetler oluşturarak daha yüksek bir spam tanıma oranı elde eder. Bu ifadeler , gelen metinleri temsil eden bir Markov Rastgele Alanı oluşturmak için kullanılır . Bu ek bağlamsal tanıma ile, mevcut olan daha doğru spam filtrelerinden biridir. Yazar Bill Yerazunis tarafından 2002 yılında yapılan ilk test% 99,87 doğruluk sağlamıştır; Holden ve TREC 2005 ve 2006 . % 99'dan daha iyi sonuçlar vermiştir, belirli külliyatlara bağlı olarak önemli varyasyonlarla.

CRM114'ün sınıflandırıcısı , Littlestone'un Winnow algoritmasını, karakter karakter korelasyonunu , Hyperspace adı verilen KNN ( K-en yakın komşu algoritması ) sınıflandırmasının bir varyantını, benzerliği belirlemek için entropi kodlamasını kullanan bir bit-entropik sınıflandırıcıyı , bir SVM'yi , değiştirilmiş bir LZ77 algoritması ve diğer daha deneysel sınıflandırıcılar tarafından hesaplanan karşılıklı sıkıştırılabilirlik ile . Eşleştirilen gerçek özellikler, atlama gramlarının bir genellemesine dayanmaktadır .

CRM114 algoritmaları çok dillidir ( UTF-8 kodlamalarıyla uyumludur ) ve boş güvenlidir. Bir CRM114 sınıflandırıcı oylama setinin, Japonca yazılan gizli ve gizli olmayan belgeleri % 99,9'dan daha iyi algılama oranı ve% 5,3 yanlış alarm oranında tespit ettiği gösterilmiştir.

CRM114, makine öğreniminin makul derecede basit bir algoritma ile nasıl gerçekleştirilebileceğini gösteren iyi bir örüntü tanıma yazılımı örneğidir . Programın C kaynak kodu GPL altında mevcuttur .

Daha derin bir düzeyde, CRM114 ayrıca grep ve hatta Perl'e benzer bir dizgi örüntüsü eşleştirme dilidir ; Turing tamamlanmış olmasına rağmen, eşleşen metin için oldukça ayarlanmıştır ve faktöriyelin basit (özyinelemeli) bir tanımı bile neredeyse on satır alır. Crm114 dil sözdizimi olmadığı için bu kısmı olan konumsal ama çekime ait . Bir programlama dili olarak, istenmeyen postaları tespit etmenin yanı sıra diğer birçok uygulama için de kullanılabilir. CRM114, TRE yaklaşık eşleşme normal ifade motorunu kullanır, bu nedenle, doğru çalışması için kesinlikle aynı dizelere bağlı olmayan programlar yazmak mümkündür.

CRM114, KMail istemcisindeki e-posta filtrelemeye ve Twitter ve Yahoo'da botların tespiti ve ABD Ulaştırma Bakanlığı'nın araç kusur tespit sistemindeki birinci seviye filtre dahil olmak üzere bir dizi başka uygulamada uygulandı. Ayrıca, hataya açık yazılım modüllerini sınıflandırmak için öngörücü bir yöntem olarak da kullanılmıştır.

Ayrıca bakınız

Referanslar

Dış bağlantılar