Arama Sonuçları

Listeleniyor 1 - 2 / 2
  • Öğe
    A novel approach for spam email detection based on shifted binary patterns
    (Wiley-Blackwell, 2016-01-11) Kaya, Yılmaz; Ertuğrul, Ömer Faruk
    Advances in communication allow people flexibility to communicate in various ways. Electronic mail (email) is one of the most used communication methods for personal or business purposes. However, it brings one of the most tackling issues, called spam email, which also raises concerns about data safety. Thus, the requirement of detecting spams is crucial for keeping the users safe and saving them from the waste of time while tackling those issues. In this study, an effective approach based on the probability of the usage of the characters that has similar orders with respect to their UTF-8 value by employing shifted one-dimensional local binary pattern (shifted-1D-LBP) was used to extract quantitative features from emails for spam email detection. Shifted-1D-LBP, which can be described as an ordered set of binary comparisons of the center value with its neighboring values, is a content-based approach to spam detection with low-level information. To validate the performance of the proposed approach, three benchmark corpora, Spamassasian, Ling-Spam, and TREC email corpuses, were used. The average classification accuracies of the proposed approach were 92.34%, 92.57%, and 95.15%, respectively. Analysis and promising experimental results indicated that the proposed approach was a very competitive feature extraction method in spam email filtering.
  • Öğe
    Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler
    (Gazi Üniversitesi, 2016-12-14) Kaya, Yılmaz; Ertuğrul, Ömer Faruk
    Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.