Arama Sonuçları

Listeleniyor 1 - 2 / 2
  • Öğe
    Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler
    (Gazi Üniversitesi, 2016-12-14) Kaya, Yılmaz; Ertuğrul, Ömer Faruk
    Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.
  • Öğe
    A novel feature extraction approach in SMS spam filtering for mobile communication: one-dimensional ternary patterns
    (Wiley-Blackwell, 2016-10-19) Kaya, Yılmaz; Ertuğrul, Ömer Faruk
    The importance and utilization of mobile communication are increasing day by day, and the short message service (SMS) is one of them. Although SMS is a widely used communication way, it brings together a major problem, which is SMS spam messages. SMS spams do not only use vain in the mobile communication traffic but also disturb users. Based on this fact, blacklisting methods, statistical methods which are built on the frequency of occurrence of words or characters, and machine learning methods have been employed. Because punishments and legal laws are not enough to solve this problem and the Group Special Mobile number of SMS spam can easily be changed, a content-based approach must be proposed. Content-based methods showed high success in spam e-mail filtering, but it is hard in the SMS spam filtering because SMS messages are extremely short and generally contains many abbreviations. In this study, an image processing method, local ternary pattern was improved to extract features from SMS messages in the feature extraction stage. In the proposed one-dimensional ternary patterns, firstly, text message was converted to their UTF-8 values. Later, each character (its UTF-8 value) in the message was compared with its neighbors. Two different feature sets were extracted from the results of these comparisons. Finally, some machine learning methods were employed to classify these features. In order to validate the proposed approach, three different SMS corpora were used. The achieved accuracies and other employee performance measures showed that the proposed approach, one-dimensional ternary patterns, can be effectively employed in SMS spam filtering.