A comparative analysis of learning techniques in the context of Turkish spam detection

dc.authorid0000-0002-2186-927X
dc.contributor.authorŞengel, Öznur
dc.date.accessioned2024-08-23T05:56:15Z
dc.date.available2024-08-23T05:56:15Z
dc.date.issued2024-07-07
dc.departmentBaşka Kurum Yazarı
dc.descriptionYazar, Çakmak Z. ve Çifçi M.S.'ye veri setlerinin toplanması ve deneylerin gerçekleştirilmesindeki yardımları için teşekkür eder. Bu makale Uluslararası Bilişim Kongresi 2024 (IIC2024)'te sunulmuştur. "This article is derived from the paper titled ‘A Comparative Analysis of Learning Techniques in the Context of Turkish Spam' presented at the International Information Congress 2024 (IIC2024) held at Batman University between May 2-4, 2024."
dc.description.abstractShort Message Service (SMS) is a mobile messaging tool used by billions of people to communicate via a mobile phone. However, due to the lack of proper message filtering techniques, this form of communication is vulnerable to unwanted and junk messages. This paper compared SMS spam detection approaches based on machine learning methods such as Adaptive Boosting (AdaBoost), Extreme Gradient Boosting (XGBoost), K-Nearest Neighbors (KNN), Decision Tree (DT), Random Forest (RF), Multinominal Naïve Bayes (MNB), Logistic Regression (LR), and Support Vector Machines (SVM) and deep learning methods such as Convolutional Neural Networks (CNNs), Artificial Neural Networks (ANNs), and Long Short Term Memory (LSTM) in terms of f-score, accuracy, recall, precision, and a confusion matrix constructed for each strategy. The study tested two different preprocessing methods on two different Turkish SMS datasets to evaluate the approaches. The aim of this study is to contribute to the issue of spam filtering in Turkey. The results indicate that the highest accuracy values were achieved with Support Vector Machine (99.03%) using the first preprocessing method and Logistic Regression and Random Forest (98.07%) using the second preprocessing method on the BigTurkishSMS dataset, a combination of the two datasets used. As is the case with the majority of machine learning algorithms, the second preprocessing of the data set yielded superior results in deep learning models. The ANN model achieved the highest accuracy, with a score of 97.41%. The study employed a comparison of machine learning and deep learning techniques on Turkish SMS datasets, which will provide valuable insights for researchers working in this field.
dc.description.abstractKısa Mesaj Servisi (SMS), milyarlarca insan tarafından cep telefonu aracılığıyla iletişim kurmak için kullanılan bir mobil mesajlaşma aracıdır. Ancak, uygun mesaj filtreleme tekniklerinin eksikliği nedeniyle, bu iletişim biçimi istenmeyen ve önemsiz mesajlara karşı savunmasızdır. Bu makalede, Adaptif Boosting (AdaBoost), Extreme Gradient Boosting (XGBoost), K-En Yakın Komşular (KNN), Karar Ağacı (DT), Rastgele Orman (RF), Multinominal Naïve Bayes (MNB), Lojistik Regresyon (LR) ve Destek Vektör Makineleri (DVM) gibi makine öğrenimi yöntemleri ile Evrişimli Sinir Ağları (CNN), Yapay Sinir Ağları (YSA) ve Uzun Kısa Süreli Bellek (LSTM) gibi derin öğrenme yöntemlerine dayalı SMS spam tespit yaklaşımları f-skor, doğruluk, duyarlılık, kesinlik ve her bir strateji için oluşturulan karışıklık matrisi açısından karşılaştırılmıştır. Çalışma, yöntemleri değerlendirmek için iki farklı ön işleme yöntemini iki farklı Türkçe SMS veri kümesi üzerinde test etmiştir. Bu çalışmanın amacı, Türkiye'deki spam filtreleme konusuna katkıda bulunmaktır. Sonuçlar, kullanılan iki veri kümesinin bir kombinasyonu olan BigTurkishSMS veri kümesi üzerinde en yüksek doğruluk değerlerinin birinci ön işleme yöntemi kullanılarak Destek Vektör Makinesi (%99,03) ve ikinci ön işleme yöntemi kullanılarak Lojistik Regresyon ve Rastgele Orman (%98,07) ile elde edildiğini göstermektedir. Makine öğrenimi algoritmalarının çoğunda olduğu gibi, veri setinin ikinci ön işlemesi derin öğrenme modellerinde üstün sonuçlar vermiştir. YSA modeli %97,41'lik bir skorla en yüksek doğruluğu elde etmiştir. Bu çalışma, Türkçe SMS veri kümeleri üzerinde makine öğrenimi ve derin öğrenme tekniklerinin bir karşılaştırmasını yaparak bu alanda çalışan araştırmacılar için değerli bilgiler sağlamaktadır.
dc.identifier.citationŞengel, Ö. (2024). A comparative analysis of learning techniques in the context of Turkish spam detection. Batman Üniversitesi Yaşam Bilimleri Dergisi, 14 (1), pp. 43-56. https://doi.org/10.55024/buyasambid.1501609.
dc.identifier.doi10.55024/buyasambid.1501609
dc.identifier.endpage56
dc.identifier.issn2459-0614
dc.identifier.issue1
dc.identifier.startpage43
dc.identifier.urihttps://dergipark.org.tr/tr/download/article-file/4007492
dc.identifier.urihttps://doi.org/10.55024/buyasambid.1501609
dc.identifier.urihttps://hdl.handle.net/20.500.12402/4759
dc.identifier.volume14
dc.language.isoen
dc.publisherBatman Üniversitesi
dc.relation.ispartofBatman Üniversitesi Yaşam Bilimleri Dergisi
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergi - Başka Kurum Yazarı
dc.rightsinfo:eu-repo/semantics/openAccess
dc.subjectTurkish SMS Datasets
dc.subjectSpam SMS Detection
dc.subjectSMS Classification
dc.subjectMachine Learning
dc.subjectDeep Learning
dc.subjectTürkçe SMS Veri Kümeler
dc.subjectİstenmeyen SMS Tespiti
dc.subjectSMS Sınıflandırma
dc.subjectMakine Öğrenmesi
dc.subjectDerin Öğrenme
dc.titleA comparative analysis of learning techniques in the context of Turkish spam detection
dc.title.alternativeTürkçe spam tespiti bağlamında öğrenme tekniklerinin karşılaştırmalı analizi
dc.typeArticle

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
TAM METİN - FULL TEXT.pdf
Boyut:
1.01 MB
Biçim:
Adobe Portable Document Format
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.17 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: