Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler

dc.authorid0000-0001-5167-1101en_US
dc.authorid0000-0003-0710-0867en_US
dc.contributor.authorKaya, Yılmaz
dc.contributor.authorErtuğrul, Ömer Faruk
dc.date.accessioned2019-07-04T13:17:26Z
dc.date.available2019-07-04T13:17:26Z
dc.date.issued2016-12-14en_US
dc.departmentBatman Üniversitesi Mühendislik - Mimarlık Fakültesi Elektrik-Elektronik Mühendisliği Bölümüen_US
dc.description.abstractDoğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür.en_US
dc.description.abstractLanguage identification (LI), which is a major task in natural language processing, is the process of determining the language from a given content. In this paper, a novel approach, which is based on the probability of the use of the characters that have the similar orders with respect to their UTF-8 values, was proposed. In order to evaluate and validate the proposed approach, four datasets, which contain texts in different numbers of languages, were employed. In the proposed approach, the features that were exacted by one-dimensional local binary pattern (1D-LBP) method were classified by various machine learning methods. Achieved LI accuracies in each of four employed datasets were 86.20%, 92.75%, 100% and 89.77%, respectively. The results showed that the proposed approach yields high success rates and it is an efficient way of language identification.en_US
dc.identifier.citationKaya, Y. K., & Ertuğrul, Ö F. (2016). Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 31(4), ss. 1085-1094. https://doi.org/10.17341/gazimmfd.278463en_US
dc.identifier.endpage1094en_US
dc.identifier.issn1300-1884
dc.identifier.issn1304-4915
dc.identifier.issue4en_US
dc.identifier.scopusqualityN/Aen_US
dc.identifier.startpage1085en_US
dc.identifier.urihttps://doi.org/10.17341/gazimmfd.278463
dc.identifier.urihttps://hdl.handle.net/20.500.12402/2196
dc.identifier.volume31en_US
dc.identifier.wosqualityQ3en_US
dc.indekslendigikaynakWeb of Scienceen_US
dc.indekslendigikaynakTR-Dizinen_US
dc.indekslendigikaynakScopusen_US
dc.language.isotren_US
dc.publisherGazi Üniversitesien_US
dc.relation.isversionof10.17341/gazimmfd.278463en_US
dc.relation.journalGazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisien_US
dc.relation.publicationcategoryMakale - Uluslararası Hakemli Dergi - Kurum Öğretim Elemanıen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-ShareAlike 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-sa/3.0/us/*
dc.subjectMetin Tabanlı Dil Tanımaen_US
dc.subjectYerel İkili Örüntüleren_US
dc.subjectDoğal Dil İşlemeen_US
dc.subjectFeature Extractionen_US
dc.subjectNatural Language Processingen_US
dc.subjectOne Dimensional Local Binary Patternsen_US
dc.subjectText-Based Language Identificationen_US
dc.titleDoküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenleren_US
dc.title.alternativeA novel feature extraction approach for text-based language identification: Binary patternsen_US
dc.typeArticleen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
10.17341-gazimmfd.278463-259834.pdf
Boyut:
886.88 KB
Biçim:
Adobe Portable Document Format
Açıklama:
Tam Metin / Full Text
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.44 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: