Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler
dc.authorid | 0000-0001-5167-1101 | en_US |
dc.authorid | 0000-0003-0710-0867 | en_US |
dc.contributor.author | Kaya, Yılmaz | |
dc.contributor.author | Ertuğrul, Ömer Faruk | |
dc.date.accessioned | 2019-07-04T13:17:26Z | |
dc.date.available | 2019-07-04T13:17:26Z | |
dc.date.issued | 2016-12-14 | en_US |
dc.department | Batman Üniversitesi Mühendislik - Mimarlık Fakültesi Elektrik-Elektronik Mühendisliği Bölümü | en_US |
dc.description.abstract | Doğal dil işlemenin önemli alt konularından biri olan dil tanıma (DT), bir dokümanın içeriğine göre yazıldığı dili belirleme işlemidir. Bu çalışmada, karakterlerin UTF-8 değerlerini birbirleri ile karşılaştırmalar sonucu elde edilen ikili desenler kullanarak yeni bir dil tanıma yaklaşımı, bir boyutlu yerel ikili örüntüler (1B-YİÖ) önerilmiştir. Önerilen yöntem farklı sayıda dillerden oluşan metinler içeren dört veri kümesi ile test edilmiştir. 1B-YİÖ ile dokümanlardan elde edilen öznitelikler kullanılarak farklı makine öğrenmesi yöntemleri ile sınıflandırma işlemi gerçekleştirilmiştir. Dört veri kümesi için sınıflandırma başarıları sırası ile %86.20, %92.75, %100 ve %89.77 olarak gözlenmiştir. Elde edilen sonuçlara göre önerilen öznitelik çıkarım yönteminin dil tanıma için önemli örüntüler sağladığı görülmüştür. | en_US |
dc.description.abstract | Language identification (LI), which is a major task in natural language processing, is the process of determining the language from a given content. In this paper, a novel approach, which is based on the probability of the use of the characters that have the similar orders with respect to their UTF-8 values, was proposed. In order to evaluate and validate the proposed approach, four datasets, which contain texts in different numbers of languages, were employed. In the proposed approach, the features that were exacted by one-dimensional local binary pattern (1D-LBP) method were classified by various machine learning methods. Achieved LI accuracies in each of four employed datasets were 86.20%, 92.75%, 100% and 89.77%, respectively. The results showed that the proposed approach yields high success rates and it is an efficient way of language identification. | en_US |
dc.identifier.citation | Kaya, Y. K., & Ertuğrul, Ö F. (2016). Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili Desenler. Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 31(4), ss. 1085-1094. https://doi.org/10.17341/gazimmfd.278463 | en_US |
dc.identifier.endpage | 1094 | en_US |
dc.identifier.issn | 1300-1884 | |
dc.identifier.issn | 1304-4915 | |
dc.identifier.issue | 4 | en_US |
dc.identifier.scopusquality | N/A | en_US |
dc.identifier.startpage | 1085 | en_US |
dc.identifier.uri | https://doi.org/10.17341/gazimmfd.278463 | |
dc.identifier.uri | https://hdl.handle.net/20.500.12402/2196 | |
dc.identifier.volume | 31 | en_US |
dc.identifier.wosquality | Q3 | en_US |
dc.indekslendigikaynak | Web of Science | en_US |
dc.indekslendigikaynak | TR-Dizin | en_US |
dc.indekslendigikaynak | Scopus | en_US |
dc.language.iso | tr | en_US |
dc.publisher | Gazi Üniversitesi | en_US |
dc.relation.isversionof | 10.17341/gazimmfd.278463 | en_US |
dc.relation.journal | Gazi Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi | en_US |
dc.relation.publicationcategory | Makale - Uluslararası Hakemli Dergi - Kurum Öğretim Elemanı | en_US |
dc.rights | info:eu-repo/semantics/openAccess | en_US |
dc.rights | Attribution-ShareAlike 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/us/ | * |
dc.subject | Metin Tabanlı Dil Tanıma | en_US |
dc.subject | Yerel İkili Örüntüler | en_US |
dc.subject | Doğal Dil İşleme | en_US |
dc.subject | Feature Extraction | en_US |
dc.subject | Natural Language Processing | en_US |
dc.subject | One Dimensional Local Binary Patterns | en_US |
dc.subject | Text-Based Language Identification | en_US |
dc.title | Doküman dili tanıma için yeni bir öznitelik çıkarım yaklaşımı: İkili desenler | en_US |
dc.title.alternative | A novel feature extraction approach for text-based language identification: Binary patterns | en_US |
dc.type | Article | en_US |
Dosyalar
Orijinal paket
1 - 1 / 1
Yükleniyor...
- İsim:
- 10.17341-gazimmfd.278463-259834.pdf
- Boyut:
- 886.88 KB
- Biçim:
- Adobe Portable Document Format
- Açıklama:
- Tam Metin / Full Text
Lisans paketi
1 - 1 / 1
Küçük Resim Yok
- İsim:
- license.txt
- Boyut:
- 1.44 KB
- Biçim:
- Item-specific license agreed upon to submission
- Açıklama: