Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları

Tekin, RamazanTung, Hamdullah2021-03-152021-03-152021-02-15Tung, H. (2021). Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları. (Yayınlanmamış Yüksek Lisans Tezi). Batman Üniversitesi Fen Bilimleri Enstitüsü, Batman.https://hdl.handle.net/20.500.12402/2674Sosyal bir varlık olan insan, ihtiyaçlarını gidermek için çoğu zaman konuşarak insanlarla iletişime geçmektedir. Konuşma eylemi hem görme ve hem de duyma duyularının ortak kullanımı sonucu gerçekleşmektedir. Konuşmada esnasında sesler üretilirken dudağın aldığı formalar gözle açık bir şekilde izlenebilir. Dudak okuma, sesin duyulmadığı ya da bozuk olduğu durumlarda konuşmayı dudak, yüz ve dilin hareketini çözümleyerek anlama tekniğidir. Görsel konuşma bilgileri, özellikle ses bozuk veya erişilemez olduğunda, otomatik dudak okumada önemli bir rol oynamaktadır. Ses-görüntü tabanlı dudak okumanın başarısına rağmen, sadece görüntü tabanlı dudak okumada birbirine benzer dudak hareketlerine sahip sesleri ayırmadaki zorluklardan dolayı oldukça güç bir problemdir. Bu çalışmada, sadece-görsel tabanlı dudak okuma uygulamalarında başarı oranını arttırmak amacıyla birtakım yeni öznitelik yaklaşımları sunulmuştur. Bu çalışmada, konuşmacı-bağımsız ve konuşmacı-bağımlı gerçekleştirilen tahmin uygulamalarında iki ayrı veri seti kullanılmıştır. Bu veri setleri; Latin alfabesindeki 26 harfin beş (5) konuşmacı tarafından yedi (7) kez tekrarlandığı AVLetters2 ve 0-9 arasındaki 10 rakamın altı (6) konuşmacı tarafından dokuz (9) kez tekrarlandığı AVDigits’dir. Öncelikle yüzdeki öğeler ve dudaklar aynlarak, dudak sınırlarını 20 noktayla işaretlenmiştir. Daha sonra bu uzamsal noktalara dayalı, Merkezi-Öklid-Uzaklık (MÖU), Simetrik-Öklid Uzaklık (SÖU) ve Komşu-İşaret-Açıları (KİA) isimli öznitelik yaklaşımlarıyla elde edilen özellikler sınıflandırıcılara uygulanmıştır. Son olarak, K-en Yakın Komşu algoritması, Rasgele Orman, Destek Vektör Makinesi isimli sınıflandırma algoritmaları kullanılarak video görüntülerden dudak okuma analizi yapılarak 26 karakter ve 10 rakam tespit edilmeye çalışılmıştır. Yapılan analizler sonucunda en iyi başarı sonuçları AVLetters2 veri seti için RO-MÖU yöntemiyle %45,934 ve AVDigits veri seti için KNN-MÖU yöntemiyle %67,407 olarak bulunmuştur. Bu veri setleri üzerinde sadece-görüntü temelli yapılan diğer çalışmalarla karşılaştırıldığında oldukça yüksek ve başarılı sonuçlar elde edildiği görülmüştür.As a social being, human beings often communicate with people by talking in order to meet their needs. The act of speaking takes place as a result of the joint use of both sight and hearing. While the sounds are produced during the speech, the forms of the lip can be clearly observed. Lip reading is the technique of understanding speech by analyzing the movement of the lips, face and tongue in cases where the voice is not heard or distorted. Visual speech information plays an important role in automatic lip reading, especially when the sound is distorted or inaccessible. Despite the success of audio-image-based lip reading, visual-only lip reading is a very difficult problem due to difficulties in distinguishing sounds with similar lip movements. In this study, some new attribute approaches are presented in order to increase the success rate in visual only lip reading applications. In this study, two separate data sets were used in speaker-independent and speaker-dependent prediction applications. These data sets; AVLetters2, in which 26 letters in the Latin alphabet are repeated seven (7) times by five (5) speakers, and AVDigits, in which the 10 digits 0-9 are repeated nine (9) times by six (6) speakers. First of all, the facial elements and lips are separated and the lip borders are marked with 20 points. Later, the attribute approaches based on these spatial points, named Center-Euclidean-Distance (CED), Symmetric-Euclidean-Distance (SED) and Neighbor-Points-Angles (NPA), are applied to classifiers. Finally, using the classification algorithms named K-Nearest Neighbor algorithm (KNN), Random Forest (RF), Support Vector Machine (SVM), lip reading analysis was performed from video images to determine 26 characters and 10 numbers. As a result of the analysis, the best success results were found to be 45.934% for the AVLetters2 data set with the RF-CED method and 67.407% for the AVDigits data set using the KNN-CED method. When compared to other visual-only studies on these data sets, it was seen that quite high and successful results were obtained.trinfo:eu-repo/semantics/openAccessAttribution-ShareAlike 3.0 United StatesDudak OkumaGörüntü İşlemeÖznitelik ÇıkarmaUzamsal ÖzniteliklerLip ReadingImage ProcessingFeature ExtractionSpatial FeaturesGörüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımlarıNew feature approaches based on spatial lip points in visual-based lip reading applicationsMaster Thesis