Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları
Yükleniyor...
Dosyalar
Tarih
2021-02-15
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Batman Üniversitesi Fen Bilimleri Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Attribution-ShareAlike 3.0 United States
Attribution-ShareAlike 3.0 United States
Özet
Sosyal bir varlık olan insan, ihtiyaçlarını gidermek için çoğu zaman konuşarak insanlarla iletişime
geçmektedir. Konuşma eylemi hem görme ve hem de duyma duyularının ortak kullanımı sonucu
gerçekleşmektedir. Konuşmada esnasında sesler üretilirken dudağın aldığı formalar gözle açık bir şekilde
izlenebilir. Dudak okuma, sesin duyulmadığı ya da bozuk olduğu durumlarda konuşmayı dudak, yüz ve
dilin hareketini çözümleyerek anlama tekniğidir.
Görsel konuşma bilgileri, özellikle ses bozuk veya erişilemez olduğunda, otomatik dudak
okumada önemli bir rol oynamaktadır. Ses-görüntü tabanlı dudak okumanın başarısına rağmen, sadece görüntü tabanlı dudak okumada birbirine benzer dudak hareketlerine sahip sesleri ayırmadaki zorluklardan
dolayı oldukça güç bir problemdir. Bu çalışmada, sadece-görsel tabanlı dudak okuma uygulamalarında
başarı oranını arttırmak amacıyla birtakım yeni öznitelik yaklaşımları sunulmuştur. Bu çalışmada,
konuşmacı-bağımsız ve konuşmacı-bağımlı gerçekleştirilen tahmin uygulamalarında iki ayrı veri seti
kullanılmıştır. Bu veri setleri; Latin alfabesindeki 26 harfin beş (5) konuşmacı tarafından yedi (7) kez
tekrarlandığı AVLetters2 ve 0-9 arasındaki 10 rakamın altı (6) konuşmacı tarafından dokuz (9) kez
tekrarlandığı AVDigits’dir. Öncelikle yüzdeki öğeler ve dudaklar aynlarak, dudak sınırlarını 20 noktayla
işaretlenmiştir. Daha sonra bu uzamsal noktalara dayalı, Merkezi-Öklid-Uzaklık (MÖU), Simetrik-Öklid Uzaklık (SÖU) ve Komşu-İşaret-Açıları (KİA) isimli öznitelik yaklaşımlarıyla elde edilen özellikler
sınıflandırıcılara uygulanmıştır. Son olarak, K-en Yakın Komşu algoritması, Rasgele Orman, Destek
Vektör Makinesi isimli sınıflandırma algoritmaları kullanılarak video görüntülerden dudak okuma analizi
yapılarak 26 karakter ve 10 rakam tespit edilmeye çalışılmıştır. Yapılan analizler sonucunda en iyi başarı
sonuçları AVLetters2 veri seti için RO-MÖU yöntemiyle %45,934 ve AVDigits veri seti için KNN-MÖU
yöntemiyle %67,407 olarak bulunmuştur. Bu veri setleri üzerinde sadece-görüntü temelli yapılan diğer
çalışmalarla karşılaştırıldığında oldukça yüksek ve başarılı sonuçlar elde edildiği görülmüştür.
As a social being, human beings often communicate with people by talking in order to meet their needs. The act of speaking takes place as a result of the joint use of both sight and hearing. While the sounds are produced during the speech, the forms of the lip can be clearly observed. Lip reading is the technique of understanding speech by analyzing the movement of the lips, face and tongue in cases where the voice is not heard or distorted. Visual speech information plays an important role in automatic lip reading, especially when the sound is distorted or inaccessible. Despite the success of audio-image-based lip reading, visual-only lip reading is a very difficult problem due to difficulties in distinguishing sounds with similar lip movements. In this study, some new attribute approaches are presented in order to increase the success rate in visual only lip reading applications. In this study, two separate data sets were used in speaker-independent and speaker-dependent prediction applications. These data sets; AVLetters2, in which 26 letters in the Latin alphabet are repeated seven (7) times by five (5) speakers, and AVDigits, in which the 10 digits 0-9 are repeated nine (9) times by six (6) speakers. First of all, the facial elements and lips are separated and the lip borders are marked with 20 points. Later, the attribute approaches based on these spatial points, named Center-Euclidean-Distance (CED), Symmetric-Euclidean-Distance (SED) and Neighbor-Points-Angles (NPA), are applied to classifiers. Finally, using the classification algorithms named K-Nearest Neighbor algorithm (KNN), Random Forest (RF), Support Vector Machine (SVM), lip reading analysis was performed from video images to determine 26 characters and 10 numbers. As a result of the analysis, the best success results were found to be 45.934% for the AVLetters2 data set with the RF-CED method and 67.407% for the AVDigits data set using the KNN-CED method. When compared to other visual-only studies on these data sets, it was seen that quite high and successful results were obtained.
As a social being, human beings often communicate with people by talking in order to meet their needs. The act of speaking takes place as a result of the joint use of both sight and hearing. While the sounds are produced during the speech, the forms of the lip can be clearly observed. Lip reading is the technique of understanding speech by analyzing the movement of the lips, face and tongue in cases where the voice is not heard or distorted. Visual speech information plays an important role in automatic lip reading, especially when the sound is distorted or inaccessible. Despite the success of audio-image-based lip reading, visual-only lip reading is a very difficult problem due to difficulties in distinguishing sounds with similar lip movements. In this study, some new attribute approaches are presented in order to increase the success rate in visual only lip reading applications. In this study, two separate data sets were used in speaker-independent and speaker-dependent prediction applications. These data sets; AVLetters2, in which 26 letters in the Latin alphabet are repeated seven (7) times by five (5) speakers, and AVDigits, in which the 10 digits 0-9 are repeated nine (9) times by six (6) speakers. First of all, the facial elements and lips are separated and the lip borders are marked with 20 points. Later, the attribute approaches based on these spatial points, named Center-Euclidean-Distance (CED), Symmetric-Euclidean-Distance (SED) and Neighbor-Points-Angles (NPA), are applied to classifiers. Finally, using the classification algorithms named K-Nearest Neighbor algorithm (KNN), Random Forest (RF), Support Vector Machine (SVM), lip reading analysis was performed from video images to determine 26 characters and 10 numbers. As a result of the analysis, the best success results were found to be 45.934% for the AVLetters2 data set with the RF-CED method and 67.407% for the AVDigits data set using the KNN-CED method. When compared to other visual-only studies on these data sets, it was seen that quite high and successful results were obtained.
Açıklama
Anahtar Kelimeler
Dudak Okuma, Görüntü İşleme, Öznitelik Çıkarma, Uzamsal Öznitelikler, Lip Reading, Image Processing, Feature Extraction, Spatial Features
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Tung, H. (2021). Görüntüye dayalı dudak okuma uygulamalarında uzamsal dudak noktaları temelli yeni öznitelik yaklaşımları. (Yayınlanmamış Yüksek Lisans Tezi). Batman Üniversitesi Fen Bilimleri Enstitüsü, Batman.