Beden dilinden elde edilen mekânsal-zamansal veriler kullanılarak yapay zekâ ile duygu tespiti
Yükleniyor...
Tarih
2025-01-27
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Batman Üniversitesi Lisansüstü Eğitim Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Bu çalışma, beden hareketlerine dayalı duygu tanıma süreçlerinde mekânsal-zamansal verilerin ve çok boyutlu yaklaşımların etkinliğini kapsamlı bir şekilde incelemektedir. Kinematik ham veri seti ve video tabanlı DEMOS veri seti kullanılarak öfke, tiksinti, korku, mutluluk, nötr, üzüntü ve şaşkınlık gibi temel duyguların sınıflandırılmasına yönelik farklı yöntemlerin performansları karşılaştırılmıştır. Literatürde yüz ifadeleri ve ses tabanlı yöntemler ön planda yer alırken, bu çalışma, yüz ifadelerinin yetersiz kaldığı durumlarda beden hareketlerinden duygu tanımanın potansiyelini ortaya koymayı hedeflemiştir.
Kinematik veri analizlerinde, iskelet tabanlı ham pozisyon bilgileri hem doğrudan ham veri hem de öznitelik çıkarımı yapılarak değerlendirilmiştir. K-nearest neighbors, Random Forest, CatBoost ve XGBoost gibi makine öğrenimi algoritmalarının yanı sıra RegNetY, MobileNetV3, LSTM ve GRU gibi derin öğrenme yöntemleri test edilmiştir. Bu kapsamda, yedi duygu sınıfı için elde edilen en yüksek doğruluk oranı farklı pencereleme boyutları için %99’un üzerine kadar çıkmış ve bu durum ham kinematik sinyallerden duygu tanımanın yüksek doğrulukla mümkün olduğunu göstermiştir.
DEMOS video veri seti üzerinde yapılan çalışmalarda, altı duygu sınıfı için mekânsal ve zamansal verileri analize uygun modeller (SlowFast-R50, X3D-Medium, ResNet-3D-18 ve Attentive3D-CNN-LSTM gibi) derin öğrenme yöntemleriyle test edilmiştir. Tüm açılardan alınan video verileriyle, altı duygu sınıfı için en yüksek dengeli doğruluk oranı tüm test verisinde %60 olarak elde edilmiştir.
Sonuçlar, ham kinematik verilerin sağladığı yüksek doğruluğun çok sınıflı duygu sınıflandırma süreçlerinde kullanılabileceğini göstermiştir. Ayrıca, iskelet tabanlı video verilerinin bağlamsal zenginliğiyle birleştirildiği çok modelli yaklaşımların, duygu tanıma süreçlerini geliştirme potansiyeline işaret etmektedir. Çalışma, insan-makine etkileşimi, güvenlik, sağlık ve eğitim gibi farklı alanlarda geniş bir uygulama potansiyeli sunmaktadır. Bununla birlikte, sinyal işleme teknikleri, öznitelik çıkarımı, veri artırma ve transfer öğrenme gibi yöntemlerin, duygu tanıma süreçlerinde verimliliği artırmada etkili olabileceği vurgulanmıştır.
Kinematik ve video tabanlı veri setlerini karşılaştırmalı olarak analiz eden bu çalışma, duygu tanıma alanında farklı veri sistemlerin geliştirilmesine yönelik yenilikçi bir çerçeve sunmaktadır. Çalışma, duygu tanıma sistemlerinin geliştirilmesine yönelik bir temel oluşturmuş ve gelecekteki araştırmalar için metodolojik ve uygulamalı öneriler sunarak literatüre katkıda bulunmuştur.
This study provides a comprehensive evaluation of the effectiveness of spatiotemporal data and multidimensional approaches in recognizing emotions through body movements. By utilizing a kinematic raw dataset and the video-based DEMOS dataset, it compares the performance of various methods for classifying fundamental emotions, including anger, disgust, fear, happiness, neutrality, sadness, and surprise. While methods based on facial expressions and voice dominate the literature, this study highlights the potential of body movement-based emotion recognition, particularly in scenarios where facial expressions are insufficient. In the analysis of kinematic data, raw skeletal position information was assessed both as unprocessed data and after feature extraction. The study tested a range of machine learning algorithms, including K-nearest Neighbors, Random Forest, CatBoost, and XGBoost, alongside deep learning models such as RegNetY, MobileNetV3, LSTM, and GRU. For the seven emotion classes, the highest accuracy rate exceeded 99% across different windowing sizes, demonstrating that emotion recognition from raw kinematic signals is highly feasible with remarkable precision. Experiments on the DEMOS video dataset tested spatiotemporal data for six emotion classes using deep learning methods (such as SlowFast-R50, X3D-Medium, ResNet-3D-18, and Attentive3D-CNN-LSTM).With video data captured from all angles, the highest balanced accuracy rate for the six emotion classes reached 60% across all test data. The results show that raw kinematic data, with its high accuracy, can be effectively used in multi-class emotion classification. Additionally, combining skeleton-based video data with its contextual richness in multimodal approaches holds significant promise for improving emotion recognition. The study highlights broad application potential in fields such as human-machine interaction, security, healthcare, and education. Moreover, it emphasizes that techniques like signal processing, feature extraction, data augmentation, and transfer learning could substantially enhance the efficiency of emotion recognition processes. This study compares kinematic and video-based datasets, presenting an innovative framework for the development of diverse data systems in emotion recognition. It establishes a solid foundation for advancing emotion recognition technologies and makes a valuable contribution to the literature by offering both methodological and practical recommendations for future research.
This study provides a comprehensive evaluation of the effectiveness of spatiotemporal data and multidimensional approaches in recognizing emotions through body movements. By utilizing a kinematic raw dataset and the video-based DEMOS dataset, it compares the performance of various methods for classifying fundamental emotions, including anger, disgust, fear, happiness, neutrality, sadness, and surprise. While methods based on facial expressions and voice dominate the literature, this study highlights the potential of body movement-based emotion recognition, particularly in scenarios where facial expressions are insufficient. In the analysis of kinematic data, raw skeletal position information was assessed both as unprocessed data and after feature extraction. The study tested a range of machine learning algorithms, including K-nearest Neighbors, Random Forest, CatBoost, and XGBoost, alongside deep learning models such as RegNetY, MobileNetV3, LSTM, and GRU. For the seven emotion classes, the highest accuracy rate exceeded 99% across different windowing sizes, demonstrating that emotion recognition from raw kinematic signals is highly feasible with remarkable precision. Experiments on the DEMOS video dataset tested spatiotemporal data for six emotion classes using deep learning methods (such as SlowFast-R50, X3D-Medium, ResNet-3D-18, and Attentive3D-CNN-LSTM).With video data captured from all angles, the highest balanced accuracy rate for the six emotion classes reached 60% across all test data. The results show that raw kinematic data, with its high accuracy, can be effectively used in multi-class emotion classification. Additionally, combining skeleton-based video data with its contextual richness in multimodal approaches holds significant promise for improving emotion recognition. The study highlights broad application potential in fields such as human-machine interaction, security, healthcare, and education. Moreover, it emphasizes that techniques like signal processing, feature extraction, data augmentation, and transfer learning could substantially enhance the efficiency of emotion recognition processes. This study compares kinematic and video-based datasets, presenting an innovative framework for the development of diverse data systems in emotion recognition. It establishes a solid foundation for advancing emotion recognition technologies and makes a valuable contribution to the literature by offering both methodological and practical recommendations for future research.
Açıklama
Anahtar Kelimeler
Duygu Tanıma, Makine Öğrenimi, Derin Öğrenme, Spatio-Temporal Modeller, Çok Modaliteli Yaklaşımlar, Kinematik Veriler, Video Analizi, Vücut Duruşu, Emotion Recognition, Machine Learning, Deep Learning, Spatiotemporal Models, Multimodal Approaches, Kinematic Data, Video Analysis, Body Language
Kaynak
WoS Q Değeri
Scopus Q Değeri
Cilt
Sayı
Künye
Oğuz, A. (2025). Beden dilinden elde edilen mekânsal-zamansal veriler kullanılarak yapay zekâ ile duygu tespiti. (Yayınlanmamış Doktora Tezi). Batman Üniversitesi Lisansüstü Eğitim Enstitüsü, Batman.