Chúc mừng nhóm sinh viên HTTT2022.2 có bài báo được chấp nhận đăng tại Hội nghị Khoa học Quốc tế RIVF 2025 (The 2025 RIVF International Conference on Computing and Communication Technologies)
Hội nghị RIVF (Research, Innovation and Vision for the Future) là một hội nghị khoa học quốc tế uy tín, được tổ chức thường niên từ năm 2003, quy tụ các nhà nghiên cứu, học giả và sinh viên trong lĩnh vực Công nghệ Máy tính và Truyền thông. RIVF được bảo trợ kỹ thuật bởi IEEE, và các bài báo được xuất bản trong cơ sở dữ liệu IEEE Xplore – một trong những thư viện học thuật hàng đầu thế giới.
Năm nay, RIVF 2025 sẽ do Trường Đại học Văn Lang đăng cai tổ chức tại Thành phố Hồ Chí Minh, Việt Nam, từ ngày 18 đến 20 tháng 12 năm 2025. Hội nghị tiếp tục là diễn đàn khoa học quốc tế quan trọng, nơi các nhà nghiên cứu chia sẻ những công trình mới nhất trong các lĩnh vực như trí tuệ nhân tạo, học sâu, xử lý ngôn ngữ, thị giác máy tính, an ninh mạng và công nghệ truyền thông.
Link hội nghị: https://rivf2025.org/
Tên bài báo: “Evaluating Deep Learning Models for Negative Speech Emotion Recognition in Security Systems”
Nhóm sinh viên thực hiện:
- 22521464 – Giang Mỹ Tiên – HTTT2022.2
- 22521510 – Huỳnh Ngọc Trang – HTTT2022.2
Giảng viên hướng dẫn:ThS. Nguyễn Hồ Duy Trí và ThS. Nguyễn Hồ Duy Tri (Đồng hướng dẫn)
Abstract: Negative Speech Emotion Recognition (NSER) plays an important role in security applications, but building reliable systems remains challenging due to differences in datasets and model performance. This study investigates four deep learning models – DNN, Transformer, Conformer, and CNN-LSTM – across different audio features and dataset configurations. Experiments were conducted in three phases. First, model performance was evaluated on five benchmark datasets (RAVDESS, SAVEE, TESS, CREMA-D, and IEMOCAP) and their combinations using 13-dimensional MFCC features. TESS provided the best results among single datasets, while the RAVDESS+SAVEE+TESS combination was the most effective overall. Second, various audio features (MFCC, ZCR, Chroma STFT, RMS, Mel spectrogram, and combinations) were tested in this optimal dataset mix. The highest accuracy across all models was obtained using 40-dimensional MFCC features. Third, the optimal feature set was applied to the RAVDESS dataset for comparison with other studies. Results show that DNN achieved 94.44% accuracy, CNN-LSTM 91.09%, Transformer 90.51%, whereas Conformer reached only 63.77%. These findings highlight that DNN works most reliably for negative emotion detection, while Conformer performs surprisingly poorly despite being more complex. These findings help guide the development of practical NSER systems for security use.











