Chúc mừng nhóm sinh viên CTTT2021 và HVCH Khoa Hệ thống Thông tin có bài báo được chấp nhận đăng trên tạp chí quốc tế JIHMSP 2026
Journal of Information Hiding and Multimedia Signal Processing (JIHMSP) là tạp chí khoa học quốc tế có phản biện (peer-reviewed), tập trung công bố các nghiên cứu trong lĩnh vực ẩn giấu thông tin và xử lý tín hiệu đa phương tiện.
Tạp chí là diễn đàn học thuật dành cho các nhà nghiên cứu, giảng viên và chuyên gia trong các lĩnh vực:
- Khoa học máy tính
- Kỹ thuật điện – điện tử
- An toàn thông tin
- Truyền thông số và xử lý dữ liệu đa phương tiện
Phạm vi nghiên cứu của tạp chí bao gồm nhiều chủ đề quan trọng như:
- Steganography và Digital Watermarking
- Cryptography và Multimedia Security
- Signal Processing và Multimedia Coding
- Multimedia Retrieval và Pattern Recognition
- Các phương pháp Artificial Intelligence ứng dụng trong phân tích và bảo vệ dữ liệu đa phương tiện
Các bài báo gửi đến tạp chí đều trải qua quy trình phản biện nghiêm ngặt nhằm đảm bảo chất lượng học thuật, tính mới và đóng góp kỹ thuật của nghiên cứu. Với phạm vi độc giả quốc tế, tạp chí góp phần thúc đẩy hợp tác nghiên cứu toàn cầu trong lĩnh vực bảo mật và xử lý dữ liệu đa phương tiện.
Link tạp chí: https://www.jihmsp.org/
Tên bài báo: “Toward Speech-to-Speech Translation in Low-Resource Education: English–Vietnamese Cascade Benchmark”
Nhóm sinh viên thực hiện:
- 21522697 – Phạm Thị Thuỳ Trang – CTTT2021
- 21522744 – Nguyễn Tuấn Tú – CTTT2021
- 220104018 – Nguyễn Minh Nhựt – Cao học HTTT 2022
Giảng viên hướng dẫn: PGS. TS. Nguyễn Đình Thuân
Abstract: Online education is becoming increasingly widespread, yet language barriers remain a major challenge for Vietnamese learners, particularly in the field of Information Technology where most lectures and materials are delivered in English. This paper presents a modular English–Vietnamese speech translation pipeline designed to support online IT lectures. The system focuses on Automatic Speech Recognition (ASR) and Machine Translation (MT) as the initial stages of a cascade architecture. In ASR experiments, Whisper-medium achieved relatively strong performance (WER ≈ 3.36%, CER ≈ 1.57%), while Whisper-small, HuBERT, and Wav2Vec2 showed substantially higher error rates. For MT, Gemini 2.0 Flash produced the most promising results (BLEU ≈ 55, chrF ≈ 72, TER ≈ 38), with faster processing and broader coverage compared to mBART, NLLB, EnViT5, and OpusMT. These findings suggest the feasibility of a cascade-based approach and provide a benchmark for future extensions. In particular, integrating Text-to-Speech (TTS), voice cloning, and lip synchronization could move the system toward full speech-to-speech translation and improve accessibility for multilingual online IT education.











