CHÚC MỪNG SINH VIÊN LỚP HTTT2022.1 CÓ BÀI BÁO ĐƯỢC CHẤP NHẬN TẠI HỘI NGHỊ KHOA HỌC QUỐC TẾ MLCI NĂM 2026
MLCI 2026 (10th International Conference on Machine Learning and Computational Intelligence) là diễn đàn học thuật quốc tế uy tín, tập trung vào các xu hướng công nghệ tiên tiến như học máy, trí tuệ máy tính, tự động hóa, robot thông minh và điện toán đám mây.
Hội nghị diễn ra từ ngày 18/04 đến 20/04/2026, được tổ chức tại Trường Đại học Công nghiệp TP.HCM (IUH). Đặc biệt, kỷ yếu của hội nghị được xuất bản trên thư viện số uy tín ACM Digital Library (ISBN: 979-8-4007-2343-8) và được lập chỉ mục (index) tại các cơ sở dữ liệu khoa học hàng đầu thế giới như Scopus và Ei Compendex.
Thông tin chi tiết về hội nghị có thể tham khảo tại: https://www.icmlci.com/
Tên bài báo: “A Parallelized Framework for Multi-Distribution Neutrosophic Synthetic Data on Apache Spark”
Sinh viên thực hiện: 22520671 – Lâm Anh Khoa – HTTT2022.1 (Tác giả chính)
Giảng viên hướng dẫn: ThS. Nguyễn Hồ Duy Trí và ThS. Nguyễn Hồ Duy Tri
Abstract:Generating high-quality synthetic data is challenging when datasets contain uncertainty and complex dependencies. While GANs are powerful, they are computationally expensive, and classical distributions often overlook inherent indeterminacy. We propose a parallelized framework on Apache Spark for multi-distribution neutrosophic synthetic data generation. Our approach applies a unified indeterminacy parameter to various distributions (e.g., Gamma, Weibull) and utilizes Gaussian copulas for multivariate correlations. Benchmarks show our framework generates 50 million samples efficiently, avoiding the Out-of-Memory failures seen in sequential and GANbaselines. Furthermore, experiments on three datasets demonstrate that our neutrosophic data consistently achieves competitive or superior utility compared to GANs, yielding statistically significant improvements on large, imbalanced datasets.











