หลักสูตร/ปี พ.ศ. วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2569
ภาคและปีการศึกษาที่สำเร็จการศึกษา ภาคปลาย ปีการศึกษา 2568
ประเภทโครงงาน
โครงงานวิศวกรรม
ชื่อโครงงานภาษาไทย
เทคนิคโอเวอร์แซมปลิงรูปแบบใหม่เพื่อจัดการข้อมูลไม่สมดุล
ชื่อโครงงานภาษาอังกฤษ
A New Oversampling Technique for Imbalanced Data
ผู้พัฒนา
6510503441 ธัญชนก ปั้นมีรส
อาจารย์ที่ปรึกษาหลัก
ธนาวินท์ รักธรรมานนท์
อาจารย์ที่ปรึกษาร่วม
-
บทคัดย่อ
ปัญหาข้อมูลไม่สมดุล (class imbalance) เป็นความท้าทายสำคัญในการเรียนรู้ของเครื่อง โดยที่โมเดลการจำแนกประเภทมักมีอคติต่อคลาสเสียงข้างมาก ทำให้ประสิทธิภาพในการจำแนกคลาสเสียงข้างน้อยลดลงอย่างมีนัยสำคัญ งานวิจัยนี้นำเสนอเทคนิคโอเวอร์แซมปลิงแบบใหม่ที่ได้รับแรงบันดาลใจจากการสุ่มตัวอย่างแบบพัวซงดิสก์ (Poisson-disk sampling) ในสาขาคอมพิวเตอร์กราฟิกส์ โดยอัลกอริทึมที่นำเสนอ (Poisson Disk Oversampling) สร้างตัวอย่างสังเคราะห์โดยบังคับระยะห่างขั้นต่ำระหว่างตัวอย่างทั้งหมด เพื่อส่งเสริมการกระจายเชิงพื้นที่ที่สม่ำเสมอและลดการทับซ้อนกับคลาสเสียงข้างมาก การทดลองบนชุดข้อมูล benchmark จำนวน 25 ชุดจากคลัง imbalanced-learn โดยใช้ตัวจำแนกประเภท Random Forest และ K-Nearest Neighbors พร้อมการตรวจสอบแบบ stratified 5-fold cross-validation แสดงให้เห็นว่าวิธีการที่นำเสนอให้ผลการทำงานที่สามารถแข่งขันได้กับวิธีการมาตรฐาน โดยเฉพาะในด้าน specificity และ precision
Abstract
Class imbalance is a fundamental challenge in machine learning, where classification models tend to be biased toward the majority class, significantly degrading performance on the minority class. This paper proposes a novel oversampling technique inspired by Poisson-disk sampling from computer graphics, adapted for the class imbalance problem. The proposed algorithm, Poisson Disk Oversampling, generates synthetic minority-class samples while enforcing a minimum-distance constraint between all points, promoting spatial uniformity and reducing overlap with the majority class. Experiments on 25 benchmark datasets from the imbalanced-learn repository, using Random Forest and K-Nearest Neighbors classifiers with stratified 5-fold cross-validation, demonstrate competitive performance against standard oversampling baselines, particularly in specificity and precision.
คำสำคัญ (Keywords)
imbalanced data, oversampling, Poisson-disk sampling, SMOTE, classification
เว็บไซต์โครงงาน
-
วีดีโอคลิปของโครงงาน
-
ที่เก็บเวอร์ชันซอร์สโค้ด
https://github.com/Lucky-TP/new-oversampling-techniques
ผู้นำเข้าข้อมูลครั้งแรก
ธัญชนก
ปั้นมีรส
(b6510503441)
แก้ไขครั้งสุดท้าย
เมื่อ March 17, 2026, midnight โดย
ธัญชนก
ปั้นมีรส
(b6510503441)
สถานะการอนุมัติ
รออนุมัติ