รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ ปี พ.ศ. 2566

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2565

ประเภทโครงงาน
การศึกษาค้นคว้าอิสระ

ชื่อโครงงานภาษาไทย
การคัดเลือกตัวแปรและแก้ปัญหาข้อมูลไม่สมดุลสำหรับจำแนกประเภทลูกค้า กรณีศึกษา : การป้องกันการทุจริตในธนาคาร

ชื่อโครงงานภาษาอังกฤษ
Feature Selection and Imbalanced Data Problem Solving in Classification of Banking Fraud Prevention

ผู้พัฒนา
6214551518 นางสาวรชตวรรณ วีรกุล

อาจารย์ที่ปรึกษาหลัก
กฤษณะ ไวยมัย

อาจารย์ที่ปรึกษาร่วม
หัชทัย ชาญเลขา

บทคัดย่อ

การคัดเลือกตัวแปรและแก้ปัญหาข้อมูลไม่สมดุล เป็นปัญหาสำคัญสำหรับเทคนิควิธีการจำแนกประเภท ดังนั้นการศึกษาค้นคว้าอิสระนี้มีวัตถุประสงค์เพื่อเปรียบเทียบประสิทธิภาพของวิธีการคัดเลือกตัวแปรและการแก้ปัญหาข้อมูลไม่สมดุลสำหรับจำแนกประเภทลูกค้า จากกรณีศึกษาการป้องกันการทุจริตในธนาคาร โดยการคัดเลือกตัวแปรที่เหมาะสม จากวิธีการหาความสัมพันธ์ระหว่างตัวแปรอิสระแต่ละตัวกับตัวแปรตาม โดยให้ค่าน้ำหนักของตัวแปรอิสระ ที่เรียกว่า Weight Of Evidence (WOE) เพื่อจัดอันดับความสำคัญของตัวแปรอิสระที่มีผลกับตัวแปรตาม โดยพิจารณาจากค่า Information Value (IV) ซึ่งเป็นเทคนิคที่สำคัญในการเลือกตัวแปร เพื่อเปรียบเทียบประสิทธิภาพเทคนิควิธีการแก้ปัญหาข้อมูลไม่สมดุล 4 วิธี คือ 1. Random Undersampling 2. SMOTE 3. Borderline-SMOTE และ 4. SMOTE-ENN และเปรียบเทียบประสิทธิภาพเทคนิควิธีการจำแนกประเภทลักษณะของลูกค้าที่มีแนวโน้มทุจริต 3 วิธี คือการวิเคราะห์ถดถอยโลจิสติก (Logistic Regression) ต้นไม้ตัดสินใจ (Decision Tree) แบบจำแนกประเภท (Classification tree) และป่าสุ่ม (Random Forest) จากผลการทดลองแสดงให้เห็นว่าการคัดเลือกตัวแปร โดยให้ค่าน้ำหนักของตัวแปรอิสระ (WOE) กับเทคนิควิธีการสุ่มตัวอย่างแบบ RUS สำหรับการจำแนกประเภทลูกค้าทุจริตด้วยเทคนิค Decision Tree จะให้ประสิทธิภาพในการจำแนกประเภทกลุ่มลูกค้าทุจริตได้ดีที่สุด

Abstract

Feature selection and imbalanced data are important problems for classification techniques. Therefore, this research aims to compare the efficiency of feature selection and imbalanced data problem solving for customer classification in the case study of banking fraud prevention. We perform feature selection to find the relationship between each of the independent variables and the dependent variable. The Weight Of Evidence (WOE) and the Information Value (IV) are used to rank variables based on their importance to affect the dependent variable. For solving imbalanced data, Random Undersampling, SMOTE (Synthetic Minority Oversampling Technique), Borderline-SMOTE, and SMOTE-ENN (Synthetic Minority Oversampling Technique-EditedNearestNeighbors) are used to pre-process data and compared their accuracy with logistic regression, classification tree and Random Forest. Our experiment results show that WOE-based feature selection with sampling methods RUS using decision tree provides the best accuracy.

คำสำคัญ (Keywords)

Feature selection, Imbalance, Classification, Banking, Fraud

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
นางสาวรชตวรรณ วีรกุล (g6214551518)

แก้ไขครั้งสุดท้าย
เมื่อ Aug. 24, 2023, 9:46 p.m. โดย นางสาวรชตวรรณ วีรกุล (g6214551518)

สถานะการอนุมัติ
รออนุมัติ