รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิทยาศาสตรมหาบัณฑิต สาขาวิชาเทคโนโลยีสารสนเทศ ปี พ.ศ. 2547

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2546

ประเภทโครงงาน
การศึกษาค้นคว้าอิสระ

ชื่อโครงงานภาษาไทย
การทำความสะอาดข้อมูลโดยเทคนิคอิงกฎ กรณีศึกษาฐานข้อมูลระบบจำหน่ายไฟฟ้าแรงสูง การไฟฟ้าส่วนภูมิภาค

ชื่อโครงงานภาษาอังกฤษ
Rule-based of Data Cleaning for PEA Electrical Case Study

ผู้พัฒนา
45653599 ดวงใจ จิตคงชื่น

อาจารย์ที่ปรึกษาหลัก
อัศนีย์ ก่อตระกูล

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

ปัญหาทางด้านคุณภาพของข้อมูลพบได้ในหลายลักษณะ เช่น ปัญหาที่พบในแหล่งข้อมูลเดียว พบในลักษณะของความผิดพลาดในการนำเข้าข้อมูล ไม่ว่าจะเป็นการสะกดผิด ค่าของข้อมูลสูญหายหรือผิดไปจากค่าที่ควรจะเป็น ส่วนปัญหาที่เกิดจากการนำข้อมูลจากหลาย ๆ แหล่งมารวมเข้าด้วยกัน เช่น ลักษณะของคลังข้อมูล จะพบในเรื่องของรูปแบบของข้อมูลที่แตกต่างกัน ค่าของข้อมูลขัดแย้งกัน หรือค่าของข้อมูลซ้ำซ้อนกัน
การทำความสะอาดข้อมูล (data cleaning) เป็นการนำข้อมูลมาตรวจสอบความผิดพลาด (detect) และทำการแก้ไขให้ถูกต้อง (cleaning) เพื่อให้ข้อมูลมีคุณภาพมากขึ้น เทคนิคในการทำความสะอาดข้อมูล เช่น เทคนิค Hidden Markov Model ถูกนำมาใช้ในเรื่องของการแยกโครงสร้างของข้อมูล เทคนิค Ontology-based ถูกนำมาใช้แก้ไขในเรื่องความซ้ำซ้อนของข้อมูล เทคนิค Rule-based ถูกนำมาใช้ในการกำหนดเงื่อนไขสำหรับการตรวจสอบและแก้ไขข้อมูล
ในโครงงานนี้ จึงศึกษาลักษณะการเกิดความผิดพลาดของข้อมูล และพัฒนาต้นแบบในการทำความสะอาดข้อมูลแบบอัตโนมัติ โดยใช้กรณีศึกษาเป็นฐานข้อมูลระบบภูมิสารสนเทศของระบบจำหน่ายไฟฟ้าแรงสูง ของการไฟฟ้าส่วนภูมิภาค เทคนิคที่ใช้คือเทคนิคอิงกฏ เพื่อกำหนดเงื่อนไขสำหรับตรวจสอบและแก้ไขข้อผิดพลาดของข้อมูลรหัสหม้อแปลง ผลจากการพัฒนาต้นแบบพบว่าสามารถทำความสะอาดข้อมูลรหัสหม้อแปลงได้ถูกต้อง 100%

Abstract

Data quality problems are present in single data collections, such as files and databases, e.g., due to misspellings during data entry, missing information or other invalid data. When multiple data sources need to be integrated, e.g., in data warehouses, the need for data cleaning increases significantly. This is because the sources often contain redundant data in different representations. In order to provide access to accurate and consistent data, consolidation of different data representations and elimination of duplicate information become necessary.
Data cleaning, also called data cleansing or scrubbing, deals with detecting and removing errors and inconsistencies from data in order to improve the quality of data. There are several techniques for data cleaning. For example, hidden markov model is used to extract structure. Ontology-based technique is used to eliminate redundant data. Rule-based technique is used to define conditions for detecting and cleaning.
In this project, we present a classification of the problems, discuss the main cleaning approaches used in available tools and researches and give a prototype using rule-based technique for PEA electrical case study. The scope of study is specific only PEA_NO. Experiments on datasets show the 100% accuracy.

คำสำคัญ (Keywords)

-

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
ดวงใจ จิตคงชื่น (g45653599)

แก้ไขครั้งสุดท้าย
เมื่อ March 1, 2004, 10 a.m. โดย ดวงใจ จิตคงชื่น (g45653599)

สถานะการอนุมัติ
อนุมัติแล้ว โดย อัศนีย์ ก่อตระกูล (ak) เมื่อ March 1, 2004, 10 a.m.