รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2562

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2561

ประเภทโครงงาน
วิทยานิพนธ์

ชื่อโครงงานภาษาไทย
การจัดหมวดหมู่อนุกรมเวลาโดยใช้เชฟเลตพลัส

ชื่อโครงงานภาษาอังกฤษ
SHAPELET+ FOR TIME SERIES CLASSIFICATION

ผู้พัฒนา
5714550137 ชุติมณฑน์ ครามะคำ

อาจารย์ที่ปรึกษาหลัก
ธนาวินท์ รักธรรมานนท์

อาจารย์ที่ปรึกษาร่วม
กฤษณะ ไวยมัย

บทคัดย่อ

การจัดหมวดหมู่อนุกรมเวลาเป็นหนึ่งในงานหลักในการวิเคราะห์ข้อมูลอนุกรมเวลา มีหลายๆ วิธีที่ถูกเสนอขึ้นมาเพื่อเพิ่มประสิทธิภาพการจัดหมวดหมู่อนุกรมเวลา หนึ่งในนั้นคือการจัดหมวดหมู่อนุกรมเวลาโดยใช้เชฟเลต (Shapelets) ซึ่งเป็นอนุกรมเวลาขนาดเล็กที่มีประสิทธิภาพมากที่สุดในการแบ่งแยกคลาสของข้อมูลอนุกรมเวลาออกจากกัน เป็นที่รู้กันอย่างกว้างขวางว่าการจัดหมวดหมู่อนุกรมเวลาโดยใช้เชฟเลตนั้นมีประสิทธิภาพสูงทั้งในด้านความแม่นยำและความสามารถในการสื่อความหมายของโมเดลการจัดหมวดหมู่ซึ่งเป็นผลลัพธ์ของวิธีนี้ วิทยานิพนธ์นี้มีจุดประสงค์หลักคือการนำเสนอวิธีการหาเชฟเลตแบบใหม่ที่สามารถเพิ่มประสิทธิภาพในกระบวนการค้นพบเชฟเลตดั้งเดิม

ในปัจจุบันมีวิธีการค้นพบเชฟเลตมากมายที่ได้ถูกนำเสนอขึ้นมา โดยส่วนมากวิธีเหล่านั้นจะใช้ค่าเกณฑ์ความรู้ (Information gain) เป็นตัวชี้วัดความสามารถในการแบ่งแยกข้อมูลของเชฟเลต ในการคำนวณหาค่าเกณฑ์ความรู้นั้นจำเป็นจะต้องสร้างเส้นลำดับ (Order line) ขึ้นมา ซึ่งวิธีการนี้เหมาะสมกับข้อมูลที่มีเพียงมิติเดียว ในขณะที่ข้อมูลอนุกรมเวลาเป็นข้อมูลหลายมิติ ส่งผลให้เชฟเลตที่ได้นั้นอาจไม่ใช่ตัวแทนเชฟเลต (Shapelet candidates) ที่ดีที่สุด เนื่องจากการพิจารณาข้อมูลในมิติเดียวทำให้สูญเสียข้อมูลการกระจายตัวของอนุกรมเวลารอบๆ ตัวแทนเชฟเลตไป ทำให้เชฟเลตที่ได้อาจเข้ากันได้กับชุดข้อมูลฝึกสอน (Train dataset) มากเกินไป (Overfitted shapelets)

วิทยานิพนธ์นี้ได้นำเสนอการคำนวณตัวชี้วัดแบบใหม่โดยการรวมค่าเกณฑ์ความรู้ของตัวแทนเชฟเลตและอนุกรมเวลารอบๆ เข้าด้วยกัน เพื่อยืนยันค่าของตัวชี้วัดและได้ตัวชี้วัดที่สะท้อนถึงการกระจายตัวของอนุกรมเวลารอบๆ ตัวแทนเชฟเลตมากขึ้น เพื่อให้ได้เชฟเลตที่มีความยืดหยุ่น มีความเข้ากันได้กับชุดข้อมูลทดสอบ (Test dataset) และข้อมูลที่ไม่เคยเห็นมาก่อน (Unseen data) มากขึ้น (Less overfitted shapelets) เพื่อเพิ่มความแม่นยำของโมเดลการจัดหมวดหมู่

Abstract

Time series classification is one of the main tasks in time series analysis. Many approaches have been proposed to improve time series classification performance. One of them is shapelets discovery method, a shapelets is a small segment of time series that most efficiently separates time series into different classes. The use of time series shapelets has been recognized to be the promising approach to improve both accuracy and explicability of the classifier. The main objective of this thesis is to propose a new technique to discover time series shapelets.

Recently, many time series shapelets discovery approaches have been proposed. Most of them use the information gain criteria to select a high separation ability shapelets. In order to determine information gain, the order line has been introduced to represent distances of shapelet candidates with other time series. However, using one-dimensional distance order line, instead of real distances in multi-dimensional space causes the lost of information about the distribution of time series around the candidates, and may lead to select an overfitted shapelets.

In this thesis, we propose an information gain aggregation-based approach for discovering less overfitted shapelets. Our idea is to confirm information gain value and compensate the lost of distribution by aggregating candidate’s information gain and its surrounding in order to select less overfitted shapelets (more compatibility with train datasets / unknown data) which will improve the accuracy of the classifier.

คำสำคัญ (Keywords)

Time Series
Classification
Information Gain
Time Series Shapelets

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
ชุติมณฑน์ ครามะคำ (g5714550137)

แก้ไขครั้งสุดท้าย
เมื่อ Sept. 9, 2019, 6:38 p.m. โดย ชุติมณฑน์ ครามะคำ (g5714550137)

สถานะการอนุมัติ
รออนุมัติ