หลักสูตร/ปี พ.ศ. วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2562
ภาคและปีการศึกษาที่สำเร็จการศึกษา ภาคฤดูร้อน ปีการศึกษา 2561
ประเภทโครงงาน
วิทยานิพนธ์
ชื่อโครงงานภาษาไทย
แนวทางใหม่สำหรับการแบ่งกลุ่มกระแสข้อมูลแบบกึ่งผู้สอนโดยการใช้เงื่อนไข
ชื่อโครงงานภาษาอังกฤษ
New Approaches for Constraint-based Semi-supervised Stream Clustering
ผู้พัฒนา
5514552527 กฤษณะ ตรีฉลอง
อาจารย์ที่ปรึกษาหลัก
กฤษณะ ไวยมัย
อาจารย์ที่ปรึกษาร่วม
ธนาวินท์ รักธรรมานนท์
บทคัดย่อ
ในปัจจุบันการแบ่งกลุ่มกระแสข้อมูลมีการศึกษาวิจัยและใช้งานอย่างแพร่หลาย อย่างไรก็ตาม เทคนิคเหล่านี้ยังขาดการใช้ความช่วยเหลือจาก ความรู้ของผู้เชี่ยวชาญ หรือ ประสบการณ์จากในอดีต ซึ่งสามารถประยุกต์ใช้ใน แอพพลิเคชั่นจริง ข้อดีของการใช้เทคนิคเหล่านี้จะช่วยให้ประสิทธิภาพและความแม่นยำของกลุ่มข้อมูลผลลัพธ์ดีขึ้น โดยงานวิจัยนี้นำเสนอการแบ่งกลุ่มกระแสข้อมูลที่ใช้ความรู้มาช่วยในรูปแบบของ เงื่อนไข (Constraints) ชื่อว่า NCE-Stream
เงื่อนไขในระดับข้อมูลทั้งเงื่อนไขแบบเชื่อมต่อ (Must-Link constraints) และเงื่อนไขแบบไม่เชื่อมต่อ (Cannot-Link constraints) ถูกนำมาใช้เพื่อช่วยเหลือการแบ่งกลุ่มกระแสข้อมูลให้ดียิ่งขึ้น โดยการปรับเงื่อนไขไปในรูปแบบของสีและเพิ่มตัวแทนของกลุ่มข้อมูลคือสีของกลุ่มข้อมูล (Color of Cluster) เพื่อปรับปรุงพฤติกรรมการแบ่งกลุ่มกระแสข้อมูลให้ดียิ่งขึ้น อาทิเช่น การส่งมอบข้อมูลสมาชิกให้แต่ละกลุ่มข้อมูล (Cluster Assignment) การรวมตัวกันของกลุ่มข้อมูล (Cluster Merge) และการแยกตัวของกลุ่มข้อมูล (Cluster Splitting) จากนั้นได้มีการเพิ่มการบังคับให้แยกตัวของกลุ่มข้อมูล (Cluster Force-Split) เข้าไปในการแบ่งกลุ่มกระแสข้อมูลอีกด้วย
จากผลการทดลองกับชุดข้อมูลมาตรฐาน Covertype และ Electricity ซึ่งเป็น ชุดข้อมูลการแบ่งกลุ่มประเภทป่าฝนจากภูมิประเทศ และชุดข้อมูลความต้องการกระแสไฟฟ้า ตามลำดับ วัดผลด้วยค่าเอฟเมเชอร์และค่าความบริสุทธิ์ พบว่าผลการทดลองเมื่อเทียบกับเทคนิค E-Stream ดั้งเดิมและ CE-Stream ที่ใช้เงื่อนไข มีประสิทธิภาพที่ดีขึ้น
Abstract
Large number of stream clustering techniques has been proposed in recent years. However, these techniques still lack of using background knowledge which is available from domain expert. The advantages of using knowledge improve accuracy and performance of final clusters. In this research work, NCE-Stream, an incremental method for stream clustering by using background knowledge as constraints is proposed.
Instance-level constraints have been used to guide better clustering behaviors i.e. using Must-Link and Cannot-Link constraints on Cluster Assignment, Cluster Splitting and Cluster Merge. Also, constraint operators are introduced to support evolving characteristics of constraints. NCE-Stream assigns color to constraints and defines a new cluster representation which is Color of Cluster (CoC). The set of conditions to fire the clustering structure evolution operators are defined and a new split operator named ForceSplit is added.
Experimental results, using Covertype and Electricity datasets which are Rain forest typology by geographical and Electricity Demand respectively, show that both F-measure and Purity increased with respect to an original technique E-Stream and a contraints technique CE-Stream.
คำสำคัญ (Keywords)
stream clustering
constraints-based clustering
semi-supervised learning
เว็บไซต์โครงงาน
-
วีดีโอคลิปของโครงงาน
-
ที่เก็บเวอร์ชันซอร์สโค้ด
-
ผู้นำเข้าข้อมูลครั้งแรก
กฤษณะ
ตรีฉลอง
(g5514552527)
แก้ไขครั้งสุดท้าย
เมื่อ Sept. 9, 2019, 2:49 p.m. โดย
กฤษณะ
ตรีฉลอง
(g5514552527)
สถานะการอนุมัติ
รออนุมัติ