รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมซอฟต์แวร์และความรู้ ปี พ.ศ. 2562

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2561

ประเภทโครงงาน
โครงงานวิศวกรรม

ชื่อโครงงานภาษาไทย
การจัดกลุ่มและแสดงผลของเอกสารข้อความขนาดเล็กในรูปแบบของสตรีม

ชื่อโครงงานภาษาอังกฤษ
Short Text Document Stream Clustering and Visualization

ผู้พัฒนา
5810546625 ชนน เจนาคม
5810546714 เมธาวี อภินัยณรงค์

อาจารย์ที่ปรึกษาหลัก
กฤษณะ ไวยมัย

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

เอกสารข้อความขนาดเล็ก เช่นข้อความทวิตเตอร์นั้น เป็นแหล่งข้อมูลที่สำคัญอย่างมากในยุคที่ทุกคนสามารถเข้าถึงอินเทอร์เน็ตได้อย่างสะดวก อย่างไรก็ตาม ในปัจจุบันนั้นยังไม่มีวิธีการดึงข้อมูลและความรู้จากเอกสารเหล่านี้ได้อย่างมีประสิทธิภาพ เหตุผลหนึ่งคือข้อมูลลักษณะนี้มีการกระจายตัวสูง และยังถูกนำเสนอในรูปแบบของสตรีม ทำให้มีอัลกอริทึมเพียงจำนวนน้อยที่เหมาะสมกับข้อมูลประเภทนี้ ตัวอย่างเช่นในการจัดกลุ่มข้อมูลในรูปแบบสตรีม อัลกอริทึมส่วนใหญ่ เช่น E-Stream จะทำการสรุปข้อมูลที่เข้ามาอยู่ในรูปของผลรวม อย่างไรก็ตาม การเก็บข้อมูลเช่นนี้ทำให้อัตลักษณ์ของข้อมูลสูญหายไป ซึ่งในกรณีนี้คือข้อความทวิตเตอร์ เหลือแค่เพียงผลลัพธ์สุดท้ายเท่านั้น นอกจากนี้การจัดกลุ่มข้อมูลในรูปแบบของสตรีมนั้นยังมีความยากอยู่อีกหนึ่งประการคือการแสดงผลแบบต่อเนื่อง เนื่องจากในปัจจุบันข้อมูลเอกสารข้อความต่าง ๆ จะถูกแปลงไปอยู่ในรูปของเวกเตอร์หลายมิติผ่านวิธีการหลากหลายเช่น bag-of-words และ Word2Vec ทำให้ต้องมีการลดจำนวนมิติลงก่อนจะนำมาแสดงผลในพื้นที่ 2 หรือ 3 มิติ ในบริบทของการประมวลผลแบบออฟไลน์ เราสามารถใช้อัลกอริทึมเช่น t-SNE ในการแสดงผลข้อมูลหลายมิติได้ แต่ว่าในปัจจุบันยังไม่มีอัลกอริทึมที่สามารถทำงานในระบบออนไลน์ได้อย่างมีประสิทธิภาพ เพราะอัลกอริทึมที่มีอยู่ไม่สามารถรักษาโครงสร้างของข้อมูลไว้อย่างต่อเนื่องได้

Abstract

Short text documents, such as Twitter posts, have become one of the more popular sources of information, especially during the internet age. Despite this, there is still a lack of means to extract valuable information from these sources because of various reasons. One of which is the sparse nature of the short text documents data. Moreover, since most data analysts and data scientists who work with this type of data are also concerned with streaming data, only a few of the existing algorithms work well with streaming short text data. For example, in clustering tasks, most algorithms provide ways to work with streaming data by summarizing the incoming data points, such as E-Stream. However, when looking at short text documents, it is generally more important to be able to see the content of each documents, tweets in this case, in order to make sense of the results than to only see the global structure of the results. Thus, a problem of finding or creating an algorithm that works relatively fast in the streaming environment as well as provide means to store relevant data arises. This leads to another challenge: visualization. Currently, most text documents are transformed into a form of vectors, whether it is through a bag-of-words model or Word2Vec model. These vectors are generally effective in high enough dimensions. While there are many high-dimensional visualization techniques, such as t-SNE, there is no standard implementation of these algorithms that fit the streaming environment. The reason for this separation is that these algorithms do not capture the local and global structures incrementally in streaming context. The same data points may pop up in vastly different areas of the vector space upon the next iteration of visualizing clustering results from stream clustering process.

คำสำคัญ (Keywords)

Stream
Short text documents
Clustering
Visualization

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน

ที่เก็บเวอร์ชันซอร์สโค้ด

https://github.com/mmmk-projects/twitter-stream-clustering-frontend
https://github.com/mmmk-projects/twitter-stream-clustering-backend
https://github.com/mmmk-projects/simple-word-embedding
https://github.com/mmmk-projects/tweets-preprocessing


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
เมธาวี อภินัยณรงค์ (b5810546714)

แก้ไขครั้งสุดท้าย
เมื่อ May 17, 2019, 1:59 a.m. โดย ชนน เจนาคม (b5810546625)

สถานะการอนุมัติ
อนุมัติแล้ว โดย กฤษณะ ไวยมัย (fengknw) เมื่อ June 7, 2019, 1:53 p.m.