รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2562

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคฤดูร้อน ปีการศึกษา 2561

ประเภทโครงงาน
วิทยานิพนธ์

ชื่อโครงงานภาษาไทย
ระบบตรวจจับการคัดลอกที่สามารถทำงานได้จำนวนมาก

ชื่อโครงงานภาษาอังกฤษ
High Throughput Plagiarism Checker

ผู้พัฒนา
5814501031 Thanayut SEETHONGCHUEN

อาจารย์ที่ปรึกษาหลัก
ภารุจ รัตนวรพันธุ์

อาจารย์ที่ปรึกษาร่วม
จันทนา จันทราพรชัย

บทคัดย่อ

โปรแกรมตรวจจับการคัดลอก เป็นโปรแกรมที่ตรวจจับข้อความเหมือนของเอกสารนำเข้าและเอกสารในฐานข้อมูล โดยจะหาว่าในเอกสารนำเข้ามีส่วนใดที่คัดลอกมาจากเอกสารในฐานข้อมูลมาบ้าง เพื่อตรวจสอบการคัดลอกงานวรรณกรรม เนื่องด้วยในปัจจุบันการเผยแพร่และการเข้าถึงความรู้สามารถทำได้ง่ายขึ้นจากระบบอินเตอร์เน็ต ทำให้เกิดการคัดลอกที่มากขึ้นตามไปด้วย รวมถึงที่เอกสารที่ตีพิมพ์ออกมามีมากจนเกินความสามารถของมนุษย์ในการตรวจสอบอย่างถี่ถ้วน

โปรแกรมตรวจจับการคัดลอกที่มีอยู่มีประสิทธิภาพที่ดีพอในการตรวจจับ แต่ยังติดปัญหาเรื่องการรองรับผู้ใช้จำนวนมาก จากการที่โปรแกรมเดิมออกแบบมาให้ทำงานในเครื่องเดียว ทำให้การขยายสมรรถนะในการประมวลผลจำกัดอยู่กับเครื่อง ๆ เดียว อีกทั้งเอกสารที่ต้องนำมาเปรียบเทียบมีจำนวนเพิ่มขึ้นทุก ๆ ปี ทำให้การประมวลผลต้องใช้พลังมากยิ่งขึ้น ยิ่งทำให้ลดการรองรับผู้ใช้งานของระบบ

งานวิจัยนี้จึงเสนอระบบตรวจจับการคัดลอกแบบกระจายที่รองรับการทำงานได้จำนวนมาก และทนทานความเสียหาย โดยการเปลี่ยนระบบโปรแกรมตรวจจับการคัดลอกที่มีอยู่ ให้เป็นระบบประมวลผลข้อมูลสตรีมแบบกระจายด้วยอาปาเช่สตอม และเพิ่มการทำงานแบบไปป์ไลน์เพื่อเพิ่มสมรรถนะในการรองรับผู้ใช้เพิ่มขึ้น รวมถึงนำระบบนี้ไปทำงานบนคูเบอร์เนเทส เพื่อให้ง่ายต่อการจัดการความผิดพลาด โดยระบบที่ออกแบบมานี้ สามารถเพิ่มการรองรับการทำงานตามจำนวนเท่าของทรัพยากรที่เพิ่มขึ้นเป็นกราฟเส้นตรง

Abstract

Plagiarism checker is text similarity checker program that compare input document with documents in database. Program will find which part of input document are copy from other documents. Thus, program verify plagiarism in literature. Currently, internet make accessing and publishing new knowledge so much easier. This rise plagiarism to occur much more than before. Publish document also great quantity that human cannot compare each document manually.

Existing plagiarism checker program have good compare and find plagiarized documents, but program does not support large concurrent user. Because of existing program are designed to run in single-machine, increase performance to sustain multiple concurrent is limited to one machine. Also, documents are increasing every year, make program consume more compute power. This reduce number of concurrent user support in system.

In this research, Distributed Plagiarism Checker with High Throughput and Fault Tolerance has been proposed. By change existing plagiarism checker to distributed stream processing system with Apache Storm. In addition, employing pipelining for increasing throughput, and deploy system on Kubernetes for easy to handle failure. In this design, throughput of system can grow linearly with additional compute resources.

คำสำคัญ (Keywords)

Plagiarism detection
stream processing
Apache Storm
throughput and fault-tolerant

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
Thanayut SEETHONGCHUEN (g5814501031)

แก้ไขครั้งสุดท้าย
เมื่อ Sept. 10, 2019, 8:44 p.m. โดย Thanayut SEETHONGCHUEN (g5814501031)

สถานะการอนุมัติ
อนุมัติแล้ว โดย ภารุจ รัตนวรพันธุ์ (fengprrb) เมื่อ May 13, 2020, 10:55 a.m.