หลักสูตร/ปี พ.ศ. วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2566
ภาคและปีการศึกษาที่สำเร็จการศึกษา ภาคปลาย ปีการศึกษา 2565
ประเภทโครงงาน
โครงงานวิศวกรรม
ชื่อโครงงานภาษาไทย
อัลกอริทึมสำหรับการตรวจสอบบทวิจารณ์สินค้าทางอินเทอร์เน็ต
ชื่อโครงงานภาษาอังกฤษ
Algorithm for Internet Review Identification
ผู้พัฒนา
6210503870 สิรภพ ชยเจตน์
อาจารย์ที่ปรึกษาหลัก
พันธุ์ปิติ เปี่ยมสง่า
อาจารย์ที่ปรึกษาร่วม
-
บทคัดย่อ
เนื่องจากในปัจจุบันมีการสร้างข้อความรีวิวปลอมในอินเทอร์เน็ตเป็นจำนวนมาก ซึ่งเป็นช่องทางที่มิจฉาชีพใช้งานมากที่สุดเป็นอันดับต้นๆ ซึ่งแพลทฟอร์มซื้อขายสินค้าออนไลน์มักจะมีข้อมูลข้อความรีวิวและข้อมูลอื่นๆ ที่เกี่ยวข้อง เช่น เรตติ้ง ผู้รีวิว, ข้อมูลอื่นๆของผู้รีวิว ผู้จัดทำโครงการได้แบ่งประเภทของข้อมูลเป็น 2 ประเภท คือ ข้อมูลที่เป็นข้อความรีวิว และข้อมูลพฤติกรรมของผู้รีวิว ซึ่งผู้จัดทำได้ตั้งสมมติฐานว่า เราสามารถใช้ข้อมูลทั้งสองรูปแบบนี้ นำมาใช้ในการตรวจสอบรีวิวปลอมได้ โดยจะใช้วิธีการทางด้าน Machine Learning ในการตรวจสอบ
ข้อมูลที่ผู้จัดทำใช้งานได้จะมาจากแพลทฟอร์มที่ชื่อว่า Yelp ซึ่งมีผลเฉลยของการรีวิวปลอมมาให้แล้ว จากข้อมูลที่ได้ ผู้จัดทำได้พัฒนาโมเดลที่รับข้อมูล 2 ประเภทข้างต้นที่ผ่านกระบวณการ Feature Extraction แบบต่างๆ ด้วยอัลกอริทึ่ม 3 แบบ ได้แก่ Random Forest, Naïve Bayes, Logistic Regression มีรูปแบบการเทรน 2 วิธีคือ Supervised-Learning และ Semi-Supervised-Learning เพื่อหาวิธีการพัฒนาโมเดลที่มีประสิทธิภาพสูงสุด
ผู้จัดทำจะวัดประสิทธิภาพโมเดลด้วย Metric F-Score ซึ่งอัลกอริทึมที่ดีที่สุดของชุดข้อมูลข้อความรีวิว จะใช้ Feature เป็นการปรากฎของคำ เทรนด้วย Supervised-Learning Logistic Regression มี F-Score อยู่ที่ 0.846 และอัลกอริทึมที่ดีที่สุดของชุดข้อมูลพฤติกรรมของผู้รีวิว จะใช้ Feature เป็น การนับจำนวนการโหวตความคิดเห็นที่เป็นประโยชน์, จำนวนเพื่อนของผู้รีวิว, จำนวนการรีวิวของผู้รีวิว, จำนวนการรีวิวเป็นคนแรก, จำนวนการรีวิวต่อวัน, ความยาวการรีวิว, ความต่างจากค่าเฉลี่ยรีวิว, ความเหมือนกันของข้อมูลรีวิวของตัวเอง เทรนด้วย Supervised-Learning Random Forest มี F-Score อยู่ที่ 0.929
จากการวิเคราะห์ผล โมเดลที่รับรูปแบบทั้ง 2 อินพุท สามารถแยกแยะรีวิวปลอมและรีวิวจริงออกมาจากกันได้ โดยมีประสิทธิภาพที่ต่างกันเล็กน้อย แต่ละ 2 อินพุทนั้นจะมีข้อดีและข้อเสียที่แตกต่างกันไป ข้อดีของอินพุทแบบเป็นข้อความรีวิวนั้นคือ ความสะดวกสบายในการรับอินพุท User สามารถใช้ข้อความมาเป็นอินพุทได้โดยตรง แต่ข้อเสียก็คือประสิทธิภาพความแม่นยำจะน้อยกว่า และข้อดีของอินพุทข้อมูลพฤติกรรมของผู้รีวิว คือจะมีประสิทธิภาพความแม่นยำที่สูง แต่การนำเข้าอินพุทจะเป็นไปได้ยาก เนื่องจากการเก็บข้อมูลจากเพลทฟอร์มอื่นๆ อาจจะต้องใช้ API ในการดึงข้อมูลที่แตกต่างกันไป
ดังนั้นผู้จัดทำจึงได้มีการพัฒนา Web Application ที่ใช้ในการจัดจำแนกรีวิวปลอม โดยใช้อัลกอริทึมในรูปแบบการรับอินพุทข้อความ ซึ่งนอกจากการจัดจำแนกรีวิวปลอมแล้ว Web Application ยังสามารถใช้ข้อความเดียวกันในการจัดจำแนกหมวดหมู่อื่นๆ เพื่อใช้ในการช่วยตัดสินใจได้อีกด้วย ซึ่งโมเดลอื่นๆมีได้มีการพัฒนาและนำมาใช้ได้แก่ โมเดลจำแนกข้อความสแปม, โมเดลจำแนกหัวข้อของข้อความ, โมเดลที่ใช้คำนวณ rating ตามข้อความรีวิว, โมเดลที่ใช้สร้างรีวิวจากข้อความที่กำหนด
Abstract
Nowadays a lot of fake reviews are generated on the internet, which is the channel that criminal use the most, online shopping platforms often contain reviews information and other related information, such as ratings, reviewers, other information of reviewers. The project organizer has divided the type of information into 2 types, which are review text information and behavioral data of reviewers the authors have hypothesized that we can use both forms of this information to detect fake reviews using machine learning methods.
The information available comes from a platform called Yelp, which already has the result labels of fake reviews. From this information the authors have developed a model that receives the above 2 types of data, we use many features extraction technic, 3 models Random Forest, Naïve Bayes, Logistic Regression, 2 type of training process Supervised-Learning and Semi-Supervised-Learning to find out how to develop the most efficient model.
The authors will measure model performance with Metric F-Score. The best algorithm for the review text dataset uses word appearance as feature, trains with Supervised-Learning Logistic Regression has F-Score of 0.846, and the best algorithm for the reviewer's behavior data set is to use useful comment count, reviewer's friend count, reviewer's review count, first review count, review count per day, review length, difference from review mean, similarity of own review data, trains with Supervised-Learning Random Forest has F-Score of 0.929.
From the analysis both input formats can distinguish fake reviews from real reviews with slight differences in performance, each of the two inputs has its own advantages and disadvantages. The advantage of a review text input is that convenience in receiving input, users can use text as input directly. But the disadvantage is that the accuracy performance will be less. The advantage of reviewer’s behavior input is to have high performance but importing the input will be difficult because collecting data from other platforms may require different APIs to retrieve data.
Therefore, the organizer has developed a web application that is used to classify fake reviews. using an algorithm in the form of receiving text input in addition to categorizing fake reviews, the web application can also use the same text to categorize other categories. to be used to help user make decisions as well which other models have been developed and used, including spam message classification model, message topic classification model, model used to calculate rating based on review messages, model used to generate reviews from given messages.
คำสำคัญ (Keywords)
Machine Learning,
Random Forest,
Naïve Bayes,
Logistic Regression,
Supervised-Learning,
Semi-Supervised-Learning,
F-Score
เว็บไซต์โครงงาน
-
ที่เก็บเวอร์ชันซอร์สโค้ด
-
ผู้นำเข้าข้อมูลครั้งแรก
สิรภพ
ชยเจตน์
(b6210503870)
แก้ไขครั้งสุดท้าย
เมื่อ April 4, 2023, 1:39 a.m. โดย
สิรภพ
ชยเจตน์
(b6210503870)
สถานะการอนุมัติ
รออนุมัติ