หลักสูตร/ปี พ.ศ. วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2563
ภาคและปีการศึกษาที่สำเร็จการศึกษา ภาคปลาย ปีการศึกษา 2562
ประเภทโครงงาน
โครงงานวิศวกรรม
ชื่อโครงงานภาษาไทย
การศึกษาเบื้องต้นว่าด้วยการตรวจจับการประทุษวาจาในภาษาไทย
ชื่อโครงงานภาษาอังกฤษ
A Preliminary Study on Hate Speech Detection in Thai language
ผู้พัฒนา
5910501925 กิตติยา กู้เกียรติกูล
อาจารย์ที่ปรึกษาหลัก
จิตร์ทัศน์ ฝักเจริญผล
อาจารย์ที่ปรึกษาร่วม
จิตร์ทัศน์ ฝักเจริญผล
บทคัดย่อ
โครงงานนี้ผู้จัดทำได้ทำการศึกษาในเบื้องต้นในการค้นหาวิธีการทเี่หมาะสมในการจำแนก ข้อความภาษาไทยที่จัดว่าเป็นการประทุษวาจา โดยได้ทำการเลือกข้อความทเี่ป็นภาษาไทยทั้งหมด บนทวิตเตอร์เมอื่วันที่ 8 ตุลาคม 2562 ทั้งหมด 1,195,057 ข้อความ จากนั้นคัดเลือกข้อความที่มี คำสำคัญให้เหลือเพียง 600 ข้อความ จากนั้นจะนำข้อความที่ได้มาทำการทดลองด้วยฟีเจอรร์ูปแบบ ต่าง ๆ อันได้แก่ unigram, bigram, Tf-idf และอลักอริธึมรปูแบบต่างๆ ได้แก่ Naïve Bayes(NB), Linear Regression(LR), Support Vector Machine(SVM) และ Random Forest Decision Tree(RFDT) พบว่า F1-Score สงูสุดที่คำนวณได้คือ 0.77 จากการไม่กำจัด Stop word ฟีเจอร์ Tf-idf และมีการปรับค่า hyper-parameter โดยกำหนดให้ C เท่ากบั 1 gamma เท่ากับ 0.001 และ kernel เป็น linear
Abstract
In this project, we conducted a preliminary study to find a suitable way to classify Thai tweets that considered as hate speech. We selected 600 tweets by using 44 keywords from all Thai tweets (1,195,057 tweets) on 8 October 2019. Then the messages will be tested with various features, including unigram, bigram, Tf-idf with several algorithms including Naïve Bayes (NB), Linear Regression (LR), Support Vector Machine (SVM) and Random Forest Decision Tree (RFDT) found that the highest F1-Score calculated is 0.77 due to not eliminating Stop word Tf-idf features and adjusting hyper-parameter, set C = 1, gamma = 0.001 and kernel to linear
คำสำคัญ (Keywords)
การประมวลผลภาษาธรรมชาติ
ประทุษวาจา
จักรกลเรียนรู้
ภาษาไทย
ทวิตเตอร์
เว็บไซต์โครงงาน
-
ที่เก็บเวอร์ชันซอร์สโค้ด
-
ผู้นำเข้าข้อมูลครั้งแรก
กิตติยา
กู้เกียรติกูล
(b5910501925)
แก้ไขครั้งสุดท้าย
เมื่อ April 17, 2020, 4:08 p.m. โดย
กิตติยา
กู้เกียรติกูล
(b5910501925)
สถานะการอนุมัติ
อนุมัติแล้ว โดย
จิตร์ทัศน์
ฝักเจริญผล
(jtf)
เมื่อ May 2, 2020, 7:22 a.m.