รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2563

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2562

ประเภทโครงงาน
โครงงานวิศวกรรม

ชื่อโครงงานภาษาไทย
การศึกษาเบื้องต้นว่าด้วยการตรวจจับการประทุษวาจาในภาษาไทย

ชื่อโครงงานภาษาอังกฤษ
A Preliminary Study on Hate Speech Detection in Thai language

ผู้พัฒนา
5910501925 กิตติยา กู้เกียรติกูล

อาจารย์ที่ปรึกษาหลัก
จิตร์ทัศน์ ฝักเจริญผล

อาจารย์ที่ปรึกษาร่วม
จิตร์ทัศน์ ฝักเจริญผล

บทคัดย่อ

โครงงานนี้ผู้จัดทำได้ทำการศึกษาในเบื้องต้นในการค้นหาวิธีการทเี่หมาะสมในการจำแนก ข้อความภาษาไทยที่จัดว่าเป็นการประทุษวาจา โดยได้ทำการเลือกข้อความทเี่ป็นภาษาไทยทั้งหมด บนทวิตเตอร์เมอื่วันที่ 8 ตุลาคม 2562 ทั้งหมด 1,195,057 ข้อความ จากนั้นคัดเลือกข้อความที่มี คำสำคัญให้เหลือเพียง 600 ข้อความ จากนั้นจะนำข้อความที่ได้มาทำการทดลองด้วยฟีเจอรร์ูปแบบ ต่าง ๆ อันได้แก่ unigram, bigram, Tf-idf และอลักอริธึมรปูแบบต่างๆ ได้แก่ Naïve Bayes(NB), Linear Regression(LR), Support Vector Machine(SVM) และ Random Forest Decision Tree(RFDT) พบว่า F1-Score สงูสุดที่คำนวณได้คือ 0.77 จากการไม่กำจัด Stop word ฟีเจอร์ Tf-idf และมีการปรับค่า hyper-parameter โดยกำหนดให้ C เท่ากบั 1 gamma เท่ากับ 0.001 และ kernel เป็น linear

Abstract

In this project, we conducted a preliminary study to find a suitable way to classify Thai tweets that considered as hate speech. We selected 600 tweets by using 44 keywords from all Thai tweets (1,195,057 tweets) on 8 October 2019. Then the messages will be tested with various features, including unigram, bigram, Tf-idf with several algorithms including Naïve Bayes (NB), Linear Regression (LR), Support Vector Machine (SVM) and Random Forest Decision Tree (RFDT) found that the highest F1-Score calculated is 0.77 due to not eliminating Stop word Tf-idf features and adjusting hyper-parameter, set C = 1, gamma = 0.001 and kernel to linear

คำสำคัญ (Keywords)

การประมวลผลภาษาธรรมชาติ
ประทุษวาจา
จักรกลเรียนรู้
ภาษาไทย
ทวิตเตอร์

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
กิตติยา กู้เกียรติกูล (b5910501925)

แก้ไขครั้งสุดท้าย
เมื่อ April 17, 2020, 4:08 p.m. โดย กิตติยา กู้เกียรติกูล (b5910501925)

สถานะการอนุมัติ
อนุมัติแล้ว โดย จิตร์ทัศน์ ฝักเจริญผล (jtf) เมื่อ May 2, 2020, 7:22 a.m.