รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2569

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2568

ประเภทโครงงาน
โครงงานวิศวกรรม

ชื่อโครงงานภาษาไทย
การแสดงอารมณ์ข้อความเสียงให้เป็นความรู้สึก

ชื่อโครงงานภาษาอังกฤษ
Speech Emotion Recognition

ผู้พัฒนา
6510503662 ภัทรพล วลิตวรางค์กูร

อาจารย์ที่ปรึกษาหลัก
ธนาวินท์ รักธรรมานนท์

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

การจำแนกอารมณ์จากเสียงพูด (Speech Emotion Recognition: SER) ในภาษาที่มีวรรณยุกต์เช่นภาษาไทยเป็นความท้าทายสำคัญ เนื่องจากโมเดลที่ผ่านการเรียนรู้ล่วงหน้าอย่าง Wav2Vec 2.0 มักลดทอนรายละเอียดของระดับเสียง (Pitch) ระหว่างกระบวนการแปลงข้อมูล ส่งผลให้เกิดความกำกวมในการแยกแยะอารมณ์ งานวิจัยนี้นำเสนอสถาปัตยกรรมโครงข่ายประสาทเทียมแบบผสมผสานเพื่อเพิ่มประสิทธิภาพการจำแนกอารมณ์ภาษาไทย โดยการบูรณาการค่าความถี่มูลฐาน (Fundamental Frequency: F0) เข้ากับโมเดล Wav2Vec 2.0 ระบบที่นำเสนอใช้ Bi-directional LSTM ในการประมวลผล F0 Contour ที่สกัดด้วยอัลกอริทึม YIN และนำไปรวมกับฟีเจอร์จาก Wav2Vec 2.0 ที่มีการปรับจูนพารามิเตอร์ (Fine-tuning) นอกจากนี้ เพื่อลดความแปรปรวนของโมเดลและแก้ไขความสับสนระหว่างอารมณ์ที่มีลักษณะทางเสียงใกล้เคียงกันอย่างอารมณ์โกรธและหงุดหงิด คณะผู้จัดทำได้ประยุกต์ใช้ระบบลงคะแนนเสียงข้างมาก (Majority Voting System) จาก 10 โมเดลย่อย ผลการทดลองแสดงให้เห็นว่าการบูรณาการ F0 ช่วยเพิ่มความเสถียรของโมเดล และระบบลงคะแนนเสียงข้างมากสามารถทำค่าความแม่นยำรวมสูงสุดได้ที่ร้อยละ 79.0 ซึ่งสูงกว่าโมเดลพื้นฐานที่ทำได้ร้อยละ 70.0 อย่างมีนัยสำคัญ การวิเคราะห์ความผิดพลาด (Confusion Matrix) ยืนยันว่าระบบสามารถลดความผิดพลาดในการจำแนกกลุ่มอารมณ์ที่มีพลังงานสูงได้จริง ซึ่งพิสูจน์ถึงประสิทธิภาพของการใช้ข้อมูลเชิงระดับเสียงร่วมกับกลยุทธ์การตัดสินใจแบบกลุ่มสำหรับภาษาไทย

Abstract

Speech Emotion Recognition (SER) in tonal languages like Thai presents a unique challenge, as standard pre-trained models such as Wav2Vec 2.0 often compromise prosodic information, particularly pitch, during feature quantization. This study proposes a hybrid architecture to enhance Thai SER performance by integrating Fundamental Frequency (F0) features with the Wav2Vec 2.0 model. The system employs a Bi-directional LSTM to process F0 contours extracted via the YIN algorithm, fusing them with contextual representations from a fine-tuned Wav2Vec 2.0 backbone. To address model variance and ambiguity between acoustically similar emotions, specifically Anger and Frustrated, a Majority Voting System utilizing ten sub-models was implemented. Experimental results demonstrate that the proposed integration of F0 significantly improves model stability. Furthermore, the Majority Voting System achieved the highest overall accuracy of 79.0%, significantly outperforming the single-model baseline of 70.0%. The analysis of the confusion matrix confirms a substantial reduction in misclassification between high-energy emotions, validating the effectiveness of incorporating pitch dynamics and ensemble strategies for Thai SER.

คำสำคัญ (Keywords)

การจำแนกอารมณ์จากเสียงพูดภาษาไทย
Wav2Vec 2.0
ความถี่มูลฐาน
ระบบลงคะแนนเสียงข้างมาก
Thai Speech Emotion Recognition
Wav2Vec 2.0
Fundamental Frequency
Majority Voting System

เว็บไซต์โครงงาน
https://voice-emotion-analyzer-inky.vercel.app/

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
ภัทรพล วลิตวรางค์กูร (b6510503662)

แก้ไขครั้งสุดท้าย
เมื่อ March 12, 2026, 9:30 a.m. โดย ภัทรพล วลิตวรางค์กูร (b6510503662)

สถานะการอนุมัติ
รออนุมัติ