รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2555

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2555

ประเภทโครงงาน
วิทยานิพนธ์

ชื่อโครงงานภาษาไทย
การจับคู่การแปลระดับประโยคภาษาไทย - อังกฤษ โดยใช้ฟังก์ชั่นค่าใช้จ่ายแบบถ่วงน้ำหนัก

ชื่อโครงงานภาษาอังกฤษ
Thai - English Sentence Alignment using Weighted Cost Functions

ผู้พัฒนา
5314552272 ชานน อ่อนมั่น

อาจารย์ที่ปรึกษาหลัก
อัศนีย์ ก่อตระกูล

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

การแปลภาษาด้วยเครื่องเป็นการแปลข้อมความจากภาษาหนึ่งไปเป็นอีกภาษาหนึ่งโดยอัตโนมัติ ปัจจุบันการแปลภาษาด้วยคอมพิวเตอร์มีบทบาทมากขึ้นเนื่องจากมีความต้องการแปลเอกสารจำนวนมากขึ้นภายใต้เวลาและบุคลากรที่จำกัด เทคนิคที่ใช้ในการแปลภาษาด้วยเครื่องมี 2 เทคนิค ได้แก่ การแปลด้วยกฏ และการแปลด้วยคลังประโยค การแปลด้วยกฏจะรับคำศัพท์และกฎการแปลจากนักภาษาศาสตร์คำนวณโดยตรง ซึ่งจะแตกต่างจากการแปลด้วยคลังประโยคที่จะสกัดความรู้สำหรับการแปลจากตัวอย่างการแปลในคลังประโจรคู่ขนานเองโดยอัตโนมัติ การแปลด้วยคลังประโยคจึงสามารถขายผลไปสู่คู่ภาาาหรือโดเมนอื่นได้ง่ายกว่าการแปลด้วยกฏ
การสร้างคู่ตัวอย่างการแปลทีละประโยคด้วยมือต้องใช้าค่าใช้จ่ายสูง ดังนั้นจึงมีงานวิจัยที่พัฒนา
เทคนิคการจับคู่การแปลระดับประโยคจากเอกสารขนานโดยอัตโนมัติ เทคนิคการจับคู่การแปลระดับประโยคในงานที่มีมาแล้วมักคำนวณค่าใช้จ่ายการจับคู่การแปลจากคู่คำแปลหรือความต่าจะเป็นของคู่คำแปลที่สกัดจากคลังประโยคคู่ขานตั้งต้น จากทรัพยากรทางภาษาที่มีอยู่แล้ว เช่น พจนานุกรม เวิค์ดเน็ต เป็นต้น หรือจากลักษณะเด่นร่วมกันของคู่ภาษา เช่น เครื่องหมายวรรคตอน เป็นต้น จากงานวิจัยที่มีมาแล้วพบว่าการจับคู่การแปลระดับประโยคมักได้ความถูกต้องต่ำสำหรับเอกสารที่แปลโดยมุ่งเน้นการสื่อความหมายและไม่มุ่งเน้นความครบถ้วนของเอกสารภาษาต้นทางหรือแปลโดยอรรถ ซึ่งทำให้เกิดการจับคุ๋การแปลแบบแทรกและแบบลบปริมาณมาก นอกจากนี้คู่เอกสารภาษาไทย - อังกฤษมีลักษณะเด่นร่วมกันของคู่ภาษาและทรัพยากรทางภาาาน้อยเมื่อเทียบกับคู่ภาษาอื่นจึงไม่สามารถประยุกต์ใช้วิธีการที่มีมาแล้วได้โดยตรง ดังนั้นวิทยานิพนธ์นี้จึงมีวัตถุประสงค์เพื่อศึกาาและพัฒนาเทคนิคสำหรับการจับคู่การแปลระดับประโยคภาษาไทย - อังกฤษ วิธีที่เสนอเป็นการใช้ฟังก์ชั่นค่าใช้จ่ายแบบถ่วงน้ำหนักซึ่งคำนวณจากข้อสนเทศ 3 กลุ่ม ได้แก่ รูปแบบการจับคู่ ความยาวประโยค และความน่าจะเป็นการแปล โดยตัวแปรและค่าถ่วงน้ำหนักของแต่ละฟังก์ชั่นค่าใช้จ่ายจะคำนวณจากคลังประโยคคู่ขนานตั้งต้น
งานวิจัยนี้ทำการทดลองไขว้แบบ 5 ทบเพื่อวัดประสิทธิพาพของโปรแกรมจับคู่คำแปลระดับประโยคที่พัฒนาขึ้น กับเอกสารที่แปลโดยอรรถเกี่ยวกับการท่องเที่ยวจำนวน 115 ย่อหน้าซึ่งประกอบด้วย 941 ประโยค ผลการทดลองพบว่ามีค่าความแม่นยำ ค่าความครอบคลุม และค่าคะแนนเอฟ ที่ดีที่สุดเป็น 0.728, 0.752 และ 0.740 ตามลำดับ นอกจากนี้ยังทดลองกับเอกสารที่แปลแบบทุกข้อความหรือที่เรียกว่าแปลโดยพยัญชนะในโดเมนกฏหมายจำนวน 1,632 คู่ประโยค พบว่าผลความแม่นยำ ความครอบคลุมและค่าคะแนนเอฟมีค่าเป็น 0.998

Abstract

Machine translation plays an important role these days, since translating a large quantity of test in limited time is required. There are 2 approaches in machine translation which are rule based and corpus based approach. Rule based approach is to translate text by using rules and vocabularies provided by computational linguists. In the other hand, corpus based approach is to automatically extract translation knowledge from parallel corpus. Accordingly, corpus based approach is easier to extend translation capability and apply to new language pairs or domains than rule based approach.
However, manually creating creating parallel corpus is still laborious work, so developments of automatic sentence alignment tools are required. In previous works, sentence alignment tools utilized language information from initial parallel corpus, existing resources such as dictionary, Wordnet, or common linguistic features of specific language pairs such as punctuation markers, cognate. Previous sentence alignment tools have been proved to yield high accuracy with literal translated document. But in case of free translated document, there are some modifications in translation that subsequently cause insertion and deletion alignments and make the alignment task has more complexity and yields lower accuracy. Moreover, free translated documents tend to contain more loose translation examples than literal translated document and such examples are required for training machine translation in order to generate more naturally translation. The objective of this work is to study and develop a technique for aligning Thai - English parallel sentence in free translated documents. Since Thai - English language pair shares a few common linguistic features and have specific linguistic phenomena which causes more complexity in alignment such as using unknown words, word-description translation pairs, accordingly, a new alignment technique is needed. In this work, the proposed technique uses weighted cost functions which are analyzed from 3 features consisting of alignment type, sentence length, and translation probability. All of variables and weighting values are computed from an initial parallel corpus.
In this work, a 5-fold cross validation was performed with a set of free translated documents which consists of 115 paragraphs consisting of 941 sentence pairs. The proposed technique yields 0.728 precision, 0.752 recall, and 0.740 F-score. This technique is also used to evaluate with a literal document pair which is in legal domain. The experiment result yields 0.998 in precision and recall.

คำสำคัญ (Keywords)

-

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
สุนันทา ช้างทอง (fengsntc)

แก้ไขครั้งสุดท้าย
เมื่อ July 27, 2016, 11:41 a.m. โดย สุนันทา ช้างทอง (fengsntc)

สถานะการอนุมัติ
รออนุมัติ