รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2562

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคฤดูร้อน ปีการศึกษา 2562

ประเภทโครงงาน
วิทยานิพนธ์

ชื่อโครงงานภาษาไทย
การสกัดข้อมลู โดยใช้การสกัดชื่อเฉพาะสําหรับจัดทําคลงั ข้อมูลการท่องเที่ยว

ชื่อโครงงานภาษาอังกฤษ
nformation Extraction Based on Named Entity for Tourism Corpus

ผู้พัฒนา
5914550955 อภิสิทธิ์ ตันสกุล

อาจารย์ที่ปรึกษาหลัก
จันทนา จันทราพรชัย

อาจารย์ที่ปรึกษาร่วม
ภุชงค์ อุทโยภาศ

บทคัดย่อ

ปัจจุบันมีข้อมูลการท่องเที่ยวกระจายอยู่ทั่วไป ในการค้นหาข้อมูลมักใช้เวลานานในการค้นหา ผลลัพธ์จากเครื่องมือค้นหา,เลือกจากเมนู และดูจากรายละเอียดของที่พักแต่ละแห่ง ในบทความนี้เรา นําเสนอวิธีการที่จะดึงข้อมูลเฉพาะจากข้อความทั้งหมดที่ส่งคืนจากเครื่องมือค้นหาเพื่ออํานวย ความสะดวกผู้ใช้ โดยวิธีการ Name Entity Recognition (NER) ขั้นตอนหลักคือการสร้าง Training Data และการสร้างแบบจําลอง ปัจจัยสําคัญในการสร้าง Training Dataในขั้นตอนแรก เราจําเป็นต้อง รวบรวมข้อมูลการท่องเที่ยวและสร้างคําศัพท์ คลังข้อมูลดิบเพื่อนําไปใช์ในการเรียนรู้ในการสร้าง คําศัพท์สําหรับ NER ข้อมูลการท่องเที่ยว และขั้นตอนย่อยหลายขั้นตอนรวมถึงการแยกประโยค ความสัมพันธ์และการแยกNameEntrityเพื่อทําการระบุช่ือเฉพาะ จากการทดสอบให้คําอธิบาย โรงแรมแบบจําลองสามารถดึงชื่อเฉพาะที่ต้องการ เช่น ชื่อตําแหน่ง สถานที่สิ่งอํานวยความสะดวก เช่นเดียวกับประเภทความสัมพันธ์ ข้อมูลที่ถูกแยกออกไปนั้นสามารถจัดเก็บเป็นข้อมูลที่มีโครงสร้าง เช่น Ontology Fomat เพื่อการสืบค้นและการอนุมานในอนาคต แบบจําลองสําหรับการระบุชื่อเฉพาะ แบบอัตโนมัติ ที่ทําโดยใช้เทคโนโลยีที่เรียกว่า Machaine Learning ทําให้เกิดข้อผิดพลาดน้อยมาก เพียงแค่ 5 ถึง 25 เปอร์เซ็นต์เท่านั้น

Abstract

Tourism information is scattered around nowadays. To search for the information, it is usually time consuming to browse through the results from search engine, select and view the details of each accommodation. In this paper, we present a methodology to extract particular information from full text returned from the search engine to facilitate the users. The approach is based on name entity recognition (NER). The main steps are 1) building training data and 2) building the model. The key task is the building training data: First, the tourism data are gathered and the vocabularies are built. Several minor steps include sentence extraction, relation and name entity extraction for tagging purpose. Then, the recognition model of a given entity type can be built. From the experiments, given hotel description, the model can extract the desired entity, i.e, name, location, facility as well as relation type. The extracted data can further be stored as a structured information, e.g., in the ontology format, for future querying and inference. The model for automatic named entity identification, based on machine learning, yields the error ranging 5%-25%.

คำสำคัญ (Keywords)

information extraction,Machine Learning,Natural Language Processing,Name Entity

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
อภิสิทธิ์ ตันสกุล (g5914550955)

แก้ไขครั้งสุดท้าย
เมื่อ Sept. 6, 2019, 2:06 p.m. โดย อภิสิทธิ์ ตันสกุล (g5914550955)

สถานะการอนุมัติ
อนุมัติแล้ว โดย จันทนา จันทราพรชัย (fengcnc) เมื่อ Sept. 19, 2019, 8:38 p.m.