รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
ปรัชญาดุษฎีบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2563

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2562

ประเภทโครงงาน
วิทยานิพนธ์

ชื่อโครงงานภาษาไทย
การจำแนกประเภทข้อมูลโปรตีนด้วยกฎความสัมพันธ์แบบหลายคลาสที่มีลำดับชั้น

ชื่อโครงงานภาษาอังกฤษ
PROTEIN DATA CLASSIFICATION USING HIERARCHICAL MULTI-LABEL ASSOCIATIVE CLASSIFICATION

ผู้พัฒนา
5817550105 สาวิณี แสงสุริยันต์

อาจารย์ที่ปรึกษาหลัก
กฤษณะ ไวยมัย

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

การจําแนกประเภทข้อมูลแบบหลายคลาสที่มีดับชั้นเป็นปัญหาการจําแนกประเภทที่ซับซ้อน เนื่องจากคลาสที่ทำนายมีหลายคำตอบ นอกจากนี้คลาสเหล่านั้นยังมีความสัมพันธ์กันแบบเป็นลำดับชั้นอีกด้วย การทำนายฟังก์ชันของโปรตีนถูกมองเป็นปัญหาการจําแนกประเภทข้อมูลแบบหลายคลาสที่มีลำดับชั้นที่ท้าทาย เนื่องจากโปรตีนหนึ่งตัวสามารถมีได้หลายฟังก์ชั่น อีกทั้งฟังก์ชันกลุ่มนั้นยังมีโครงสร้างเป็นลำดับชั้น ซึ่งนอกจากความแม่นยำแล้วต้องสามารถอธิบายสาเหตุการเกิดฟังก์ชันได้

วัตถุประสงค์ของวิทยานิพนธ์ฉบับนี้จําแนกฟังก์ชันการทํางานของโปรตีนแบบอัตโนมัติที่นอกจากมุ่งเน้นเรื่องความถูกต้องในการทํานายยังต้องมีความสามารถในการอธิบายเหตผลของการทํานายฟังก์ชันได้อีกด้วยงานวิจัยนี้จึงนำเทคนิคกฎความสัมพันธ์มาใช้จำแนกฟังก์ชันการทำงานของโปรตีนแบบอัตโนมัติที่ใช้กฎความสัมพันธ์มาสร้างแบบจำลองเพื่อใช้ในการอธิบายเหตุผลของการทำนาย นอกจากนี้ยังมีการใช้องค์ความรู้จากยีนภววิทยาทั้งสามโดเมนอภิปรัชญายีนซึ่งประกอบไปด้วยกระบวนการทางชีวภาพ ส่วนประกอบของเซลล์ และฟังก์ชั่นระดับโมเลกุลเป็นความรู้พื้นฐานผนวกเข้าไปทุกขั้นตอนตั้งแต่การสร้างกฎความสัมพันธ์ การคัดเลือกกฎความสัมพันธ์ การสร้างแบบจำลอง และการทำนายข้อมูลโปรตีน ซึ่งไม่เพียงทำให้แบบจำลองที่ได้มีความแม่นยำสูง การพัฒนาเทคนิค eHMAC (extended Hierarchical Multi-label Associative Classification) ทำให้ผลการทดลองมีความถูกต้องมากกว่าการจำแนกประเภทโปรตีนโดยทั่วไปอย่างมีนัยสำคัญทางสถิติ แต่ยังรวมถึงความสามารถในการอธิบายรูปแบบการทำนายฟังก์ชันในแง่ของความสัมพันธ์ระหว่างกลุ่มของโมทีฟและกลุ่มของคลาสจากยีนภววิทยาอีกด้วย

Abstract

Hierarchical Multi-label Classification (HMC) is a complex classification problem in which instances are organized in a hierarchy and each of them can belong to several labels and/or classes. Protein function prediction is a challenging classification problem because not only high accuracy must be obtained, high explanation ability is also required. Once function(s) of a given protein is predicted, explanation why the protein sequence performs such function must also be given.

In this thesis, protein function prediction is considered as a complex HMC task. Each protein can be classified into several functions that are organized in a hierarchical structure where each function has a parent-child relationship with one another
Main objective of the thesis is to improve both accuracy and explanation abilities of HMC in predicting functions of new protein sequences. Association rules are applied to construct a hierarchical multi-label associative classifier. Three domains of gene ontology which are molecular function, biological process, and cellular component are used as background knowledge. To achieve high-quality associative classification rules to predicted protein functions, the gene ontology background knowledge is integrated it into different steps of rule generation, rule selection, classifier construction and prediction steps. The experimental results showed that our eHMAC (extended Hierarchical Multi-label Associative Classification) method provides significantly better performance compared to other protein function prediction methods of the same category. Not only the prediction accuracy was greatly improved, but also the explanation abilities of the function prediction.

คำสำคัญ (Keywords)

protein function prediction, associative classification, hierarchical classification,
multi-label classification, negative rules

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
สาวิณี แสงสุริยันต์ (g5817550105)

แก้ไขครั้งสุดท้าย
เมื่อ Aug. 26, 2020, 3:52 p.m. โดย สาวิณี แสงสุริยันต์ (g5817550105)

สถานะการอนุมัติ
รออนุมัติ