รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2566

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคต้น ปีการศึกษา 2565

ประเภทโครงงาน
วิทยานิพนธ์

ชื่อโครงงานภาษาไทย
วิธีจัดเรียงสายดีเอ็นเอ โดยใช้สายอ้างอิงจากสิ่งมีชีวิตอื่นที่ใกล้เคียง

ชื่อโครงงานภาษาอังกฤษ
DNA assembly method for a non-model organism using a more distantly-related reference

ผู้พัฒนา
5914500966 เบญจพล เบญจภัทรวรกุล

อาจารย์ที่ปรึกษาหลัก
พันธุ์ปิติ เปี่ยมสง่า

อาจารย์ที่ปรึกษาร่วม
พีรวัฒน์ วัฒนพงศ์

บทคัดย่อ

วิทยานิพนธ์ฉบับนี้ เสนออัลกอริทึมใหม่สำหรับการจัดเรียงสายลำดับดีเอ็นเอ โดยผสมผสานแนวคิดระหว่าง Resequencing และ De novo การประเมินคุณภาพของอัลกอริทึมนี้ทำในสองแง่มุมคือ 1) สายดีเอ็นเอท่อนสั้น ๆ ของสิ่งมีชีวิตที่มีการศึกษาแล้วจะถูกนำมาจำลองเป็นสิ่งมีชีวิตชนิดใหม่เพื่อใช้ตรวจสอบความถูกต้องของอัลกอริทึม 2) ศึกษาผลกระทบของความแตกต่างระหว่างสายลำดับของสิ่งมีชีวิตต้นแบบและสิ่งมีชีวิตเป้าหมาย โดยเพิ่ม Noise เข้าไปในสายลำดับดีเอ็นเอของสิ่งมีชีวิตชนิดหนึ่ง เพื่อจำลองให้เป็นสิ่งมีชีวิตชนิดใหม่และสายลำดับที่เพิ่ม Noise จะถูกใช้เป็นสายลำดับอ้างอิงเพื่อจัดเรียงสายดีเอ็นเอท่อนสั้น ๆ ของสิ่งมีชีวิตชนิดเดียวกัน

การทดลองใช้ BLAST ประเมินคุณภาพระหว่างสายลำดับผลลัพธ์ที่ได้จากอัลกอริทึมใหม่เทียบกับสายลำดับดีเอ็นเอของสิ่งมีชีวิตชนิดเดียวกันจากฐานข้อมูล ในการทดลองส่วนแรก ศึกษาจากสิ่งมีชีวิตสองกลุ่มได้แก่ อันดับวานรและอันดับกิ้งก่าและงู พบว่าเมื่อสายลำดับอ้างอิงกับสิ่งมีชีวิตเป้าหมายอยู่ในสกุลเดียวกัน ค่าความครอบคลุมและเปอร์เซ็นต์อัตลักษณ์ มีค่าอยู่ที่ 99.84% และ 99.89% ตามลำดับ และเมื่ออยู่ในอันดับเดียวกัน ค่าความครอบคลุมและเปอร์เซ็นต์อัตลักษณ์มีค่าอยู่ที่ 85.21% และ 94.69% ตามลำดับ ในการทดลองส่วนที่สอง แสดงให้เห็นว่าอัลกอริทึมใหม่สามารถทนต่อความแตกต่างระหว่างสายลำดับต้นฉบับและสายลำดับเป้าหมายได้ถึง 20% ก่อนที่ค่าความครอบคลุมและเปอร์เซ็นต์อัตลักษณ์จะลดต่ำกว่า 95%

Abstract

This thesis introduces a new algorithm of DNA assembly which combines the ideas of Resequencing and De novo together. The efficiency of this algorithm can be evaluated in two ways. First, fragments of known species are simulated as new species to verify the performance of the algorithm, where the references are arbitrarily selected. Second, studying the effects of distance between reference and target sequence. A known sequence with noise injection is represented as a reference for assembling its fragment sequences.

BLAST is used as a quality measurement between the resulting sequence and the ground truth. On the first method of evaluation, the experiment study two orders which are order Primate and order Squamata reveals that when reference sequences and target sequences are the same genus, query cover and percent identity are 99.84% and 99.89% respectively. Additionally, when they are in the same order, query cover and percent identity are 85.21% and 94.69% respectively. In the second method, the result reveals that the new algorithm is able to stand the differences between the reference sequences and target sequences up to 20% before the query cover and percent identity reduce to 95%.

คำสำคัญ (Keywords)

สารพันธุกรรม หรือ ดีเอ็นเอ (Deoxyribonucleic acid, DNA): กรดนิวคลิอิกที่ทำหน้าที่เก็บข้อมูลทางพันธุกรรมของสิ่งมีชีวิต
ยีน (Gene): คือหน่วยที่ควบคุมลักษณะทางพันธุกรรมของสิ่งมีชีวิตที่ส่งต่อมาจากบรรพบุรุษ
โดยยีนเป็นส่วนหนึ่งของสารพันธุกรรม
จีโนม (Genome): ข้อมูลสารพันธุกรรม (DNA) ทั้งหมดของสิ่งมีชีวิตหนึ่ง ๆ ที่บรรจุอยู่ในนิวเคลียส เปรียบเสมือน “พิมพ์เขียว” ของสิ่งมีชีวิต
การหาลำดับการเรียงตัวของดีเอ็นเอ (DNA sequencing): กระบวนการที่มีจุดประสงค์ในการวิเคราะห์ดีเอ็นเอเพื่อให้สามารถรู้ลำดับของเบส (A, C, G และ T) ที่อยู่ในสายดีเอ็นเอ
สายดีเอ็นเอท่อนสั้น ๆ (Fragment or Read): สายดีเอ็นเอที่โดยปรกติจะได้จากกระบวนการ DNA sequencing
การจัดเรียงสายลำดับดีเอ็นเอ (DNA Assembly): คือกระบวนการนำชิ้นส่วนดีเอ็นเอท่อนสั้น ๆ มาจัดเรียงและเชื่อมต่อเข้าด้วยกันให้เป็นสายดีเอ็นเอที่มีขนาดยาวขึ้น โดยจะพิจารณาจากความเกี่ยวเนื่องกันระหว่างสายดีเอ็นเอท่อนสั้น ๆ ที่มีส่วนเหมือนกันจะสามารถเชื่อมเข้าด้วยกันได้
ท่อนดีเอ็นเอ (Contig): สายดีเอ็นเอที่เกิดจากการรวมกันของ Fragments เกิดเป็นสายดีเอ็นเอที่มีขนาดยาวขึ้น
จำนวนซ้ำของข้อมูล (Coverage หรือ Depth): จำนวนเท่าของผลรวมความยาว Fragments ทั้งหมด เทียบกับความยาวสายดีเอ็นเอของสิ่งมีชีวิตเป้าหมาย
สายลำดับอ้างอิง (Reference sequence): สายดีเอ็นเอที่สมบูรณ์ของสิ่งมีชีวิต ที่นำมาใช้เป็นต้นแบบในการจัดเรียง
De novo assembly: วิธีการจัดเรียงสายลำดับดีเอ็นเอประเภทหนึ่ง ที่จัดเรียง Fragments เข้าด้วยกันโดยการนำสายดีเอ็นเอท่อนสั้น ๆ มาหาความสัมพันธ์และเชื่อมต่อกันเป็นสายยาวขึ้น โดยไม่ต้องใช้ สายลำดับอ้างอิง
ไมโทคอนเดรียล ดีเอ็นเอ (Mitochondrial DNA, mtDNA): สารพันธุกรรมที่สามารถพบได้ในเซลล์ของไมโทคอนเดรีย
เปอร์เซ็นต์อัตลักษณ์ (Percent Identity): ค่าสัดส่วนที่อธิบายความเหมือนระหว่างสองสายดีเอ็นเอ (มีกี่เบสที่เหมือนกันในแต่ละสายดีเอ็นเอ) ยิ่งเปอร์เซ็นต์อัตลักษณ์สูงขึ้น สิ่งมีชีวิตทั้งสองจะมีความคล้ายคลึงกันเพิ่มขึ้นอย่างมีนัยสำคัญ
ความครอบคลุม (Query Cover): ค่าที่ใช้อธิบายปริมาณเบสภายในสายลำดับที่พิจารณา ที่ถูกครอบคลุมด้วยสายลำดับเป้าหมาย หากสายลำดับเป้าหมายครอบคลุมสายลำดับที่พิจารณาทั้งหมด จะได้ค่าความครอบคลุม 100 เปอร์เซ็นต์
Resequencing: วิธีการจัดเรียงสายลำดับดีเอ็นเอประเภทหนึ่ง ที่นำสายดีเอ็นเอที่มีอยู่แล้วเป็นต้นแบบช่วยในการจัดเรียง
สายลำดับผลลัพธ์ (Result sequence): สายดีเอ็นเอที่ได้จากกระบวนการใหม่ที่สร้างขึ้น
สายลำดับเป้าหมาย (Target sequence): สายดีเอ็นเอของสิ่งมีชีวิตที่ต้องการจะจัดเรียง
สายลำดับต้นฉบับ (Original sequence): สายดีเอ็นเอที่สมบูรณ์ของสิ่งมีชีวิตจากฐานข้อมูล

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
เบญจพล เบญจภัทรวรกุล (g5914500966)

แก้ไขครั้งสุดท้าย
เมื่อ Aug. 24, 2023, 4:06 p.m. โดย เบญจพล เบญจภัทรวรกุล (g5914500966)

สถานะการอนุมัติ
อนุมัติแล้ว โดย พันธุ์ปิติ เปี่ยมสง่า (pp) เมื่อ Sept. 14, 2023, 10:52 p.m.