รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2557

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2556

ประเภทโครงงาน
โครงงานวิศวกรรม

ชื่อโครงงานภาษาไทย
อัลกอริทึมเพจแร็งค์อิงตามความใกล้ชิดด้านเวลา

ชื่อโครงงานภาษาอังกฤษ
Time-Proximity biased PageRank Algorithm

ผู้พัฒนา
5310503994 นายปราโมทย์ ธีรเศรษฐมานะกุล

อาจารย์ที่ปรึกษาหลัก
อานนท์ รุ่งสว่าง

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

ปัจจุบันการวิเคราะห์เว็บที่จัดเก็บมาได้เพียงชุดเดียวเริ่มไม่มีประสิทธิภาพที่เพียงพอสำหรับการจัดการกับเครื่องมือสืบค้นเพื่อให้ได้ผลลัพธ์ค้นคืนที่เหมาะสม โดยเฉพาะอย่างยิ่งในกระบวนการจัดเรียงลำดับเว็บ ซึ่งโดยลักษณะการเปลี่ยนแปลงของเว็บนั้น ทำให้อัลกอริทึมจัดเรียงลำดับที่อิงตามเส้นเชื่อมโยงแบบดั้งเดิมจำนวนมากมักให้ความสำคัญกับเว็บเพจเก่ามากจนเกินไป อีกทั้งยังไม่อาจรับรู้ถึงความสำคัญของเว็บเพจใหม่ เนื่องจากเว็บเพจเก่าย่อมมีเวลาสั่งสมจำนวนเส้นเชื่อมโยงเข้าหาหรือถูกอ้างอิงมากกว่าเว็บเพจใหม่นั่นเอง โครงงานชิ้นนี้นำเสนอวิธีการจัดเรียงลำดับเว็บเพจที่อิงตามเส้นเชื่อมโยง (link structure) ร่วมกับข้อมูลด้านเวลา (temporal information) ที่สกัดจากประวัติความเคลื่อนไหวของเว็บเพจ แบบจำลองความใกล้ชิดด้านเวลา (time-proximity model) ด้วยฟังก์ชันเคอเนล (kernel function) ต่างๆ ถูกนำเสนอเพื่อประเมินความเกี่ยวข้องกันระหว่างเว็บเพจ โดยกระบวนการทำงานจะถูกแบ่งออกเป็น 2 ส่วนย่อย ได้แก่ (1) การคำนวณคะแนนความลำเอียงด้านเวลา (temporal biased score) ของแต่ละเว็บเพจ หรือที่เรียกว่า “เวกเตอร์ความลำเอียงด้านเวลา” (temporal-biased vector) จากกระบวนถ่ายทอดย้อนกลับ (inverse propagation) และ (2) การระบุ “ทรานซิชันเมตริกซ์ความลำเอียงด้านเวลา” (temporal-biased transition matrix) ซึ่งกำหนดได้โดยตรงจากการวิเคราะห์แบบจำลองความใกล้ชิดด้านเวลา หลังจากนั้น เวกเตอร์และทรานซิชันเมตริกซ์ความลำเอียงตามเวลาทั้งสองดังกล่าวจะถูกนำไปใช้ในเป็นองค์ประกอบหลักของการคำนวณเพจแร็งค์อิงตามความใกล้ชิดด้านเวลาที่นำเสนอ จากผลการทดลองด้วยฐานข้อมูลเว็บจริงจำนวน 31 ชุด (เดือน) ที่ดาวน์โหลด (download) จากโปรเจ็คสแตนฟอร์ดเว็บเบส (The Stanford WebBase Project) แสดงให้เห็นว่าแนวคิดของงานโครงงานนี้ได้เพิ่มประสิทธิภาพการจัดเรียงลำดับผลลัพธ์ค้นคืนของเพจแร็งค์ให้ดียิ่งขึ้น เมื่อพิจารณาจากความพึงพอใจของผู้ใช้งาน

Abstract

Today, an analysis on only a single crawled snapshot of World Wide Web becomes not efficient enough for a search engine administration, especially a web ranking procedure, to provide appropriate search results. By the dynamic nature of the Web, many traditional link-based ranking algorithms, like PageRank, suffer from over granting stale pages an authority and also fail to recognize important new ones since the former have had much time to accumulate in-links (i.e., referrers) than the latter. In this engineering project, we propose a web ranking approach that consider the link structure together with temporal information extracted from historical web page activities. A time-proximity model based on several kernel functions is introduced to estimate page relatedness. Our process can be divided into two steps: (1) calculating temporal biased score of each web pages, called “temporal-biased vector”, from the inverse propagation process, and (2) determining “temporal-biased transition matrix” in which is directly obtained from the time-proximity model. Afterwards, both temporal-biased vector and transition matrix are included as the main components in our proposed PageRank computation. Experiments conducted on 31 snapshots (i.e., months) of a real-world web data downloaded from the Stanford WebBase project show that our approach improves upon PageRank in ranking of search results with respect to human users' preference.

คำสำคัญ (Keywords)

เวกเตอร์ความลำเอียงด้านเวลา
ทรานซิชันเมตริกซ์ความลำเอียงด้านเวลา
แบบจำลองความใกล้ชิดด้านเวลา
การวิเคราะห์ด้านเวลา
การคำนวณเพจแร็งค์
อัลกอริทึมจัดเรียงลำดับเว็บ
temporal-biased vector
temporal-biased transition matrix
time-proximity model
temporal analysis
PageRank computation
web ranking algorithm

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
นายปราโมทย์ ธีรเศรษฐมานะกุล (b5310503994)

แก้ไขครั้งสุดท้าย
เมื่อ March 28, 2014, 6:28 p.m. โดย นายปราโมทย์ ธีรเศรษฐมานะกุล (b5310503994)

สถานะการอนุมัติ
รออนุมัติ