รายละเอียดโครงงาน

หลักสูตร/ปี พ.ศ.
วิศวกรรมศาสตรบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2557

ภาคและปีการศึกษาที่สำเร็จการศึกษา
ภาคปลาย ปีการศึกษา 2556

ประเภทโครงงาน
โครงงานวิศวกรรม

ชื่อโครงงานภาษาไทย
การตรวจจับเว็บสแปมด้วยลิงค์เบสแอนท์โคโลนีออพติไมเซชันผ่านการเรียนรู้เส้นทางที่ปรับตัวได้

ชื่อโครงงานภาษาอังกฤษ
Web Spam Detection using Link-based Ant Colony Optimization through Adaptive Learning Path

ผู้พัฒนา
5310504958 นายจิรายุส เจียรภักดี

อาจารย์ที่ปรึกษาหลัก
อานนท์ รุ่งสว่าง

อาจารย์ที่ปรึกษาร่วม
-

บทคัดย่อ

ในปัจจุบัน ปัญหาหนึ่งที่สำคัญของเสิร์ชเอ็นจินคือเว็บสแปม ซึ่งไม่เพียงแต่จะส่งผลต่อการลดคุณภาพของผลการค้นคืนเท่านั้น เว็บสแปมยังเป็นเหตุให้เกิดการใช้ทรัพยากรในการคำนวณและการจัดเก็บของเสิร์ชเอ็นจินไปกับข้อมูลที่ไม่มีประโยชน์อีกด้วย โครงงานวิศวกรรมคอมพิวเตอร์นี้ได้เสนอวิธีการทางเครื่องจักรเรียนรู้สำหรับการตรวจจับเว็บสแปมด้วยอัลกอริทึมแอนท์โคโลนีออพติไมเซชัน จากข้อมูลโฮสต์และข้อมูลไฮเปอร์ลิงค์ของโฮสต์เราได้นำมาแสดงเป็นกราฟแบบมีทิศทาง เรียกว่า “โฮสต์กราฟ” แล้วให้มดเทียมเรียนรู้ผ่านการเดินไปบนโฮสต์กราฟนั้นโดยมดเทียมแต่ละตัวจะเริ่มต้นจากโฮสต์ปกติแล้วตัดสินใจเลือกเดินแบบสุ่มไปยังโฮสต์ต่อไปด้วยค่าความน่าจะเป็นที่ได้จากฟังก์ชันฮิวริสติกและฟีโรโมน อาศัยหลักการการแยกออกโดยประมาณของกลุ่มข้อมูลชุดที่ดีเราได้กำหนดให้มดมีการเรียนรู้ที่ปรับตัวได้ กล่าวคือมดจะสามารถเลือกเดินด้วยเส้นทางที่ยาวขึ้นหากได้ค้นพบโฮสต์ปกติในระหว่างการเดินทาง และในทางกลับกัน มดจะเลือกเดินด้วยเส้นทางที่สั้นลงในกรณีที่มีการค้นพบโฮสต์สแปม เมื่อสิ้นสุดการเดินของมดแต่ละตัวแล้วเส้นทางที่ได้แต่ละเส้นทางจะถูกนำไปสร้างเป็นกฎเพื่อใช้คัดแยกโฮสต์ปกติ โดยที่เงื่อนไขของกฎพิจารณาจากคุณลักษณะร่วมของโฮสต์ปกติที่ค้นพบในเส้นทาง จากการทดลองบนชุดข้อมูล WEBSPAM-UK2007 พบว่าอัลกอริทึมที่นำเสนอนี้มีประสิทธิภาพในการคัดแยกโฮสต์สแปมและโฮสต์ปกติได้ดีกว่าวิธีการจำแนกหมวดหมู่ตามกฎของอัลกอริทึมต่างๆ ที่นำมาเปรียบเทียบ

Abstract

Web spamming is nowadays a serious problem for search engines. It not only degrades the quality of search results by intentional boosting undesirable web pages to users, but also causes the search engine to waste a significant amount of computational and storage resources in manipulating useless information. In this engineering project, we present a machine learning approach for spam detection by adopting the ant colony optimization algorithm. We first construct a directed graph corresponding to web hosts and their aggregated hyperlinks, called “host graph”. Then, we train the classification model by employing ants to walk along paths in the graph. Each ant will start walking from an individual non-spam host and afterwards decides to follow a link to a next host with a probability value based on both of heuristic function and pheromone trail. Relying on the principle of approximate isolation of a good set, we also propose an adaptive learning. That is, we reward an ant that can discover a good path, i.e., a sequence of non-spam hosts, by charging energy for its longer walking. In contrast, if an ant instead discovers any spam, it will be penalized and decreased its walking step. Finally, the non-spam classification rules are constructed by choosing common overlapping characteristic features of all non-spam hosts along the discovered paths. Experiments on WEBSPAM-UK2007 dataset show that our approach contributes to more accurately classify spam and non-spam hosts than several rule-based classification baselines.

คำสำคัญ (Keywords)

web spam detection
adaptive learning paths
reward distance
penalty distance
ant colony optimization

เว็บไซต์โครงงาน
-

วีดีโอคลิปของโครงงาน
-

ที่เก็บเวอร์ชันซอร์สโค้ด

-


สถานะการนำเข้าข้อมูล

ผู้นำเข้าข้อมูลครั้งแรก
นายจิรายุส เจียรภักดี (b5310504958)

แก้ไขครั้งสุดท้าย
เมื่อ March 28, 2014, 10:25 p.m. โดย นายจิรายุส เจียรภักดี (b5310504958)

สถานะการอนุมัติ
รออนุมัติ