หลักสูตร/ปี พ.ศ. วิศวกรรมศาสตรมหาบัณฑิต สาขาวิชาวิศวกรรมคอมพิวเตอร์ ปี พ.ศ. 2555
ภาคและปีการศึกษาที่สำเร็จการศึกษา ภาคปลาย ปีการศึกษา 2555
ประเภทโครงงาน
วิทยานิพนธ์
ชื่อโครงงานภาษาไทย
การตรวจจับเว็บฟิชชิ่งโดยใช้ค่าความเหมือนผสม
ชื่อโครงงานภาษาอังกฤษ
Combined Similarity Based Web Phishing Detection
ผู้พัฒนา
51652758 ณัฐพงษ์ แสงเลิศประเสริฐชัย
อาจารย์ที่ปรึกษาหลัก
อานนท์ รุ่งสว่าง
อาจารย์ที่ปรึกษาร่วม
-
บทคัดย่อ
งานวิจัยในวิทยานิพนธ์นี้มีวัตถุประสงค์เพื่อปรับปรุงประสิทธิภาพการตรวจจับเว็บฟิชชิ่งจากยูอาร์แอลที่กำหนดมาให้ โดยเน้นเฉพาะหน้าเว็บที่มีแบบฟอร์มล็อกอินซึ่งเป็นอันตรายต่อผู้ใช้วิธีการที่นำเสนอได้เลือกใช้คุณลักษณะที่เหมาะสมจากหน้าเว็บร่วมกับการเรียนรู้ของเครื่องในการตรวจจับ โดยพิจารณาผลลัพธ์ที่ได้ผ่านค่าวัดเอฟ และอัตราความผิดพลาดเฉลี่ย
งานวิจัยนี้ได้ทดลองปรับเปลี่ยนและเพิ่มเติมคุณลักษณะหน้าเว็บใหม่เข้าไปในงานวิจัยเดิมที่มีประสิทธิภาพสูง โดยเลือกคุณลักษณะค่าความเหมือนผสม ตามแนวคิดการหาความเหมือนของเว็บต้องสงสัยกับหน้าเว็บแรกของโฮสต์หรือโดเมน เพื่อบอกว่าหน้าเว็บนั้นเหมาะที่จะอยู่บนเว็บโฮสต์หรือโดเมนนั้นจรเงหรือไม่ ซึ่งสะท้อนรายงานเกี่ยวกับเว็บฟิชชิ่งที่ว่าเว็บฟิชชิ่งส่วนใหญ่ฝังตัวอยู่บนเว็บไซต์ที่ถูกบุกรุก นอกจากนั้นยังได้ทดลองประยุกต์ใช้การรวมผลลัพธ์จากวิธีการเรียนรู้ของเครื่องมือ WEKA หลายชนิดเข้าด้วยกัน ทดลองกับชุดข้อมูลสอน 1,000 หน้าเว็บและชุดข้อมูลทดสอบ 3,000 หน้าเว็บที่แบ่งประเภทหน้าเว็บเป็นเว็บฟิชชิ่งและเว็บทั่วไปที่มีแบบฟอร์มล็อกอินจำนวนเท่ากัน
จากการทดลองพบว่าการใช้คุณลักษณะค่าความเหมือนผสม ได้ค่าวัดเอฟที่มีค่าเพิ่มขึ้นโดยเฉลี่ยร้อยละ 5.8 โดยมีอัตราความผิดพลาดเพิ่มขึ้นเพียงร้อยละ 0.4 เทียบกับคุณลักษณะหน้าเว็บเดิม และเมื่อรวมคุณลักษณะทั้งหมดเข้าด้วยกันทำให้ค่าวัดเอฟเพิ่มขึ้นร้อยละ 10.5 อัตราความผิดพลาดลดลงร้อยละ 18.7 ส่วนการรวมผลลัพธ์จากหลายการเรียนรู้ของเครื่อง สามารถเพิ่มค่าวัดเอฟได้เฉลี่ยร้อยละ 1.4 และอัตราความผิดพลาดเฉลี่ยลดลงเฉลี่ยร้อยละ 4.5 จากการใช้การเรียนรู้ของเครือ่งเพียงวิธีเดียว
Abstract
A research described in this thesis aims to boost up an efficiency of a phishing detecting for given web URLs. The research focuses on the web pages with log-in form, which are more harmful to the users. The proposed method chooses proper web page's features for the machine learning based detection. To evaluate the results, the f-measure and the error rate have been examined.
This study has tried to change and add some new web page's features to the previous outstanding web phishing detection works. One chosen feature is a combined similarity following the concept that finding a similarity of the suspect web page and its host's or domain's home page to tell how suitable that suspect page should be in that host or domain. This referred concept reflects to the report, which shows that the major phishing webs are found on the compromised web servers. Moreover, this study also applied the ensemble of machine learning methods which were implemented by the WEKA program to increase the detection efficiency. The data set used for the evaluation was separated into two groups. The train data set was composed of 1,000 web pages which are half-phishing, half-non-phishing, and the test data set was composed of 3,000 web pages in the same manner.
From the evaluation, using combined similarity features can boost machine learning's average f-measure with 5.8 percents improvement while increase the average error rate up only 0.4 percents. Using the whole features improves f-measure and decreases the error rate 10.5 and 18.7 percents respectively. Finally, the ensemble of machine learning methods can boost f-measure up 1.4 percents and decrease the error rate 4.5 percents from using just a single method.
คำสำคัญ (Keywords)
-
เว็บไซต์โครงงาน
-
วีดีโอคลิปของโครงงาน
-
ที่เก็บเวอร์ชันซอร์สโค้ด
-
ผู้นำเข้าข้อมูลครั้งแรก
สุนันทา
ช้างทอง
(fengsntc)
แก้ไขครั้งสุดท้าย
เมื่อ July 30, 2016, 1:17 p.m. โดย
สุนันทา
ช้างทอง
(fengsntc)
สถานะการอนุมัติ
รออนุมัติ