Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 1


LỜI CẢM ƠN


Để hoàn thành luận văn tốt nghiệp này, em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo Ths. Nguyễn Văn Trường – Giảng viên Tin học, khoa Toán, Trường Đại học Sư Phạm – Đại học Thái Nguyên, đã định hướng ý tưởng, tận tình giúp đỡ, chỉ bảo em trong suốt quá trình thực hiện luận văn.

Em xin chân thành cảm ơn Ban giám hiệu nhà trường, Ban chủ nhiệm khoa Toán cùng toàn thể các thầy, cô giáo trong khoa đã tận tình hướng dẫn, giúp đỡ em thực hiện luận văn.

Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân đã động viên giúp đỡ em trong suốt quá trình làm luận văn.

Trong quá trình tiến hành làm luận văn do chưa có nhiều kinh nghiệm nên không tránh khỏi những thiếu sót và hạn chế. Vì vậy em rất mong nhận được sự góp ý của các thầy cô và các bạn sinh viên để luận văn được hoàn thiện hơn.

Em xin chân thành cảm ơn!

Thái Nguyên, tháng 04 năm 2015

Sinh viên

Có thể bạn quan tâm!

Xem toàn bộ 69 trang tài liệu này.


Lương Văn Lâm

Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 1



Viết tắt, ký hiệu

DANH MỤC TỪ VIẾT TẮT, KÝ HIỆU


Viết đầy đủ, ý nghĩa

HMD Hệ miễn dịch.

Negative Selection Algorithm ­ Thuật toán chọn lọc tiêu

NSA

cực (âm tính)

SMTP Simple Mail Transfer Protocol.

WEKA Waikato Environment for Knowledge Analysis.

HTML HyperText Markup Language.

IBM International Business Machines.

TP Số lượng email spam kết luận đúng.

TN Số lượng email thường kết luận đúng.

FP Số lượng email thường kết luận sai thành spam.

FN Số lượng email spam kết luận sai thành thường.

Acc Độ chính xác tổng thể.

DR Tỉ lệ phát hiện.

FPR Tỉ lệ dương tính giả.

DANH MỤC HÌNH VẼ


DANH MỤC CÁC BẢNG


MỤC LỤC

Trang bìa phụ 1

Lời cảm

ơn… 2

Thư

điện tử

MỞ ĐẦU

(email) đã và đang là một trong những phương tiện, công cụ

gửi

nhận thông tin được sử dụng rộng rãi nhất trên thế giới. Sự phát triển của thư điện tử gắn liền với sự phát triển của ngành khoa học công nghệ thông tin.

Thư rác (spam) là những thư điện tử được gửi một cách tự động tới tài khoản (hộp thư) của người dùng với những nội dung không mong đợi, không muốn nhận, không phù hợp hoặc nội dung thư không liên quan tới người nhận. Sự xuất hiện của thư rác gây ra phiền phức, mất thời gian cho người sử dụng bên cạnh đó nó cũng làm cho đường truyền Internet trở nên chậm hơn do số lượng thư rác gửi đi trong một thời điểm

là rất nhiều, thư rác cũng là một trong những công cụ nhiều hậu quả khó lường về nhiều mặt.

phát tán virus máy tính gây ra

Để phòng ngừa và ngăn chặn thư rác, nhiều phương pháp đã được sử dụng tạo ra

nhiều phần mềm lọc thư

rác, một trong những phương pháp mới

đã và đang được

nghiên cứu phát triển là ứng dụng HMD nhân tạo (Artificial immune system ­ AIS) – là phương pháp dựa trên nguyên lý, chức năng, mô hình hoạt động của HMD sinh học ở người, với kĩ thuật “học máy” mang lại hiệu quả tương đối cao.

Với kĩ thuật này các thư điện tử thông thường hoặc thư rác sẽ được “học” hay “huấn luyện” tạo thành cơ sở dữ liệu để phát hiện các thư rác. Vấn đề đặt ra là cần cải thiện hiệu quả của quá trình học máy, cũng như quá trình nhận dạng và loại bỏ thư rác.

Vì vậy, tôi quyết định lựa chọn nội dung nghiên cứu trong khóa luận của mình là: “Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác”.

I. Mục tiêu nghiên cứu

Bước đầu tìm hiểu hệ miễn dịch nhân tạo và áp dụng nó cho bài toán lọc thư rác.

II. Nhiệm vụ nghiên cứu

­ Nghiên cứu lịch sử phát triển của thư điện tử, những lợi ích và mặt hạn chế mà thư điện tử mang lại.

­ Nghiên cứu về thư rác: quá trình phát triển, cấu trúc, tác hại của chúng… Tìm hiểu nội dung các phương pháp ngăn chặn thư rác, ưu – nhược điểm của các phương pháp.

­ Tìm hiểu nội dung hệ miễn dịch nhân tạo, một số thuật toán trong hệ miễn dịch nhân tạo.

­ Xây dựng chương trình áp dụng một thuật toán của hệ miễn dịch nhân tạo cho lọc thư rác.

III. Phương pháp nghiên cứu

­ Nghiên cứu tài liệu: sách, luận văn, một số đề tài nghiên cứu cùng lĩnh vực, những bài báo, diễn đàn chuyên về thư điện tử và hệ miễn dịch nhân tạo.

­ Tham khảo ý kiến thầy giáo hướng dẫn, các bạn sinh viên cùng chuyên ngành.

­ Thử nghiệm cài đặt chương trình và so sánh hiệu quả của chương trình với một số phương pháp khác (trên WEKA) về khả năng phát hiện đúng và tỉ lệ lỗi.

IV. Cấu trúc của đề tài

Ngoài phần mở đầu và kết luận, đề tài có 03 chương:

­ Chương 1. Tìm hiểu tổng quan về thư điện tử và thư rác.

­ Chương 2. Tìm hiểu tổng quan nội dung hệ miễn dịch sinh học và hệ miễn dịch nhân tạo.

­ Chương 3. Xây dựng chương trình lọc thư rác áp dụng hệ miễn dịch nhân tạo.


CHƯƠNG 1

TỔNG QUAN VỀ THƯ ĐIỆN TỬ VÀ THƯ RÁC


Chương này trình bày tổng quan về lịch sử phát triển, khái niệm, lợi ích của thư điện tử, cấu trúc chung và các giao thức gửi – nhận thư điện tử.


1.1. Tổng quan về thư điện tử


1.1.1. Lịch sử phát triển

Ngày nay thư điện tử (email) là một trong những khái niệm quen thuộc và gần như không thể thiếu đối với hầu hết người sử dụng Internet, hàng tỉ tài khoản thư điện tử đang được sử dụng cho thấy thư điện tử là một công cụ gửi, nhận và trao đổi thông tin hàng đầu thế giới hiện nay.

Lịch sử phát triển của thư điện tử gắn với các cột mốc sau:


 Thời tiền thư điện tử

­ Năm 1961: Tom Van Vleck (kĩ sư phần mềm máy tính của Mĩ) đã phát triển hệ thống giao dịch tin nhắn nhiều người dùng trên một máy tính.

­ Năm 1965: Lần đầu tiên thư Massachusetts ­ Hoa Kì.

điện tử

được ra mắt tại viện Công nghệ

­ Năm 1971: Ray Tomlinson (lập trình viên người Mĩ) đã phát triển hệ thống giao

dịch tin nhắn nhiều người trên nhiều máy tính và gửi bức thư

điện tử

đầu tiên trên

mạng ARPANET (Advanced Research Projects Agency Network), bức thư điện tử đó là một bài kiểm tra e­mail.

­ Năm 1977: Định dạng chuẩn (RFC 733) được Dave Crocker đề biến phương thức giao tiếp bằng thư điện tử qua mạng Internet.

 Thư điện tử ra đời

xuất để

phổ

­ Năm 1978: VA Shiva Ayyadurai đã tạo ra một hệ thống điện tử để gửi thư giữa các phòng trong nội bộ trường Đại học Y và Nha khoa New Jersey.

­ Năm 1979: Các thành phần: To, From, Cc, Bcc, Subject, Inbox, Outbox,.. được chuyển thành một hệ thống thư điện tử.

­ Năm 1980: Hệ thống thư điện tử trên được ứng dụng thực tế trong trường Đại học Y và Nha khoa New Jersey.

­ Ngày 30/08/1982: Thuật ngữ “email” và hệ thống thư quyền chính thức.

điện tử

được trao bản

­ Năm 1982: Giao thức truyền tải thư điện tử SMTP ra đời. SMTP là giao thức truyền tải thư điện tử qua mạng, SMTP cho phép chuyển thông điệp thư điện tử từ máy chủ thư điện tử (mail server) của người gửi đến máy chủ thư điện tử của người nhận.

­ Năm 1985: Hệ thống phát triển hình thức email offline cho phép người nhận lưu trữ thư trên máy tính.

­ Năm 1988: Microsoft Mail là hòm thư điện tử thương mại đầu tiên được phát triển dùng cho giao thức mạng MAC (Media Access Control).

­ Năm 1989: IBM ra mắt Lotus 1.0 – mô hình email server đầu tiên.


 Những năm 1990

­ Những năm đầu 1990 vấn nạn thư rác bắt đầu hoành hành.

­ Năm 1992: Microsoft Outlook phiên bản dành cho hệ điều hành MS­DOS ra đời.

­ Năm 1993: America Online và Delphi kết nối hệ thống email độc quyền của họ vào Internet. Cùng lúc đó hãng IBM liên doanh với BellSouth sản xuất dòng điện thoại thông minh đầu tiên Simon Personal Communicator có tính năng sử dụng email.

­ Năm 1996: Sabeer Bhatia và Jack Smith khởi động “HotMail” ­ website cung cấp dịch vụ thư điện tử miễn phí đầu tiên trên thế giới và HotMail nhanh chóng trở thành dịch vụ thư điện tử được sử dụng nhiều nhất thế giới.

­ Năm 1997: Yahoo! cho ra đời Yahoo Mail tạo ra sự cạnh tranh với Hotmail.

­ Năm 1999: Blackberry cho phép truy cập dịch vụ thư điện tử qua điện thoại di động. Khả năng gửi thư qua điện thoại làm cho việc sử dụng thư điện tử trở nên tiện lợi và nhanh chóng hơn bao giờ hết.

­ Cuối những năm 1990, thư điện tử sử dụng ngôn ngữ HTML ra đời cho phép định dạng văn bản phong phú hơn so với văn bản thuần túy.

 Những năm đầu thế kỉ 21

­ Năm 2000: Microsoft phát hành ứng dụng email client Microsoft Entourage dành cho hệ điều hành Mac OS.

­ Năm 2003: Microsoft Outlook 2003 phát triển bộ lọc thư rác và thư lừa đảo.

­ Năm 2004: Ủy ban Thương mại Liên bang Mĩ ban hành đạo luật chống thư rác.

­ Năm 2006: Microsoft Outlook 2007 ra đời hỗ trợ việc duyệt tin qua RSS và nhận tin nhắn. Cùng thời gian này mạng xã hội Facebook bắt đầu đi vào hoạt động trên quy mô toàn cầu, tạo ra sự liên kết giữa tài khoản Facebook với tài khoản thư điện tử.

­ Tháng 4/2007: Gmail đi vào hoạt động sau 4 năm chạy bản thử nghiệm.

­ Năm 2010:

+ Microsoft Outlook 2010 ra đời tích hợp Outlook Social Connector (hỗ trợ nhận gửi thư với các mạng xã hội) bỏ qua hội thoại và dọn dẹp hội thoại.

+ Outlook Mobile dành cho Windows Phone 7 và Outlook dành cho Mac 2011 ra đời.

+ Mạng xã hội Facebook công khai kế hoạch kết hợp ứng dụng Microsoft nền web vào hệ thống tin nhắn mới.

­ Năm 2011: Hệ thống quy ước AP Stylebook của Hoa kì chính thức sử dụng chữ “email” trên các phương tiện truyền thông thay cho “e­mail”.

Trải qua các giai đoạn phát triển, hiện nay thư điện tử đang được cải tiến theo hướng thuận tiện, thân thiện hơn với người dùng thể hiện qua việc cải tiến giao diện người dùng cùng với đó là các chức năng bảo vệ thư điện tử ngày càng hiệu quả hơn.

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 05/05/2022