Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 2

1.1.2. Thư điện tử là gì

Thư điện tử (email hay electronic mail) là một hệ thống chuyển nhận thư qua các mạng máy tính.

Thư điện tử là một phương tiện thông tin rất nhanh. Một mẫu thông tin có thể được gửi đi ở dạng mã hóa hay dạng thông thường và được chuyển qua các mạng máy tính đặc biệt là mạng Internet. Nó có thể chuyển thông tin từ một máy nguồn tới một hay nhiều máy nhận trong cùng một thời điểm.

Ngày nay, thư điện tử không chỉ gửi thông tin dạng chữ mà nó còn có thể truyền các dạng thông tin khác như: hình ảnh, âm thanh, phim,… đặc biệt là các phần mềm thư điện tử kiểu mới còn có thể hiển thị các thư điện tử dạng sống động tương thích với kiểu tệp HTML.

Phần mềm thư

điện tử

(email software) là loại phần mềm nhằm hỗ

trợ

cho

người dùng việc chuyển và nhận các mẫu thông tin. Thông tin có thể đưa vào phần

Có thể bạn quan tâm!

Xem toàn bộ 69 trang tài liệu này.

mềm thư điện tử bằng cách thông dụng nhất là gõ chữ từ bàn phím, hoặc dùng máy quét hình ảnh scanner, máy ghi hình, webcam,… Phần mềm thư điện tử giúp việc soạn thảo, gửi, nhận, đọc, in, xóa hay lưu trữ các thư điện tử.

Có hai loại phần mềm thư điện tử:

Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 2


 Các phần mềm thư điện tử được cài đặt trên từng máy tính (email client), hay phần mềm thư điện tử cho máy khách.

Ví dụ: Microsoft Outlook, Microsoft Outlook Express, Netscape Communicator,….


 Các phần mềm thư điện tử không cần cài đặt trên máy tính: Phần mềm loại này được cung cấp bởi các máy chủ (web server) trên mạng Internet. Để sử dụng được các phần mềm loại này thường các máy tính nối vào phải có một máy truy cập tương thích với sự cung ứng của Webmail.

Ví dụ: Mail.Yahoo.com hay Hotmail.com,…

Các dịch vụ thư điện tử có thể được cung ứng miễn phí hoặc có phí tùy theo nhu cầu và mục đích của người dùng. Ngày nay, thư điện tử thường được cung cấp kèm với

các phương tiện Internet khi người tiêu dùng ký hợp đồng với các dịch vụ Internet một cách miễn phí.

1.1.3. Lợi ích của thư điện tử

Tốc độ gửi/nhận nhanh: Thư điện tử được chuyển qua đường Internet dưới dạng các tín hiệu điện nên tốc độ di chuyển gần như là tức thời. Với các bức thư tín bình thường chúng ta có thể mất một vài ngày để thư có thể tới được địa chỉ cần thiết nhưng với thư điện tử người nhận dường như không cần chờ đợi.

Chi phí không đáng kể: Với các bức thư tín bình thường, ta phải tốn một khoản chi phí khá lớn khi gửi các bức thư của mình. Còn với thư điện tử, ta chỉ tốn một khoản phí rất nhỏ để kết nối Internet cùng với chi phí cho dịch vụ thư điện tử. Hiện nay, dịch vụ thư điện tử hầu hết được cung cấp miễn phí.

Không có khoảng cách: Với thư điện tử, người nhận cho dù ở xa thì việc gửi và nhận thư đều được thực hiện gần như ngay lập tức. Chi phí cho các bức thư đó cũng đều như nhau và không đáng kể.

1.1.4. Cấu trúc chung và các giao thức gửi, nhận thư điện tử


1.1.4.1. Cấu trúc hệ thống thư điện tử


SMTP (via internet)


System call

SMTP (Direction connection)


SMTP

System call Đọc, viết Viết

POP/IMAP

System call


Hình 1.. Cấu trúc hệ thống thư điện tử

Để thực hiện việc trao đổi thư với người dùng, giữa máy chủ và các máy khách thống nhất sử dụng chung một bộ giao thức gửi và nhận thư, trong đó quy định cụ thể về cổng làm việc, quy trình thao tác, các câu lệnh trao đổi, cấu trúc của thư điện tử. Mô hình trên mô tả một hệ thống thư điện tử với giao thức gửi thư SMTP và giao thức nhận thư POP hoặc IMAP.

Hệ thống bao gồm bốn phần tử chính:

­ MUA (Mail User Agent): là chương trình phần mềm của máy client được người dùng sử dụng để gửi, nhận, soạn thảo, xử lý thư điện tử.

­ MTA (Mail Transfer Agent): là một chương trình thư của máy chủ, cho phép truyền tải thư điện tử từ máy này sang máy khác.

­ MDA (Mail Delivery Agent): là chương trình MTA sử dụng để chuyển thư vào hộp thư của người dùng hoặc để truyền tải thư tới một MTA khác. Mỗi MTA sử dụng một hoặc nhiều MDA, mỗi MDA được sử dụng cho một loại yêu cầu phân phát thư riêng.

­ MRA (Mail Retrieval Agent): là một chương trình hoặc một dịch vụ có chức năng lấy thư điện tử về từ một hộp thư trên một máy chủ ở xa và đưa chúng tới một MUA. Các MRA truy vấn các thư và các phần header từ những hộp thư ở xa và phân phát chúng tới các MUA trên máy của người dùng.

1.1.4.2. Cấu trúc của thư điện tử

Một thư

điện tử

thường có hai phần chính : phần đầu (Header) và phần thân

(Body) là văn bản chứa nội dung của thư. Khi gửi đi, toàn bộ thư điện tử được gói trong

nội dung (content). Ngoài ra, hệ thống thư còn tạo thêm một phần nữa gọi là bì thư (envelope) chứa các thông tin cần thiết cho việc chuyển thư đến nơi nhận.

1.1.4.3. Cấu trúc của một địa chỉ thư điện tử

Một địa chỉ thư điện tử gồm ba phần chính dạng:

Tên_định_dạng_thêm Tên_truy_cập@Địa_chỉ_máy_chủ_thư

­ Thành phần: Tên_định_dng_thêm: Đây là một dạng tên để người đọc có thể

dễ dàng nhận ra người gửi hay nơi gửi. Tuy nhiên, trong các thư

điện tử

người ta

thường không cần tên định dạng thêm và lá thư điện tử vẫn được gửi đi đúng nơi.

Ví dụ: Su_pham_tin spt@gmail.com có thể viết địa chỉ thư là: spt@gmail.com lúc này phần mềm thư điện tử vẫn hoạt động chính xác và gửi đến đúng địa chỉ.

­ Phần Tên_truy_cp: là phần xác định hộp thư. Do người đăng ký hộp thư đặt và cần phải nhớ rõ phần tên này. Phần này còn gọi là: phần tên địa phương.

­ Phần Địa_ch_máy_ch_thư: là địa chỉ máy chủ của nhà cung cấp dịch vụ thư điện tử. Giữa Tên_truy_cp và Địa_ch_máy_ch_thư ngăn cách nhau bởi kí tự @ .

Ví dụ: khoatoan11@gmail.com; suphamtn@yahoo.com; thpttn@hotmail.com;…

1.1.4.4. Một số giao thức sử dụng để gửi và nhận thư điện tử

Hệ thống thư

điện tử

được xây dựng dựa trên một số

giao thức: SMT, Post

Office Protocol (POP), Multipurpose Internet Mail Extensions (MIME) và Interactive Mail Access Protocol (IMAP) được định dạng trong RFC 1176 là một giao thức quan trọng để thay thế POP, nó cung cấp nhiều cơ chế tìm kiếm văn bản, phân tích tin nhắn từ xa mà ta không nhìn thấy trong POP.

 Một số giao thức gửi thư điện tử

­ Giao thức SMTP: Là giao thức truyền tin tin cậy, chịu trách nhiệm phân phát thư điện tử từ hệ thống mạng này sang hệ thống mạng khác, chuyển thư trong hệ thống mạng nội bộ. Hầu hết các hệ thống thư điện tử gửi thư qua Internet đều dùng giao thức này. Các mẫu thông tin có thể được lấy ra bởi một email client. Những email client này phải dùng giao thức POP hay giao thức IMAP.

­ Giao thức X.400: là giao thức được ITU­T và ISO định nghĩa nó đã được ứng dụng rộng rãi ở Châu Âu, Canada. X.400 cung cấp tính năng điều khiển và phân phối thư điện tử, sử dụng định nghĩa dạng nhị phân, do đó không cần mã hóa nội dung khi phân phát thư trên mạng Internet.

 Một số giao thức nhận thư điện tử

Có hai giao thức chính thường được dùng bởi các ứng dụng máy thư khách để

truy cập thư từ các máy chủ: Post Office Protocol (POP) và Internet Message Access

Protocol (IMAP).

­ Giao thức POP: là giao thức được thiết kế để hỗ trợ tiến trình thư “offline”, trong tiến trình này thư điện tử được phân phát tới một máy chủ. Một máy tính cá nhân người dùng gọi định kỳ một chương trình thư khách được kết nối tới máy chủ và tải tất cả thư treo đó tới máy tính của người dùng. Cách truy cập offline là một loại dịch vụ store­to­forward, được sử dụng để chuyển thư từ máy chủ thư tới máy của người đọc thư.

­ Giao thức IMAP: là một giao thức chuẩn cho việc truy cập thư điện tử từ máy chủ thư cục bộ. Là một giao thức chủ/khách trong đó thư điện tử được nhận và duy trì

bởi máy chủ thư. Với những yêu cầu này chỉ một trao đổi dữ liệu nhỏ làm việc tốt

thậm trí qua một kết nối chậm như một modem. Chỉ khi người dùng yêu cầu đọc một thư điện tử cụ thể thì nó sẽ được tải về từ máy chủ thư đó. Người dùng có thể tạo và chế tác các thư mục hoặc các hộp thư trên máy chủ, xóa tin nhắn,…

1.2. Tổng quan về thư rác


1.2.1. Lịch sử

Lịch sử thư rác có thể chia thành ba giai đoạn.

1.2.1.1. Giai đoạn thứ nhất ­ những năm đầu của thư rác

Nhiều ý kiến cho rằng thư rác đầu tiên được phát tán trên mạng diện rộng vào

năm 1978, đó là một quảng cáo từ Digital Equipment Corporation (DEC) [5] nhà sản

xuất máy tính mini hàng đầu thế giới. Do dịch vụ thư điện tử lúc này chưa tiên tiến nên

người phát tán thư rác (spammer) phải đánh thủ công các địa chỉ thư điện tử muốn gửi và có khoảng 320 trong tổng số các địa chỉ thư điện tử mà spammer muốn gửi nhận được thư rác này trong lần phát tán đầu tiên. Vào 1988 xuất hiện kiểu thư rác khác là thư rác lừa đảo (như lừa đảo làm việc từ thiện, lừa đảo về kiếm tiền).

1.2.1.2. Giai đoạn thứ hai ­ thư rác được gửi thông qua phần mềm

Đầu thập niên 1990, với sự phát triển của Internet gây ra vấn nạn thư rác với số tăng lên nhanh chóng. Lúc này các spammer dùng các phần mềm để gửi tự động thư rác đến một danh sách nhiều địa chỉ.

Ví dụ: thư rác Jesus, Cantel và Siegel.

Vào 1995 Jeff Slaton ­ tự nhận mình là “vua thư rác”, ông là một trong những

người đầu tiên kiếm lợi nhuận từ các thư rác mà ông gửi đi, ông còn ép buộc các nạn nhân của mình trả phí nếu không muốn nhận thư rác. Việc làm của ông tạo ra ý tưởng cho các công ty thương mại là thuê những người như Jeff Slaton để phát tán thư điện tử với mục đích là quảng cáo giúp họ.

1.2.1.3. Giai đoạn thứ ba ­ phần mềm chống thư rác chống lại các phần mềm gửi thư rác

Vào 1996 xuất hiện các phần mềm chống thư

rác đầu tiên như

Spamblock,

Internet Death Penalty, tuy nhiên vẫn không làm giảm sự phát triển của thư rác. Các địa

chỉ

thư

điện tử

của người dùng được bán cho các công ty, tổ

chức muốn thực hiện

quảng cáo trên thư điện tử. Và từ 1997 sự phát triển của thư rác đã vượt quá sự kiểm soát, một thống kê cho thấy 97% tổng số thư điện tử được gửi trên mạng là các thư người nhận không mong muốn [6].

1.2.2. Định nghĩa

Có nhiều tranh cãi về định nghĩa chính xác của thư rác (spam email), bởi vì thư rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa của thư rác. Nhiều ý kiến cho rằng thư rác là những “thư đin tkhông mong mun”. Định nghĩa này cũng không thực sự chính xác, như một nhân viên nhận những thư điện tử về công việc từ

sếp của họ, đây là những thư điện tử người nhân viên không mong muốn nhưng chúng không phải là thư rác. Lại có ý kiến khác cho rằng thư rác là những “thư điện tử thương mại không được yêu cầu từ phía người nhận” những thư này bao gồm các thư điện tử quảng cáo về các sản phẩm và thư điện tử lừa gạt. Nhưng định nghĩa này cũng không thực sự chính xác.

Sau đó có ý kiến cho rằng thư rác là “số lượng lớn thư điện tử không yêu cầu” và

trong số đó các thư điện tử

quảng cáo, thương mại chiếm đa số, đây có thể

là định

nghĩa gần đúng với ý nghĩa của thư rác nhất [7].


1.2.3. Mục đích gửi thư rác

Mục đích chính của việc gửi thư rác:

­ Quảng cáo sản phẩm, hàng hóa, dịch vụ,… của tổ chức, công ty thương mại hay cá nhân nào đó.

­ Lợi dụng sự tin tưởng của người dùng để lừa gạt như các hình thức thanh toán trực tuyến.

­ Phát tán virus, mã độc hại kèm theo thư điện tử xâm nhập vào các máy nhận thư rác nhằm đánh cắp thông tin, phá hoại tài liệu, phá hủy hệ thống phần mềm.

­ Tuyên truyền những luận điệu sai trái, văn hóa không lành mạnh, nói xấu chế độ chính trị.

1.2.4. Các đặc tính của thư rác

Thư rác có các đặc tính cơ bản sau:

­ Mang tính tương đối vì nó mang tính cá nhân, có thể một thư điện tử này là vô bổ với người này nhưng lại có lợi với người khác.

­ Tính bất biến trong một thư rác thể hiện ở những từ, cụm từ hầu như không thay đổi trong những lần spam.

­ Đặc tính phần header của thư rác [6]:

+ Địa chỉ

thư

điện tử

của người nhận sẽ

không được thể

hiện ở

trường

“To:” hay “Cc:” vì địa chỉ này sẽ được ẩn trong trường “Bcc”. Người gửi

thư rác thực hiện hành động này để giấu số lượng lớn các địa chỉ thư điện tử mà người gửi thư rác muốn gửi.

+ Để nội dung trống hoặc thiếu trường “To”.

+ Nội dung trường “From:” giống trường “To:”.

+ Thiếu trường “From:”.

+ Định danh –ID của thư điện tử bị thiếu hoặc bị làm giả.

+ Trường “Bcc:” có tồn tại vì ở các thư điện tử thông thường trường này thường không xuất hiện.

+ Trường “X­mailer” là trường thể hiện tên phần mềm dùng để gửi thư điện tử, nếu trường này bao gồm tên của phần mềm gửi thư rác quen thuộc thì có thể xác định được là thư rác hay không.

+ X­UIDL header: là một định danh duy nhất được sử dụng bởi các giao thức

POP để lấy thư

điện tử

từ một máy chủ

thư

điện tử. Nó thường được


… spam.

thêm vào giữa các máy chủ thư điện tử của người nhận và phần mềm thư điện tử của người nhận, nếu thư đến tại các máy chủ thư điện tử mà xuất hiện trường này thì là thư rác.

+ Tồn tại các dòng mã lệnh hoặc khoảng trắng tuần tự. Ví dụ như thêm mã lệnh trên chủ đề của thư và dùng khoảng trắng để giấu.

+ Tồn tại các dòng mã HTML không đúng quy tắc.

­ Nội dung của thư thường chứa các từ như: khuyến mãi, kiếm tiền nhanh, free,


­ Giống nhau ở kích thước/ loại tệp tin/ tên tệp tin đính kèm thư rác ở các lần


1.2.5. Các kĩ thuật tạo thư rác


1.2.5.1. Chỉnh sửa phần header của thư rác

­ Nhập địa chỉ của các người nhận thư rác vào trường “Bcc:” thay vì trường “To:” hoặc “Cc”.

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 05/05/2022