1.2.7.2. Bộ dữ liệu TREC’07
Bộ dữ liệu TREC'07 lưu trữ 75,419 thư điện tử trong đó có 50,199 spam và 25,220 ham. Là một trong những dữ liệu lớn nhất và uy tín được tài trợ bởi Viện Quốc gia về Tiêu chuẩn và Công nghệ (NIST) và Bộ Quốc phòng Mỹ.
Số lượng thư điện tử thu thập được là rất lớn, cung cấp dữ liệu cho việc xây dựng các kĩ thuật lọc thư rác.
Ngoài ra, còn nhiều bộ dữ liệu khác như Enron Email Dataset, Smspamcollection,
ECMLPKDD, Lingspam,... Vì mục đích thử
nghiệm, nên chúng tôi sẽ
sử dụng
spambase với đặc tính nhỏ gọn, đã chuẩn hóa trong đề tài này.
1.3. Kết luận
Ngày nay, hầu hết người dùng Internet đều có hộp thư điện tử cho riêng mình, để có thể sử dụng các dịch vụ giải trí, kinh doanh, … trên Internet. Tuy nhiên nhiều người, tổ chức lại sử dụng thư điện tử để thực hiện những hành vi xấu, đặc biệt là việc phát
Có thể bạn quan tâm!
- Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 1
- Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 2
- Các Kĩ Thuật Phát Hiện Và Ngăn Chặn Thư Rác
- Quá Trình Huấn Luyện – Tạo Tập Bộ Dò (Training) Input: Chọn 9 Trong 10 File: Hsub I.txt (I=1,…,10).
- Quá Trình Kiểm Tra Phân Loại (Testing)
- Ứng dụng hệ miễn dịch nhân tạo cho lọc thư rác - Lương Văn Lâm - 7
Xem toàn bộ 69 trang tài liệu này.
tán thư rác với nhiều mục đích khác nhau gây ra nhiều tác hại. Do vậy, nhiều phần
mềm lọc thư rác được ra đời, giúp hạn chế việc lưu hành của thư rác.
Trong chương 2, trình bày nội dung phương pháp sử dụng hệ miễn dịch nhân tạo để xây dựng phần mềm lọc thư rác.
Chương 2
TỔNG QUAN VỀ HỆ MIỄN DỊCH SINH HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO
Chương này trình bày tổng quan về hệ miễn dịch sinh học: khái niệm, các tầng bảo vệ của hệ miễn dịch sinh học; tổng quan về hệ miễn dịch nhân tạo: khái niệm, mô
hình và các thuật toán trong hệ miễn dịch nhân tạo. Phương pháp sinh bộ dò sử dụng bảng băm.
2.1. Tổng quan về hệ miễn dịch sinh học
2.1.1. Khái niệm
Hệ miễn dịch sinh học là tập hợp tất cả các cơ chế sinh học giúp cho một cơ thể đa bào giữ được sự liên kết giữa các tế bào và các mô, đảm bảo sự toàn vẹn của cơ thể bằng cách loại bỏ những thành phần bị hư hỏng cũng như các chất và sinh vật xâm hại. Chức năng bảo vệ cơ thể bao gồm hai loại cơ chế miễn dịch, lần lượt xuất hiện trong quá trình tiến hóa của các loài và liên hệ chặt chẽ với nhau ở các động vật bậc cao [2].
2.1.2. Các tầng bảo vệ của hệ miễn dịch sinh học
Hình 2.. Các tầng hệ miễn dịch sinh học
HMD sinh học có thể coi như một cấu trúc phân tầng với cơ chế điều khiển và bảo vệ ở các mức:
Mức vật lý (Physical Barriers) gồm lớp DNA và màng nhầy nằm ở các tuyến hô hấp và tiêu hóa chứa đại thực bào (Macrophage) và kháng thể ngăn không cho những chất lạ xâm nhập vào cơ thể.
Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi, nước mắt chứa những enzym có thể loại bỏ kháng nguyên. Các axit trong vùng DNA cùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của kháng nguyên.
Với cấu trúc phân tầng và bảo vệ ở các mức vật lý và sinh hóa, trong cơ thể sinh học các loài vật tự bảo vệ cơ thể bằng hai dạng HMD: HMD bẩm sinh và HMD thích nghi.
HMD bẩm sinh: Là HMD mà cơ thể sinh vật tự hình thành khi sinh ra và trong suốt quá trình sinh trưởng, phát triển của cơ thể, tuy nhiên HMD bẩm sinh còn có hạn chế đặc biệt là việc HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so với lần thứ nhất.
Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnh truyền nhiễm). Những bạch huyết này có các cơ quan thụ cảm trên bề mặt, chúng có thể nhận diện và bám vào các phần tử gây bệnh.
HMD thích nghi: Là HMD được cơ thể sinh vật hình thành, phát triển, tái tạo trong quá trình phát triển của cơ thể và trong quá trình tác động với môi trường sống. HMD thích nghi có khả năng ghi nhớ các loại vi sinh vật lạ xâm nhập nên việc miễn dịch, bảo vệ cơ thể sinh vật tốt hơn so với HMD bẩm sinh.
Hoạt động với các thành phần chính là các lymphô bào (Lymphocyte – là một loại bạch cầu) bao gồm B cell và T cell. Các B cell và T cell trên bề mặt của
chúng có những cơ
quan thụ
cảm chuyên dụng cho một loại kháng thể
nào đó. Khi
kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphô bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhận
diện và loại bỏ kháng nguyên. Một số lymphô bào sẽ trở thành tế bào có khả năng ghi
nhớ lưu thông trong cơ thể. Khi có loại kháng nguyên tương tự lây nhiễm, thì HMD
thích nghi có thể nhanh chóng phát hiện và loại bỏ chúng. Khả năng này giúp cho cơ thể không mắc lại những bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện sau mỗi lần đụng độ với kháng nguyên.
Hình 2.. Một số bộ phận của HMD sinh học
Trong quá trình chọn lọc các tế bào B cell và T cell, HMD thích nghi không chỉ phải chọn những tế bào có khả năng nhận biết những tế bào lạ (antigen hay nonself), mà nó còn phải loại bỏ những tế bào nhận biết được những tế bào do cơ thể tạo ra (self
antigen hay self), tương ứng với hai khả năng trên là quá trình chọn lọc tích cực và quá trình chọn lọc tiêu cực.
Chọn lọc tích cực: Phép chọn lọc tích cực đối với các Lymphô bào (T cell và B
cell) nhằm mục đích tránh sự xuất hiện của các Lymphô bào không có ích. Những
Lymphô bào mà cơ quan thụ cảm của chúng không có khả năng nhận diện được kháng nguyên. Kết quả cuối cùng là những Lymphô bào có khả năng nhận diện được kháng nguyên.
Chọn lọc tiêu cực: Phép chọn lọc tiêu cực của các lymphô bào nhằm mục đích loại bỏ những lymphô bào mà cơ quan thụ cảm của nó nhận diện được các tế bào do cơ thể tạo ra và nó có thể tiêu diệt những tế bào này.
29
HMD thích nghi được nghiên cứu áp dụng nhiều trong xây dựng HMD nhân tạo.
2.2. Tổng quan về hệ miễn dịch nhân tạo
2.2.1. Khái niệm hệ miễn dịch nhân tạo
Hệ miễn dịch nhân tạo là một hệ thống thích nghi lấy ý tưởng của học thuyết miễn dịch và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải các bài toán thực tế.
2.2.2. Mô hình hệ miễn dịch nhân tạo
Cấu trúc phân tầng của hệ miễn dịch nhân tạo
Hình 2.. Cấu trúc phân tầng của HMD nhân tạo
Tầng lĩnh vực ứng dụng: lĩnh vực ứng dụng khác nhau sẽ quyết định những thành phần và cách thức biểu diễn khác nhau dẫn tới các thao tác trên các thành phần cũng khác nhau.
Tầng biểu diễn các thành phần: Trong HMD nhân tạo phải biểu diễn được hai thành phần quan trọng là kháng thể và kháng nguyên.
Tầng các phương pháp đánh giá độ thích hợp: sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming, khoảng cách Euclid hoặc khoảng cách Mahatan.
Tầng các thuật toán miễn dịch: Có thể sử dụng các thuật toán miễn dịch như thuật toán chọn lọc tích cực, NSA, thuật toán Clôn, thuật toán AiNet, thuật toán RAIN để điều chỉnh tính động của hệ HMD nhân tạo.
Tầng lời giải cho bài toán: Lời giải cho bài toán sẽ được cập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạt đến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định.
Nhận dạng mẫu gần đúng trong hệ miễn dịch nhân tạo: Trong hệ miễn dịch ở người thì ràng buộc sinh học giữa kháng thể và kháng nguyên là gần đúng. Nếu áp dụng vào hệ thống máy tính có thể coi các gói dữ liệu là tác nhân gây bệnh, chúng được phân đoạn cụ thể. Việc sử dụng tập dữ liệu để phù hợp với các phân đoạn trong gói dữ liệu
được gọi là mẫu (pattern). Bằng cách sử dụng mối quan hệ trưởng thành tương tự với hệ miễn dịch tự nhiên, mẫu có thể nhận ra các phân đoạn tác nhân gây bệnh trong các
gói dữ
liệu, khác biệt là phải kiểm soát ngưỡng quan hệ. Nếu chúng ta có bộ
điều
khiển ngưỡng thích ứng thì tình hình an ninh của hệ thống máy tính được cải thiện đáng kể.
2.2.3. Các thuật toán trong hệ miễn dịch nhân tạo
S là tập Self hay còn gọi là tập tế bào cần bảo vệ. A là quần thể có giá trị.
2.2.3.1. Thuật toán chọn lọc tích cực (Positive Selection Algorithms PSA)
Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T cell có thể nhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể), mà peptide này đã kết hợp với MHC (Major Histocompatibility Complex phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T cell) để tạo thành MHC/peptide. Giả thiết có tập MHC/peptide, kí hiệu là tập S, các cơ quan thụ cảm T cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này. Nếu một T cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ. Trái lại, nó được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A.
Sơ đồ sau minh họa cho thuật toán chọn lọc tích cực:
Hình 2.. Sơ đồ thuật toán chọn lọc tích cực
Các bước thực hiện thuật toán
Bước 1.
Khởi tạo: Sản sinh một quần thể
tiềm năng
P những T cell chưa
trưởng thành. Giả thiết tất cả các phần tử được biểu diễn như các xâu nhị phân có cùng độ dài ℓ bit (ℓ >0).
Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần tử trong quần thể P với tất cả phần tử trong tập Self S.
Bước 3. Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo nào đó thì T cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể có giá trị A trái lại T cell bị loại bỏ.
2.2.3.2. Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms NSA)
NSA của Forrest và các đồng nghiệp khá đơn giản: Giả sử đã có một tập Self Peptide để tạo thành phức chất MHCSelf peptide, các cơ quan thụ cảm T cell nếu nhận diện được một self peptide thì sẽ bị loại bỏ, trái lại nó sẽ được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A.
Sơ đồ sau minh họa cho thuật toán chọn lọc tiêu cực:
Hình 2.. Sơ đồ thuật toán chọn lọc tiêu cực
Các bước thực hiện thuật toán:
Bước 1. Khởi tạo: Sản sinh một quần thể tiềm năng P những T cell chưa
trưởng thành. Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các selfpeptide) được biểu diễn bằng một xâu nhị phân độ dài ℓ bit (ℓ >0).
Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T cell trong P với mọi phần tử của tập Self S.
Bước 3. Tạo một quần thể có giá trị: Nếu độ thích hợp của một T cell chưa
trưởng thành với ít nhất một phần tử self peptide lớn hơn hoặc bằng một ngưỡng
tương tác chéo nào đó, thì T cell nhận diện được selfpeptide này và bị loại bỏ, trái lại T cell được bổ sung vào quần thể có giá trị A.
ật toán Clôn (Clonal Selection Algorithm – CLONALG) Các bước thực hiện của thuật toán:
Bước 1. Khởi tạo: Tạo ngẫu nhiên quần thể P.
Bước 2. Trình diện kháng nguyên, với mỗi kháng nguyên thực hiện:
2.1. Đánh giá độ thích hợp: Xác định độ thích hợp của mỗi phần tử trong P.
2.2. Tăng độ thích hợp: Chọn n phần tử tốt nhất từ P và nhân rộng + đột biến theo tỉ lệ nghịch với độ thích hợp của chúng sau đó thêm các phần tử mới vào P.
Bước 3. Tính siêu động: