Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân - 2

MỤC LỤC


LỜI CAM ĐOAN 3

LỜI CẢM ƠN 4

DANH MỤC CÁC TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH ẢNH VÀ BẢNG BIỂU 6

DANH MỤC CÁC THUẬT TOÁN 8

MỤC LỤC 9

GIỚI THIỆU TỔNG QUAN 12

1.1. Lý do chọn đề tài 12

1.2. Mục đích nghiên cứu của luận văn 13

1.2.1. Về khoa học 13

1.2.2. Về thực tiễn 13

1.3. Các phương pháp nghiên cứu 13

1.3.1. Phương pháp nghiên cứu lý thuyết 13

1.3.2. Phương pháp nghiên cứu thực nghiệm 14

1.3.3. Đề tài nhằm thực hiện mục tiêu sau 14

1.3.4. Đối tượng của luận văn 14

CHƯƠNG I: GIỚI THIỆU TỔNG QUAN BÀI TOÁN TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ ẢNH THẺ CĂN CƯỚC CÔNG DÂN 16

1.1. Giới thiệu thẻ căn cước công dân 16

1.2. Bài toán trích xuất thông tin tự động từ thẻ CCCD 18

1.3. Các hướng tiếp cận 18

1.4. Các khó khăn và thách thức 19

1.5. Đề xuất hướng giải quyết bài toán 20

1.5.1. Tiền xử lý ảnh 21

1.5.2. Phân đoạn tách các vùng dữ liệu 21

1.5.3. Nhận dạng ký tự và xuất thông tin các vùng dữ liệu 21

1.5.4. Phương pháp thực hiện 21

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 22

2.1. Tiền xử lý 23

2.1.1. Bộ lọc thông thấp 23

2.1.2. Lọc băng thông cao 25

2.1.3. Bộ lọc High boost 27

2.2. Hiệu chỉnh độ nghiêng của văn bản 27

2.2.1. Xác định góc nghiêng dựa trên biến đổi Hough 28

2.3. Nhị phân hóa ảnh 29

2.3.1. Phân loại các phương pháp xác định ngưỡng T 31

2.3.2. Phương pháp xác định ngưỡng T theo Niblack 32

2.3.3. Phương pháp Otsu 33

2.3.4. Nhận xét 35

2.4. Tổng quan về mạng nơron 35

2.4.1. Mạng nơron nhân tạo 35

2.4.2. Các đặc trưng cơ bản của mạng nơron 35

2.4.3. Các thành phần cơ bản của mạng nơron nhân tạo 36

2.4.4. Các cấu trúc của mạng nơ ron 40

2.4.5. Mạng hồi quy 41

2.4.6. Huấn luyện mạng Nơron 42

2.4.7. Các phương pháp học 42

2.4.8. Mạng truyền thẳng 46

2.4.9. Kết luận chương 48

CHƯƠNG 3: XÂY DỰNG THUẬT TOÁN PHÂN TÍCH 49

THẺ CĂN CƯỚC CÔNG DÂN 49

3.1. Tiền xử lý 49

3.1.1. Chuyển ảnh màu về ảnh đa cấp xám 49

3.1.2. Làm trơn ảnh 50

3.1.3. Nhị phân hóa ảnh 50

3.1.4. Căn chỉnh độ nghiêng 51

3.2. Phân đoạn các vùng 52

3.2.1 Phân tích các trường thông tin ở mặt trước 52

3.2.2. Xác định các vùng có ký tự ở mặt trước 52

3.2.3. Phân đoạn vùng Số CCCD 53

3.2.4. Tách các trường thông tin còn lại 56

3.2.5. Tìm mặt nạ dòng 57

3.2.6. Tách các đối tượng thuộc mỗi dòng 57

3.2.7. Xoá tiêu đề 59

3.2.8. Phục hồi các ký tự bị mất 60

3.2.9. Tách các trường thông tin ở mặt sau 61

3.3. Huấn luyện mạng nơ ron phân tích ảnh để nhận dạng ký tự 64

3.4. Kết luận chương 69

CHƯƠNG IV: KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 70

4.1. Xây dựng bộ dữ liệu 70

4.2. Môi trường thực nghiệm 73

4.3. Thời gian thực nghiệm 75

4.4. Kết quả thực nghiệm 75

4.4.1. Kết quả trên tập dữ liệu A1 76

4.4.2. Kết quả trên tập dữ liệu A2 76

4.5. Đánh giá 77

4.5.1. Ưu điểm 77

4.5.2. Khuyết điểm 78

4.6. Hướng phát triển 79

4.7. Kết luận 80

GIỚI THIỆU TỔNG QUAN‌

1.1. Lý do chọn đề tài

Trong những thập niên vừa qua, cùng với sự phát triển của khoa học máy tính, thì xử lý ảnh, các kỹ thuật xử lý ảnh số trên máy tính là một lĩnh vực đang được các nhà khoa học quan tâm nghiên cứu và phát triển. Ở Việt Nam xử lý ảnh là một ngành khoa học rất phát triển trong những năm gần đây. Sự phát triển của xử lý ảnh đem lại rất nhiều lợi ích cho cuộc sống của con người. Nhận dạng ký tự được biết đến đầu thế kỷ XX và luôn được quan tâm phát triển cùng với tiến bộ của khoa học máy tính. Nhận dạng ký tự góp phần không nhỏ vào trong nhiều lĩnh vực của cuộc sống như: bảo mật và lưu trữ thông tin, ngân hàng…

Trong xử lý ảnh thì nhận dạng mẫu là một ngành khoa học của học máy tinh, nhằm phân loại dữ liệu (các mẫu) vào các lớp. Một trong những ứng dụng phổ biến hiện nay của nhận dạng mẫu là phân tích và nhận dạng ảnh tài liệu. Đối với bài toán này thì việc phân tích cấu trúc của ảnh tài liệu là đặc biệt quan trọng, bởi vì nó sẽ quyết định đến việc tách và nhận dạng chính xác các trường thông tin cần thiết cho từng ứng dụng.

Ở Việt Nam loại thẻ chứa thông tin cá nhân là thẻ căn cước công dân (CCCD) 12 số được cấp lần đầu tiên váo ngày 1/1/ 2016. Theo nghị quyết số 112 của chính phủ ký ngày 30/10/2017 thì đến năm 2020 thẻ căn cước công dân sẽ hoàn toàn thay thế chứng minh nhân dân và các loại giấy tờ khác [1]. Trong một số giao dịch dân sự bắt buộc dùng giấy chứng minh nhân dân (CMND) và thẻ CCCD trong nhiều lĩnh vực bệnh viện, bảo hiểm, văn phòng công chứng, văn phòng ủy ban nhân dân các cấp, làm thủ tục hải quan, các giao dịch ở các ngân hàng, khách sạn…vv. Để sử dụng thông tin trên thẻ, ví dụ mở một tài khoảng ngân hàng, hay đăng ký một thuê bao internet, thuê bao di động thì nhân viên phải đọc và gõ thông tin trong CMND, hay CCCD vào hệ thống máy tính có các biểu mẫu. Điều này có thể gõ sai thông tin, thiếu thông tin, tốn thời gian xử lý, gây ra nhiều phiền phức cho những người làm các giao dịch đó, một

số cơ quan sau khi nhập xong thông tin còn phải quét bằng máy quét hoặc photo một bản để lưu trữ lại, điều này tốn thời gian công sức xử lý, không gian lưu trữ giấy tờ. Cùng với quá trình tin học hóa, đơn giản các thủ tục hành chính, cần có một hệ thống tự động tách và nhận dạng các trường thông tin trên CCCD để điền vào các biểu mẫu định dạng trước. Do đó tôi xin đề xuất đề tài: “Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân”. Hệ thống được xây dựng có các chức năng tự động trích xuất thông tin từ ảnh thẻ CCCD, sau khi quét thẻ hệ thống tự động xuất ra tập tin dữ liệu, đầy đủ thông tin mặt trước và mặt sau thẻ CCCD với độ chính xác cao, thời gian xử lý rất nhanh.

1.2. Mục đích nghiên cứu của luận văn

1.2.1. Về khoa học

+ Xây dựng các thuật toán giải quyết bài toán trích xuất thông tin tự động từ thẻ CCCD.

+ Đóng góp hỗ trợ các ứng dụng khác.

1.2.2. Về thực tiễn

+ Trong lĩnh vực cải cách thủ tục hành chính, giảm thời gian, công sức, tiền bạc đặc biệt hiệu quả công việc nâng cao, xử lý, trích xuất dữ liệu, lưu trữ dữ liệu nhanh chóng chính xác trong nhiều lĩnh vực khác nhau.

+ Các lĩnh vực có thể áp dụng như: sân bay, nhà ga, bến tàu, khách sạn, ngân hàng, bảo hiểm, y tế, phòng công chứng, văn phòng UBND các cấp, các sở ban ngành…vv.

+ Đề tài đáp ứng được yêu cầu kỹ thuật công nghệ thông tin trong tự động hóa.

1.3. Các phương pháp nghiên cứu

1.3.1. Phương pháp nghiên cứu lý thuyết

+ Tổng hợp nghiên cứu các tài liệu về nâng cao chất lượng ảnh số, tập trung sâu vào các phương pháp, thuật toán nâng cao chất lượng ảnh tài liệu, tìm hiểu các kiến thức liên quan.

+ Nghiên cứu các tài liệu, bài báo liên quan là cơ sở lý luận của luận văn.

13

+ Nghiên cứu các cách tiếp cận, các kỹ thuật, các phương pháp hiện tại đã được công bố của các tác giả trong và ngoài nước có liên quan đến lĩnh vực xử lý ảnh, nhận dạng mẫu, máy học chuyên sâu.

+ Nghiên cứu các xu thế và hướng phát triển tương lai liên quan đến luận văn.

1.3.2. Phương pháp nghiên cứu thực nghiệm

+ Sau khi nghiên cứu lý thuyết, phát biểu bài toán, đưa ra giải pháp xử lý, mô phỏng thử nghiệm chương trình trên ngôn ngữ lập trình python.

+ Tiến hành phân tích, xây dựng giải pháp xử lý ảnh, nhận dạng gồm có: Tiền xử lý, trích chọn đặc trưng, huấn luyện mô hình, hậu xử lý.

+ Xây dựng và kiểm thử việc đánh giá hiệu quả phương pháp nhận dạng bằng ngôn ngữ lập trình Python, kết hợp máy học chuyên sâu, mạng nơron nhân tạo.

1.3.3. Đề tài nhằm thực hiện mục tiêu sau

+ Nghiên cứu tổng quan và đánh giá một số phương pháp tiêu biểu trong xử lý ảnh, nhận dạng, lọc nhiễu, lấy biên, trích xuất dữ liệu.

+ Xây dựng thuật toán, mô phỏng một thuật toán để ứng dụng vào “Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân”.

1.3.4. Đối tượng của luận văn

Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân. Luận văn sẽ khảo sát và đánh giá một số phương pháp thường dùng trong nâng cao chất lượng ảnh số, lựa chọn các phương pháp được cho là phù hợp nhất đối với việc nâng cao chất lượng ảnh tài liệu. Tập trung sâu vào cài đặt thử nghiệm một số phương pháp nhằm chứng minh tính đúng đắn và khả năng ứng dụng trong thực tế của hệ thống.

Với những yêu cầu đã đặt ra ở trên, cấu trúc của luận văn sẽ bao gồm bốn chương với những nội dung sau đây:

Chương 1: Giới thiệu tổng quan bài toán trích xuất thông tin tự động từ ảnh thẻ căn cước công dân. Trong chương này giới thiệu tổng quan về bài toán

trích xuất thông tin từ ảnh căn cước công dân, các hướng tiếp cận, khó khăn và thách thức, đề xuất hướng giải quyết.

Chương 2: Cơ sở lý thuyết. Tác giả sẽ nghiên cứu các cơ sở lý thuyết, các thuật toán ứng dụng trong xử lý ảnh, phương pháp Niblack, Otsu, mạng nơ ron nhân tạo, mạng nơ ron nhân tạo chuyên sâu...vv.

Chương 3: Xây dựng thuật giải cho bài toán phân tích trích xuất trong tin tự động từ ảnh thẻ căn cước công dân. Chương này sẽ phân tích thẻ CCCD, quy trình hệ thống xử lý, tiền xử lý, phân đoạn ảnh, xác định vùng xử lý, xây dựng hệ thống nhận dạng xử lý, trích xuất trong tin tự động từ ảnh thẻ căn cước công dân.

Chương 4: Kết quả nghiên cứu, thực nghiệm và hướng phát triển của đề tài. Trên cơ sở lý thuyết đã trình bày ở chương 1, 2 và 3 chúng tôi sẽ tiến hành xây dựng bộ dữ liệu, cài đặt chương trình, thử nghiệm hệ thống trích xuất thông tin tự động từ thẻ căn cước công dân và đánh giá kết quả và kết luận, định hướng phát triển của đề tài.

CHƯƠNG I: GIỚI THIỆU TỔNG QUAN BÀI TOÁN TRÍCH XUẤT THÔNG TIN TỰ ĐỘNG TỪ ẢNH THẺ CĂN CƯỚC CÔNG DÂN


1.1. Giới thiệu thẻ căn cước công dân

Thẻ căn cước công dân (CCCD) là một loại giấy tờ tùy thân của công dân Việt Nam, được xác nhận bởi cơ quan nhà nước có thẩm quyền về lý lịch của người được cấp. CCCD được ban hành lần đầu tiên vào năm 1/1/2016 để thay thế cho giấy chứng minh nhân dân [1]. Thẻ Căn cước công dân hình chữ nhật, bốn góc được cắt tròn, chiều dài 85,6 mm, chiều rộng 53,98 mm, độ dày 0,76 mm.

Mặt trước thẻ Căn cước công dân gồm các thông tin: Bên trái, từ trên xuống, hình Quốc huy nước Cộng hòa xã hội chủ nghĩa Việt Nam, đường kính 14 mm; ảnh chân dung của người được cấp thẻ Căn cước công dân cỡ 20 mm x 30 mm; có giá trị đến; Bên phải, từ trên xuống: CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM, Độc lập - Tự do - Hạnh phúc; dòng chữ “CĂN CƯỚC CÔNG DÂN”; số CCCD, Họ và tên; Ngày, tháng, năm sinh; Giới tính; Quốc tịch; Quê quán; Nơi thường trú, hình 1.1a.

Mặt sau thẻ Căn cước công dân gồm các thông tin sau Trên cùng là mã vạch hai 1

Mặt sau thẻ Căn cước công dân gồm các thông tin sau: Trên cùng là mã vạch hai chiều; Bên trái, có 2 ô: ô trên, vân tay ngón trỏ trái; ô dưới, vân tay ngón trỏ phải của người được cấp thẻ Căn cước công dân; Bên phải, từ trên xuống: đặc điểm nhân dạng của người được cấp thẻ; ngày, tháng, năm cấp thẻ Căn cước công dân; họ, chữ đệm và tên, chức danh, chữ ký của người có thẩm quyền cấp thẻ và dấu có hình Quốc huy của cơ quan cấp thẻ Căn cước công dân, hình 1.1b.


(a)


(b)

Có thể bạn quan tâm!

Xem toàn bộ 96 trang tài liệu này.

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 10/02/2023