Bài Toán Trích Xuất Thông Tin Tự Động Từ Thẻ Cccd

Hình 1.1. Mẫu “Căn cước công dân”‌

(a)Mặt trước CCCD; (b) Mặt sau CCCD

Hai mặt của thẻ Căn cước công dân in hoa văn màu xanh nhạt. Nền mặt trước thẻ Căn cước công dân gồm: hình ảnh trống đồng, bản đồ Việt Nam, hoa sen và các hoa văn, các họa tiết trang trí. Nền mặt sau thẻ Căn cước công dân gồm các hoa văn được kết hợp với các họa tiết đường cong vắt chéo đan xen. Quốc huy và ảnh chân dung của công dân được in màu trực tiếp trên thẻ Căn cước công dân…

Thẻ Căn cước công dân được sản xuất bằng chất liệu nhựa, ngoài cùng của hai mặt có phủ lớp màng nhựa mỏng trong suốt.

Ngôn ngữ trên thẻ Căn cước công dân được quy định cụ thể là Việt ngữ có dấu. Ngôn ngữ khác trên thẻ Căn cước công dân được quy định cụ thể khi Việt Nam ký kết điều ước hoặc thỏa thuận quốc tế cho phép công dân nước ký kết được sử dụng thẻ Căn cước công dân thay cho việc sử dụng hộ chiếu trên lãnh thổ của nhau [2].

Thời hạn sử dụng của thẻ Căn cước công dân được tính theo độ tuổi đổi thẻ Căn cước công dân quy định tại Điều 21 Luật Căn cước công dân. Thông tư này có hiệu lực thi hành kể từ ngày 01 tháng 01 năm 2016 và thay thế Thông tư số 57/2013/TT-BCA ngày 13 tháng 11 năm 2013 của Bộ trưởng Bộ Công an quy định về mẫu Chứng minh nhân dân. Mẫu thẻ Căn cước công dân quy định tại thông tư này được áp dụng từ ngày 01 tháng 01 năm 2016. Địa phương chưa có điều kiện triển khai cấp, đổi, cấp lại thẻ Căn cước công dân theo mẫu quy định tại Thông tư này thì tiếp tục thực hiện theo Quyết định số 998/2001/QĐ- BCA(C11) ngày 10 tháng 10 năm 2001 của Bộ trưởng Bộ Công an về việc ban hành các biểu mẫu sử dụng trong công tác quản lý hành chính về trật tự xã hội để cấp, đổi, cấp lại Chứng minh nhân dân, chậm nhất đến ngày 01 tháng 01 năm 2020 phải thực hiện thống nhất theo mẫu quy định tại Thông tư này[3].

1.2. Bài toán trích xuất thông tin tự động từ thẻ CCCD

Trong rất nhiều giao dịch dân sự thực tế bắt buột phải cần đến thẻ CCCD, hoặc CMND. Khi làm thủ tục mở tài khoảng ngân hàng, các giao dịch ở bưu điện, các công ty viễn thông mobiphone, Vinaphone, Viettel, FPT, văn phòng ủy ban nhân dân các cấp,..vv. Khi khách hàng giao dịch thì nhân viên phải đọc và nhập thông tin vào máy tính với các biểu mẫu có trong máy tính. Việc nhập thông tin này vừa chậm vừa không chính xác, vì có thể đọc sai, gõ nhằm đẫn đến việc xử lý lâu, tốn thời gian công sức, gây phiền phức cho khách hàng. Sau khi nhập xong thông tin, nhân viên phải photo hoặc quét bằng máy quét thẻ CCCD để lưu trữ lại. Trong cuộc cách mạng công nghệ số, ứng dụng công nghệ thông tin trong chính phủ điện tử, nhằm giảm bớt các thủ tục hành chánh, đáp ứng yêu cầu cấp bách hiện nay, nên chúng tôi đề xuất xây dựng “hệ thống trích xuất thông tin tự động từ thẻ CCCD”.

Dựa trên việc nhận dạng mẫu và phân tích xử lý ảnh kết hợp mạng nơ ron nhân tạo…vv. Hệ thống được xây dựng có các chức năng tự động trích xuất thông tin từ ảnh thẻ CCCD, sau khi quét thẻ hệ thống tự động xuất ra tập tin văn bản, thông tin hai mặt trước và mặt sau thẻ CCCD đầy đủ thông tin với độ chính xác cao, thời gian xử lý rất nhanh, bài toán trích xuất như sau.

Dữ liệu đầu vào: Ảnh thẻ CCCD chụp hoặc quét trên máy quét hai mặt, mặt trước và mặt sau.

Dữ liệu xuất ra: Tập tin ảnh và tập tin văn bản chứa dữ liệu trong CCCD.

+ Tập tin ảnh gồm: Ảnh chân dung, ngón trỏ phải, ngón trỏ trái.

+ Tập tin văn bản gồm có: Số CCCD, Họ và tên, ngày tháng năm sinh, giới tính, quốc tịch, quê quán, nơi thường trú, đặc điểm nhân dạng của người được cấp thẻ ngày, tháng, năm cấp thẻ CCCD, ngày hết hạn.

1.3. Các hướng tiếp cận

Trên thế giới xử lý ảnh là một ngành phát triển rất mạnh và rất nhanh trong những thập niên vừa qua, Họ cũng đạt được nhiều thành tựu rất lớn giữa xử lý ảnh kết hợp với trí tuệ nhân tạo. Rất nhiều công trình nghiên cứu và ứng

dụng trong thực tiễn mang lại rất nhiều lợi ích về khoa học và kinh tế như trong nhận diện hình ảnh, nhận diện khuông mặt, nhận diện ký tự quang học qua hệ thống máy học.

Một số nước như ở Mỹ và một số nước ở châu Âu người ta đã nghiên cứu ứng dụng nhận dạng quét thông tin với hộ chiếu, làm thủ tục xuất nhập cảnh ở các sân bay quốc tế rất thuận tiện và nhanh chóng.

Một trong những ứng dụng phổ biến của nhận dạng mẫu hiện nay là phân tích và nhận dạng ảnh tài liệu (có nguồn gốc từ hệ thống nhận dạng ký tự quang học), nhằm số hoá các trang tài liệu giấy như sách, báo, tạp chí.

Ở Việt Nam có tác giả Lê Đức Hiếu ở Đại học công nghệ Hà Nội cũng đã có nghiên cứu “ Ứng dụng một số kỹ thuật xử lý ảnh trong phân tích giấy chứng minh nhân dân’’ vào năm 2012.[5] Tác giả đã dựa trên các kỹ thuật phân tích xử lý ảnh, kết hợp với các thư viện mã nguồi mở Open CV để thực hiện và cũng đã đạt được một số kết quả nghiên cứu nhất định nhưng chưa tạo ra các ứng dụng trong thực tế. Từ đó dến hiện nay chưa ai nghiên cứu úng dụng phân tích trích xuất thông tin tự động đối với thẻ CCCD.

1.4. Các khó khăn và thách thức

Thẻ Căn cước công dân được sản xuất bằng chất liệu nhựa, ngoài cùng của hai mặt có phủ lớp màng nhựa mỏng trong suốt. Như vậy cần tách chính xác các trường thông tin yêu cầu trước khi chuyển cho phần nhận dạng, tuy nhiên việc này gặp một số vấn đề khó khăn sau:

+ Các trường thông tin có thể bị lệch so với dòng chuẩn hoặc đè lên phần tiêu đề đã được in trước.

+ Nét chữ không đều nhau giữa các dòng trong CCCD, thậm chí là trong cùng một CCCD: có chỗ chữ quá đậm hoặc quá mờ.

+ CCCD có thể bị ố, mờ, gãy, cong, biến dạng do sừ dụng lâu ngày, bảo quản không tốt…

+ Ở mặt trước, trong một số trường hợp hoa văn nền khá rõ nét trong khi nét chữ lại quá mờ, khó có thể phân biệt đâu là nét chữ đâu là hoa văn nền.

19

+ Ở mặt sau, trong khá nhiều trường hợp ngày tháng năm cấp bị in lệch so với chuẩn, phần đặc điểm nhận dạng chữ thường rất nhỏ, chữ in dính liền hay thường bị in lem mực, rất khó đọc.

+ Ngôn ngữ trên thẻ Căn cước công dân được quy định cụ thể là Việt ngữ có dấu cũng là một khó khăn trong nhận dạng ký so với một số các ngôn ngữ không có dấu, ví dụ như Anh ngữ.

Xử lý các thông tin trên thẻ CCCD có có một số khó khăn như: khi quét thẻ, hay chụp hình bằng máy ảnh, có thể chụp hay quét không chuẩn ảnh có thẻ bị mờ, bị nhòe, bị mất thông tin. Thẻ CCCD làm bằng nhựa nhưng sử dụng lâu không bảo quản cẩn thận có thể bị vênh, bị cong, bị gãy. Thông tin trên thẻ in có thể không chuẩn, in bị lệch, chữ in trên thẻ không đồng đều, có chỗ in chữ thường, có chỗ in chữ hoa, có chỗ chữ lớn, có chỗ chữ nhỏ, có chỗ màu đỏ, có chỗ màu đen, trên thẻ có vân in chìm, có chổ vân in nổi, thông tin cùng một vùng dữ liệu trên thẻ nhưng có thẻ in một dòng, có thẻ khác lại in hai dòng như quê quán và nơi cư trú thông tin của từng người dài ngắn khác nhau.

Yêu cầu của bài toán: Từ ảnh CCCD màu được quét bằng máy quét với độ phân giải 1024 dpi, tách lấy các trường thông tin: Ảnh chân dung, Họ và tên, ngày tháng năm sinh, giới tính, quốc tịch, quê quán, nơi thường trú, đặc điểm nhân dạng của người được cấp thẻ ngày, tháng, năm cấp thẻ CCCD, ngày hết hạn ghi trên thẻ, ngón trỏ trái, ngón trỏ phải. Các trường thông tin này nằm trên cả hai mặt của CCCD, mà mỗi mặt lại có các đặc điểm khác nhau nên tôi đề xuất hai thuật toán khác nhau để tách các trường thông tin trên mỗi mặt.

1.5. Đề xuất hướng giải quyết bài toán

Ảnh đầu vào thẻ CCCD thường có chất lượng rất khác nhau: có thể bị ố, bị lệch, nghiêng khi chụp. Mặt khác, hai mặt trước, sau có hoa văn nền khá rõ nét. Do đó, để đảm bảo cho việc tách các trường thông tin được chính xác (cũng như kết quả nhận dạng sau này). Ta cần áp dụng các kỹ thuật xử lý ảnh để nâng cao chất lượng ảnh đầu vào. Với các khó khăn trên chúng tôi đề xuất hướng giải quyết như sau, bài toán sẽ được chia ra các bài toán nhỏ để xử lý.

1.5.1. Tiền xử lý ảnh

Mục tiêu 1: Tăng cường để có thể trích các vùng dữ liệu chính xác nhất có thể chúng tôi sử dụng bộ lọc băng thông rộng để giải quyết.

Mục tiêu 2: Cân chỉnh để ảnh CCCD không nghiêng vì ảnh CCCD là hình chữ nhật, có các cặp cạnh song song nên chúng tôi đề xuất phương pháp Hough để xác định cạnh làm cơ sở canh chỉnh.

1.5.2. Phân đoạn tách các vùng dữ liệu

Mặt trước: Có các vùng dữ liệu ảnh chân dung, Số CCCD, Họ và tên, Ngày tháng năm sinh, giới tính, quốc tịch, Quê quán, Nơi thường trú, ngày hết hạn.

Mặt sau: Có các vùng dữ liệu ảnh ngón trỏ trái, ảnh ngón trỏ phải, Đặc điểm nhận dạng, Ngày cấp thẻ.

Dựa vào tiêu chuẩn vị trí và kích thước cúa CCCD chúng tôi đề xuất trích xuất tách từng vùng dữ liệu dựa vào thuật toán phương pháp Otsu.

1.5.3. Nhận dạng ký tự và xuất thông tin các vùng dữ liệu

Thông tin hai mặt CCCD cần trích xuất thông tin chúng tôi chia ra làm 13 vùng dữ liệu. Trong đó có các vùng dữ liệu khác nhau, có vùng chỉ chứa hình ảnh như vùng ảnh chân dung, vùng ảnh ngón trỏ trái, ảnh ngón trỏ phải, có vùng chỉ chứa số đó là vùng số CCCD, có vùng chỉ chứa số dạng dd/mm/yyyy như vùng ngày tháng năm sinh, ngày hết hạng sử dụng, ngày cấp, có vùng chỉ chứa thông tin là kí tự như vùng Họ tên, giới tính, quốc tịch, có vùng chứa thông tin vừa ký tự vừa số như vùng nơi cư trú. Chúng tôi đề xuất mô hình nhận dạng các vùng.

- Vùng ảnh: Ảnh chân dung, ngón trỏ trái, ngón trỏ phải.

- Vùng số: Nhận dạng vùng ký tự chỉ chứa số là vùng số CCCD.

- Các vùng khác còn lại: vừa có ký tự vừa có số ký tự số.

Chúng tôi áp dụng mạng nơ rơn nhân tạo để huấn luyện nhận dạng và trích xuất thông tin các vùng.

1.5.4. Phương pháp thực hiện

Tiền xử lý: Chuyển ảnh màu về ảnh đen trắng sao cho vừa khử được nền mà vẫn giữ được các đặc trưng của nét chữ, nhị phân hóa ảnh, đồng thời cũng thực hiện căn chỉnh độ nghiêng, tăng gường ảnh dùng bộ lọc băng thông thấp, bộ lọc băng thông cao, bộ lọc high boost, Thuật toán Hough.

Tách vùng Ảnh: Ảnh chân dung, ảnh ngón trỏ trái, ảnh ngón trỏ phải.

Tách trường Số CCCD: Dựa vào đặc điểm nổi bật riêng để tách, vùng này chỉ chứa số, màu đỏ, in đậm.

Tách các trường còn lại: Tách lấy các dòng thông tin như phân tích ở 1.5.3 sau đó loại bỏ đi phần tiêu đề của các trường.

Sơ đồ 1.1. Sơ đồ xử lý hệ thống xử lý

Xây dựng hệ thống hệ thống: Trích xuất tự động thông tin từ ảnh thẻ căn cước công dân dùng máy học chuyên sâu, mạng nơron để huấn luyện chương trình xử lý dữ liệu xuất ra tập tin văn bản, sơ đồ 1.1.


Thu nhận ảnh CCCD

Tiền xử lý ký tự

Phân tích ảnh

Mạng nơron nhận dạng ký tự

Hậu xử lý dữ liệu

Lưu trữ văn bản

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT


2.1. Tiền xử lý


Tiền xử lý là tăng khả năng xử lý chính xác như nhận dạng, phân tích,.. có vai trò nâng cao chất lượng ảnh trước khi đem phân tích và nhận dạng. Công việc của bước này thường là khử nhiễu, biến đổi ảnh và nâng cao một số đặc tính quan trọng của ảnh. Phép lọc ảnh được sử dụng nhiều trong xử lý ảnh, xử lý giảm nhiễu, làm nét ảnh, cũng như trong phát hiện cạnh, biên ảnh. Các phép lọc ảnh chủ yếu được sử dụng để ngăn chặn các tần số cao trong hình ảnh, như làm mịn ảnh, phát hiện cạnh trong hình ảnh. Các bộ lọc có thể chia làm 2 loại theo phép toán: Lọc tuyến tính và lọc phi tuyến. Phép lọc tuyến tính là các phép lọc có bản chất là lọc tần số như lọc trung bình, lọc thông thấp, lọc thông cao, lọc đạo hàm. Ngược lại các phép lọc phi tuyến bao gồm lọc trung vị, lọc đồng hình, lọc với k láng giềng gần nhất…vv.

2.1.1. Bộ lọc băng thông thấp

Bộ lọc Gauss rất quan trọng đối với cả lý thuyết và thực tiễn. Chúng ta lọc hình ảnh bằng cách sử dụng một kernel dạng đối xứng xuyên tâm của hàm Gauss 2-D liên tục [8] được xác định như công thức (2.1).



𝟐 𝟐

f(x,y) = 𝟏 exp (− 𝒙 +𝒚 )

𝟐𝝅𝝈𝟐 𝟐𝝈𝟐

(2.1)

Có thể bạn quan tâm!

Xem toàn bộ 96 trang tài liệu này.

Hệ thống trích xuất tự động thông tin từ ảnh căn cước công dân - 3


Các bộ lọc trung bình thường được sử dụng để giảm nhiễu trong một hình ảnh. Tuy nhiên đặc trưng cho nhiễu đó là hàm mật độ xác suất thể hiện phân bố của nhiễu.Ta sử dung hàm phân phối Gauss nhằm làm mờ ảnh và giảm nhiễu. Trong trường hợp một chiều, phân phối Gauss theo công thức (2.2).

𝟏 − 𝒙𝟐

G(x) = 𝒆 𝟐𝝈𝟐

𝟐𝝅𝝈𝟐

(2.2)

Với 𝜎 là độ lệch chuẩn của phân phối, giả sử phân phối này có trung bình là 0. Khi xử lý ta sử dụng hàm phân phối Gauss cho hia chiều, hình thành tích của hai hàm Gauss một chiều x và y bằng công thức (2.3).

2 3 Bộ lọc Gauss băng thông thấp theo công thức 2 4 2 4 Với D u v là khoảng 1

(2.3)

Bộ lọc Gauss băng thông thấp theo công thức (2.4)

2 4 Với D u v là khoảng cách từ điểm u v đến tâm xấp xỉ rời rạc để 2

(2.4)

Với D (u,v) là khoảng cách từ điểm (u,v) đến tâm xấp xỉ rời rạc để hàm liên tục này sử dụng hai tham số tự do là:

- Các kích thước mong muốn của các kernel (như là một mặt nạ lọc N × N);

- Giá trị độ lệch chuẩn của hàm Gauss.

Ứng dụng của bộ lọc Gauss là làm mịn ảnh, nó khác với bộ lọc trung bình ở chổ là: thứ nhất, mức độ làm mịn được điều khiển bởi sự lựa chọn các tiêu chuẩn thông số độ lệch, chứ không phải bởi giá trị tuyệt đối của kích thước hạt nhân,thứ hai hàm Gauss có một thuộc tính khá đặc biệt, đó là biến đổi Fourier của nó là một hàm Gauss, điều đó rất thuận tiện cho việc phân tích miền tần số của bộ lọc[14] theo thuật toán 2.1.

Thuật toán 2.1. Lọc băng thông thấp Gauss

Input: Ảnh cần lọc

Output: Ảnh sau khi lọc khi dung bô lọc thông thấp Gauss

1

2

3

4

5

6

7

8

9

10

11

12

P = size (f, 1) Q = size (f, 2) h = zero (P,Q) Sig = 10;

tạo bộ lọc có kích thước bằng với ảnh

Gán 𝜎

a =1/2 (2.*pi.*sig); b = 2.*sig.* sig; For i =1:p

For j = 1:Q

D = (I – P./2).^2+(j-Q./2).^2; K/c (x,y)-> tâm hình, lấy mũ 2

h( I, j) = a*exp(-D./b); end

end

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 10/02/2023