sử dụng để tính toán cho quá trình phân loại là tính toán của vector mô tả. Sau khi gán kích thước và vị trí của các bộ phận, dữ liệu đào tạo tương ứng được trích xuất cho mọi phần từ tập huấn luyện và đào tạo các mô hình riêng lẻ.
Áp dụng các phương pháp của Felzenszwalb [23] bằng cách tính toán Mi cho các vị trí góc của các phần trong ảnh, trong đó i = 1, ..., N là các chỉ số thành phần tương ứng. Để xây dựng lược đồ, bộ dò tìm thành phần được chạy trên các vị trí khác nhau trong hộp giới hạn của giai đoạn đầu dò tìm. Từ lược đồ của các điểm phù hợp, sẽ tính toán lược đồ cho trung tâm đầu dự kiến theo công thức (1.3) trong đó giá trị cho mỗi mục của lược đồ Mi(x, y) là điểm trùng khớp của hệ thống dò tìm tại vị trí đã dịch (xy, yd) trừ độ lệch biến dạng được xác định bởi công thức (1.4).
Độ biến dạng được mô hình hóa dưới dạng hình elip có trục được di chuyển từ điểm phát hiện (xd, yd) bằng cách dịch chuyển giữa các phần vị trí và góc trung tâm (xci, yci).
𝑴𝒊(𝒙, 𝒚) = 𝒎𝒂𝒙𝒙𝒅,𝒚𝒅(𝒅𝒊(𝒙𝒅, 𝒚𝒅) − 𝝎𝒊(̃𝒙, 𝒚̃)) (1.3)
𝝎𝒊(̃𝒙, 𝒚̃) = √𝜶𝒊̃𝒙𝟐+ 𝜷𝒊𝒚̃𝟐(1.4)
𝒅(𝒙, 𝒚) = 𝒅𝑹 + ∑𝒊 𝑴𝒊(𝒙, 𝒚)
Trong đó: (̃𝒙, 𝒚̃) = (𝒙𝒅− 𝒙𝒄𝒊− 𝒙, 𝒚 − 𝒚𝒄𝒊− 𝒚).
(1.5)
Có thể bạn quan tâm!
- Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video - 1
- Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video - 2
- Ma Trận Trong Cửa Sổ Trượt: (A) Ảnh Ban Đầu; (B) Ma Trận Chuyển Đổi
- Sự Kết Hợp Giữa Các Lớp Tích Chập Và Max-Pooling
- Thuật Toán Theo Vết Đối Tượng Dựa Trên Đặc Trưng Tương Quan
Xem toàn bộ 97 trang tài liệu này.
Sau giai đoạn huấn luyện đầu tiên và một phần mô hình huấn luyện với các tham số (𝛼𝑖, 𝛽𝑖) trong công thức (1.4) được huấn luyện bằng cách chuẩn hóa hồi quy theo chu kỳ (1.6), (1.7) và (1.8).
𝒆(𝜶, 𝜷) = 𝛀 − 𝒕𝒂𝒏𝒉(𝒅(𝜶, 𝜷)), (1.6)
𝑱(𝜶, 𝜷) = 𝒆𝑻𝒆 + 𝒄(𝜶𝟐 + 𝜷𝟐), (1.7)
(𝜶, 𝜷) = 𝒂𝒓𝒈𝒎𝒊𝒏(𝑱(𝜶, 𝜷)). (1.8) Trong công thức (1.6) Ω biểu thị vectơ của các nhãn được chú thích bằng
{𝜔, 𝜔̅} của tất cả dữ liệu huấn luyện trong khi d(α, β) biểu thị vectơ của điểm phát hiện tính toán cho tất cả các mẫu đào tạo theo công thức (1.5). Tham số c
trong công thức (1.7) là trọng số trong hàm tính toán (1.8) và là một tham số được gán trong quá trình huấn luyện.
1.3.2 Theo vết chuyển động của đối tượng
Trong xử lý ảnh ngoài việc phát hiện ra đối tượng còn có theo vết chuyển động. Các phương pháp phát hiện chuyển động trong camera đã được nghiên cứu và phát triển rất nhiều đem lại nhiều thành tựu cho công nghệ xử lý ảnh.
Chúng ta biết kết quả thu nhận từ các camera giám sát hoặc webcam là các frame ảnh. Frame ảnh thu nhận được từ các camera hoặc webcam sẽ được xử lý qua các công đoạn sau: Phát hiện đối tượng chuyển động, đánh dấu các đối tượng vừa phát hiện, phân loại chúng được tiến hành xử lý và được kết quả là đối tượng đang cần theo vết ở vị trí nào, để tiến hành đánh dấu (tô màu, kẻ khung) và từ đó liên tục bám sát đối tượng theo một ngưỡng nhất định như sơ đồ 1.1 [7].
Camera
Chuỗi ảnh
Tiền xử lý ảnh
Theo vết đối tượng
Tách đối tượng
Phát hiện đối tượng
Xử lý theo yêu
Sơ đồ 1.1 Mô tả phát hiện và theo vết đối tượng chuyển động
Có rất nhiều hướng tiếp cận để giải quyết vấn đề trên. Việc lựa chọn phương pháp áp dụng phải dựa vào tình huống cụ thể, đối với trường hợp có ảnh nền không thay đổi việc phát hiện đối tượng chuyển động có thể bằng các phương pháp trừ nền. Các giải thuật này sẽ được trình bày sau đây. Hướng giải quyết là xây dựng mô hình nền, sau đó sử dụng mô hình này cùng với frame ảnh hiện tại để rút ra được các chuyển động xung quanh. Để có thể tiếp cận chúng ta cần phải xây dựng được mô hình nền. Có nhiều phương pháp xây dựng mô hình
nền bởi các tác giả: Anurag Mittal dùng adaptive kernel density estimation được tính bằng [10]. Kết quả tốt tuy nhiên khó khăn về không gian lưu trữ, tính toán phức tạp, tốc độ không đáp ứng thời gian thực. Haritaoglu dùng giải thuật W4, Stauffer sử dụng Mixture of Gaussian [15] để xây dựng mô hình nền… Nhằm phát hiện được các đối tượng chuyển động, xác định xem những đối tượng này có đúng là những đối tượng cần phát hiện hay không. Đây là các khó khăn cần khắc phục.
Việc phát hiện đối tượng có thể được thực hiện bằng các phương pháp máy học. Các phương pháp này có thể kể đến như: mạng nơ-ron, adaptive boosting, cây quyết định, máy vector hỗ trợ. Điểm chung của các phương pháp này đều phải trải qua giai đoạn huấn luyện trên một tập dữ liệu. Tập dữ liệu này phải đủ lớn, bao quát hết được các trạng thái của đối tượng. Sau đó các đặc trưng sẽ được rút trích ra trên bộ dữ liệu huấn luyện này. Việc lựa chọn đặc trưng sử dụng đóng vai trò quan trọng ảnh hưởng đến hiệu quả của các phương pháp máy học. Một số đặc trưng thường được sử dụng như: đặc trưng về màu sắc, đặc trưng về góc cạnh, đặc trưng histogram… Sau khi đã có được đặc trưng, chúng tôi sẽ đánh nhãn lớp cụ thể cho các đặc trưng đó để sử dụng trong việc huấn luyện. Trong quá trình huấn luyện, các phương pháp máy học sẽ sinh ra một hàm để ánh xạ những đặc trưng đầu vào tương ứng với nhãn lớp cụ thể. Sau khi đã huấn luyện xong thì các phương pháp máy học trên sẽ được dùng để phân lớp cho những đặc trưng mới. Đặc điểm của phương pháp này là độ chính xác cao. Tuy nhiên nó gặp phải khó khăn trong việc thu thập dữ liệu huấn luyện ban đầu, tốn thời gian và chi phí cho quá trình học máy.
Đầu vào của bài toán theo dõi và giám sát đối tượng chuyển động là các khung hình video. Qua quá trình xử lý phát hiện đối tượng chuyển động sẽ đưa ra các đối tượng chuyển động. Các đối tượng được phát hiện sẽ qua quá trình phân lớp đối tượng để xem thuộc lớp nào, sự vật nào. Và cuối cùng là quá trình xử lý để theo dõi đối tượng đó là việc tìm ra đường chuyển động của đối tượng, dự đoán chuyển động, xử lý nhập nhằng trong chuyển động...[1].
Khối phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên trong hệ thống giám sát thông minh bằng hình ảnh. Vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo. Chính vì thế nó ảnh hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát thông minh.
Phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống. Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống.
Khối xử lý theo vết đối tượng là khối xử lý không thể thiếu trong hệ thống giám sát thông minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp đến đầu ra của toàn bộ hệ thống. Do đó giải quyết tốt vấn đề theo vết đối tượng sẽ đưa lại tính chính xác và độ tin cậy cho hệ thống giám sát.
Việc xử lý của hệ thống giám sát thông minh bằng hình ảnh là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán sau:
Bài toán 1: Phát hiện các đối tượng chuyển động là bước cơ bản đầu tiên trong bài toán phân tích hình ảnh video, công việc này khái quát lại đó là việc tách các các đối tượng chuyển động từ những hình ảnh nền của các đối tượng đó. Phương pháp thường được sử dụng trong bài toán này đó là: phương pháp trừ ảnh nền, các phương pháp dựa trên thống kê, phương pháp chênh lệch tạm thời và các phương pháp dựa trên luồng thị giác.
Bài toán 2: Phân lớp đối tượng là công việc phân loại ra các lớp đối tượng đã được tìm ra theo các lớp đã được định nghĩa trước như: lớp người, lớp phương tiện, lớp động vật,… Đây là bước cần thiết để có thể tiếp tục phân tích các hoạt động của chúng. Hiện tại có hai hướng chính tiếp cận để giải quyết bài toán này đó là: hướng tiếp cận dựa trên hình dáng của các vết và hướng tiếp cận dựa trên chuyển động của các đối tượng. Hướng tiếp cận dựa trên hình dáng của đối tượng hoàn toàn dựa vào các tính chất 2D của các
vết tìm được, trong khi đó hương tiếp cận dựa trên chuyển động của đối tượng dựa trên các tính chất chuyển động của đối tượng theo thời gian.
Bài toán 3: Theo dõi đối tượng đó là công việc đưa ra một chuỗi các hành vi của đối tượng chuyển động trong một thời gian từ các khung hình thu được. Thủ tục này đưa ra các thông tin về đối tượng được theo dõi như đường đi của đối tượng, tốc độ hay hướng chuyển động của đối tượng. Từ đó có thể dự đoán được hành động của các đối tượng và mô tả được hành động của chúng. Đầu vào của quá trình này đó là các đầu ra các quá trình tìm và phân lớp đối tượng chuyển động.
Các bài toán này không những được nghiên cứu và áp dụng trong các hệ thống giám sát mà còn được áp dụng trong các lĩnh vực khác như: thực tại ảo, nén hình ảnh, giao diện người máy, biên tập video và cơ sở dữ liệu đa phương tiện… là các hướng tiếp cận phát triển công nghệ đa phương tiện trong tương lai.
Đề xuất hướng giải quyết
Việc điểm danh học sinh hàng ngày ở các trường học thường gặp rất nhiều khó khăn, tuy nhiều trường đã có những biện pháp, những cách thức cũng như dùng nhiều công cụ, phương tiện kỹ thuật hỗ trợ, nhưng vẫn gặp không ít khó khăn và trở ngại:
- Trong các lớp học, thời điểm đầu giờ, khi chưa có giáo viên vào lớp, học sinh thường di chuyển liên tục nên sẽ rất khó khăn nếu điểm danh vào thời điểm này.
- Nếu dùng thiết bị quét vân tay, cho học sinh quét vân tay mỗi khi vào lớp sẽ rất lâu và dễ gây ùn tắc vì từng học sinh quét qua thiết bị sẽ mất nhiều thời gian. Do đó dùng thiết bị quét vân tay sẽ không hiệu quả về mặt thời gian.
- Dùng thiết bị camera và kết hợp điểm danh học sinh bằng nhận dạng khuôn mặt cũng gặp khó khăn vì phải gắn camera trên cao, nên sẽ khó nhận
dạng mặt của hết các bạn trong lớp, còn nếu để thấp thì chỉ có thể thấy học sinh ở dãy bàn đầu tiên.
Do camera thường được gắn ở trên cao, nên đếm đầu học sinh và chiếu lên sơ đồ lớp để điểm danh là một phương án khả thi nhất trong bài toán điểm danh này. Để thực hiện việc phát hiện vùng đầu học sinh, đếm số lượng, rồi chiếu lên sơ đồ để điểm danh chúng tôi cần phải giải quyết bốn bài toán sau:
- Bài toán thứ nhất: Xác định thời điểm bắt đầu của hệ thống điểm danh học sinh? Thời điểm đầu giờ, học sinh di chuyển nhiều nên sẽ rất khó làm việc này. Khi giáo viên vào lớp là lúc học sinh ổn định, chính là thời điểm tốt nhất để xác định vùng đầu của học sinh. Tóm lại, thời điểm tốt nhất để bắt đầu xác định vùng đầu là lúc có một dãy các frame ảnh mà có ít sự thay đổi nhất.
- Bài toán thứ hai: Tuy học sinh ngồi một chỗ trong lớp học, nhưng các em học sinh thường hay quay lên, quay xuống, nghiêng trái, xoay phải, nhất là vùng đầu của các em thường hay di chuyển nên sẽ rất khó để điểm danh. Do đó cần phải theo vết chuyển động của vùng đầu để tìm vị trí tâm trung bình vùng đầu của từng học sinh trong lớp học.
- Bài toán thứ ba: Xác định vị trí tâm trung bình vùng đầu của từng học sinh trong lớp học. Kết quả có thể là một tập gồm nhiều vị trí khác nhau của từng học sinh.
- Bài toán thứ tư: Sau khi có được tập hợp dữ liệu là vị trí vùng đầu trung bình của từng học sinh trong lớp học, chúng ta sẽ chiếu lên sơ đồ lớp để điểm danh học sinh.
CƠ SỞ LÝ THUYẾT
Mạng nơ-ron nhân tạo
Mạng thần kinh nhân tạo mô phỏng mạng thần kinh và cách làm việc của các nơ-ron thần kinh trong bộ não con người nhằm ứng dụng giải quyết các bài toán phức tạp do hai nhà nghiên cứu McCulloch và Pitts xây dựng và lần đầu tiên giới thiệu vào năm 1943. Sau đó, mô hình này được hoàn thiện bởi những nhà khoa học khác và được ứng dụng nhiều trong các lĩnh vực kỹ thuật. Mạng thần kinh nhân tạo truyền thẳng nhiều lớp (Multilayer Perceptron – MLP) thường được sử dụng phổ biến để giải quyết các bài toàn phi tuyến, phức tạp, khi mà mối quan hệ giữa các quá trình không dễ thiết lập một cách tường minh [5].
Mạng nơ-ron nhân tạo có khả năng “học" và xử lý song song. Nó có thể tính toán và dự báo giá trị của biến đầu ra với một tập hợp các thông tin của biến đầu vào được cho trước. Mô hình mạng thần kinh nhân tạo sẽ được “huấn luyện” để có thể “học” từ những thông tin quá khứ. Từ đó, mạng có thể đưa ra kết quả dự báo dựa trên những gì đã được học. Quá trình này sẽ được tiến hành bằng các thuật toán huấn luyện mạng, phổ biến là thuật toán lan truyền ngược. Mạng thần kinh nhân tạo truyền thẳng nhiều lớp được sắp xếp gồm: lớp đầu vào, các lớp ẩn và lớp đầu ra. Lớp đầu vào sẽ là nơi nhận các tín hiệu đầu vào. Các tín hiệu này có thể là một hằng số, dữ liệu thô hoặc cũng có thể là đầu ra của một mạng nơ-ron khác. Các giá trị này sẽ tác động đến các nơ-ron lớp ẩn thông qua bộ trọng số 𝑤𝑖𝑗. Tại lớp ẩn, tín hiệu của lớp vào sẽ được xử lý bằng một hàm kích hoạt, thường là hàm Sigmoid hoặc hàm Tan-hyperbolic sau đó tín hiệu sẽ được truyền qua lớp ra thông qua bộ trọng số 𝑤𝑗𝑘. Các lớp ẩn liên kết giữa lớp đầu vào và lớp đầu ra, điều này làm cho mạng thần kinh nhân tạo có khả năng mô phỏng mối tương quan phi tuyến tốt hơn.
Bias
Bias
0 0
Teta_J0
Teta_K0
1
w10 = J0
wJ0 = K0
1
1
i
wij
j
wjk
k
n
WeightIJ
m
WeightJK
l
TÍN HIỆU ĐẦU VÀO
TÍN HIỆU ĐẦU RA
x1 y1
xj yk
xn yl
LỚP ĐẦU VÀO LỚP ẤN LỚP ĐẦU RA
Hình 2.1 Cấu trúc của mạng thần kinh nhân tạo
Có hai vấn đề cần học đối với mỗi mạng nơ-ron nhân tạo đó là học tham số và học cấu trúc. Học tham số là việc thay đổi trọng số của các liên kết giữa các nơ- ron trong một mạng, còn học cấu trúc là việc điều chỉnh cấu trúc của mạng bao gồm thay đổi số lớp nơ-ron, số nơ-ron của mỗi lớp và cách liên kết giữa chúng.
Có ba loại phương pháp học: học có giám sát, học tăng cường và học không có giám sát.
Học có giám sát: mạng được huấn luyện bằng cách cung cấp cho nó các cặp mẫu đầu vào và các đầu ra mong muốn. Các cặp được cung cấp bởi hệ thống trên đó mạng hoạt động. Sự khác biệt giữa các đầu ra thực tế so với các đầu ra mong muốn được thuật toán sử dụng để thích ứng các trọng số trong mạng. Điều này thường được đưa ra như một bài toán xấp xỉ hàm số - cho dữ liệu huấn luyện bao gồm các cặp mẫu đầu vào x, và một đích tương ứng t, mục đích là tìm ra hàm f(x) thoả mãn tất cả các mẫu học đầu vào.