2.4.4 Tổng kết 49
XÂY DỰNG THUẬT TOÁN 50
Phát hiện vùng đầu học sinh trong ảnh 51
Theo vết chuyển động 57
Tính vị trí tâm trung bình vùng đầu từng học sinh 60
Điểm danh học sinh trong lớp học 61
Có thể bạn quan tâm!
- Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video - 1
- Mô Tả Phát Hiện Và Theo Vết Đối Tượng Chuyển Động
- Ma Trận Trong Cửa Sổ Trượt: (A) Ảnh Ban Đầu; (B) Ma Trận Chuyển Đổi
- Sự Kết Hợp Giữa Các Lớp Tích Chập Và Max-Pooling
Xem toàn bộ 97 trang tài liệu này.
KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 64
Môi trường thực nghiệm 64
Xây dựng dữ liệu 64
Kết quả 69
4.3.1 Kết quả chi tiết 70
4.3.2 Các trường hợp sai trong bài toán điểm danh học sinh 78
Đánh giá 84
4.4.1 Ưu điểm 85
4.4.2 Nhược điểm 85
Hướng phát triển 86
TÀI LIỆU THAM KHẢO 88
LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cám ơn chân thành đến quý thầy cô Trường Đại học Ngoại ngữ-Tin học Thành phố Hồ Chí Minh, Quý thầy cô đã tham gia giảng dạy cho lớp Cao học Công nghệ thông tin khóa 1, những người đã nhiệt tình cung cấp kiến thức, chỉ dạy tận tình những bài học quý báu trong suốt thời gian tôi học tập tại Trường.
Tôi xin chân thành cám ơn sâu sắc đến PGS.TS. Phạm Thế Bảo, mặc dù rất bận rộn với vô số công việc trong vai trò Trưởng bộ môn Ứng dụng tin học Trường Đại học Khoa học tự nhiên cũng như trong công tác giảng dạy nhưng Thầy đã hướng dẫn rất tận tình, chu đáo, cung cấp nhiều kiến thức chuyên môn kịp thời và bổ ích trong suốt thời gian tôi thực hiện luận văn này.
Tôi cũng xin cảm ơn Quý thầy cô, anh chị cán bộ, nhân viên thuộc Ban Khoa học-Hợp tác và Đào tạo sau đại học Trường Đại học Ngoại ngữ-Tin học Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng tôi hoàn thành khóa học.
Mặc dù đã cố gắng để hoàn thành tốt luận văn nhưng chắc chắn sẽ không tránh khỏi thiếu sót, rất mong nhận được sự chỉ bảo của Quý thầy cô.
Thành phố Hồ Chí Minh, tháng năm 2019
Học viên thực hiện
Lê Thái Tú Tiền
TỔNG QUAN
Đặt vấn đề
Hiện nay đã có rất nhiều ứng dụng về xử lý video trong việc giám sát đối tượng như: con người, phương tiện giao thông, hàng hóa, động vật, thực vật… ; các ứng dụng về việc đếm số lượt xe trên đường, thống kê các loại xe, hoặc hàng hóa; những ứng dụng về thống kê số người ra vào một cửa hàng, siêu thị, bệnh viện…[6] đã được nhiều nhóm nghiên cứu thực hiện và triển khai.
Trên thế giới đã có nhiều ứng dụng nhận dạng, quản lý, giám sát hoặc thống kê rất đa dạng. Tại một số trường cao đẳng và đại học nước ngoài, các lớp học thường có số lượng sinh viên tham gia đông đến nỗi khó có thể kiểm soát liệu sinh viên có thực sự tham gia lớp học hay không. Nếu dùng cách điểm danh truyền thống bằng cách kí vào danh sách thì có khả năng sinh viên sẽ kí hộ lẫn nhau, điểm danh tên từng người lại mất thời gian [4][17]. Tuy nhiên, công nghệ nhận dạng khuôn mặt nay đã có thể giải quyết vấn đề này. Để vào lớp và được điểm danh, sinh viên sẽ phải quét nhận dạng khuôn mặt để khớp với dữ liệu đã lưu của trường. Vì vậy trừ khi bạn có anh em sinh đôi, nếu không giờ trốn học của bạn sẽ không còn là điều dễ dàng nữa. Trường Quản trị ESG ở Pari đang thử nghiệm phần mềm nhận diện khuôn mặt tại hai lớp học trực tuyến để đảm bảo các sinh viên tham gia không xao lãng trong giờ học. Trường sử dụng phần mềm có tên là Nestor, webcam trên máy tính cá nhân của mỗi sinh viên sẽ phân tích chuyển động mắt và biểu hiện khuôn mặt để tìm ra liệu sinh viên đó có đang tập trung vào các video bài giảng hay không. Sau đó, phần mềm này sẽ tự động tạo ra các câu đố trắc nghiệm về nội dung bài giảng để kiểm tra sự tập trung của người học. Công nghệ này cũng vô cùng hữu dụng với giáo viên, để có thể điều chỉnh bài giảng dựa trên phần nào học viên ít chú ý nhất [11].
Tại Việt Nam đa số các ứng dụng xử lý video thường tập trung vào giám sát các đối tượng con người trong việc phòng chống tội phạm, phát hiện hành vi
khả nghi của đối tượng; hoặc là các ứng dụng thống kê xe qua trạm thu phí, đếm số lượt ra vào của các loại xe trong một bãi giữ xe, hoặc giám sát, dự báo và phỏng đoán tình hình kẹt xe tại các giao lộ dựa trên lưu lượng xe đông hoặc số lượng xe được thống kê của các ứng dụng [7].… Việc thực hiện điểm danh học sinh tại các trường học hiện chưa được thấy triển khai ở Việt Nam, mặc dù có rất nhiều trường được trang bị hệ thống camera rất hiện đại với số lượng từ 5
- 10 camera/trường, thậm chí có trường bố trí hơn 30 camera trong phạm vi toàn trường (các trường THCS trên địa bàn Quận 6, Quận 11, Quận Bình Tân và nhiều quận khác cũng được trang bị rất nhiều camera như vậy). Tuy nhiên hệ thống này chủ yếu chỉ để giám thị, giáo viên quan sát, xem lại khi có sự cố, hoàn toàn chưa có xử lý, thống kê và đếm học sinh một cách tự động.
Do đó việc thực hiện đề tài điểm danh học sinh trong một lớp học là một nhu cầu theo tôi là cần thiết trong các trường tiểu học, trung học cơ sở, trung học phổ thông cũng như một số trường trung cấp có nhu cầu giám sát và quản lý học sinh.
Thực hiện đề tài này sẽ giúp tôi có thêm cơ hội tìm hiểu, học tập và nghiên cứu thêm nhiều kiến thức về công nghệ thông tin nói chung và kiến thức về xử lý ảnh nói riêng. Để xây dựng hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video cần tìm hiểu nhiều tài liệu và kiến thức liên quan về trí tuệ nhân tạo, mạng nơ-ron, kiến thức về học máy và nhất là bài toán về nhận dạng và theo vết chuyển động trong video. Thực hiện đề tài này cũng là cơ hội kết hợp những kiến thức đã được học trong chương trình đào tạo ứng dụng vào thực tiễn.
Phạm vi nghiên cứu của đề tài bao gồm nghiên cứu nhận dạng đối tượng, chủ yếu nhận dạng đặt trưng vùng đầu, sau đó theo vết chuyển động để xác định số lượng đối tượng vùng đầu học sinh có trong phòng học. Một số phương pháp có thể sử dụng nghiên cứu thực hiện:
- Phát hiện đối tượng chuyển động (sử dụng các phương pháp):
+ Optical flow
+ GMM (Gaussian Mixture Model)
+ Trừ ảnh
+ Phương pháp Otsu (phân vùng ảnh)
- Theo vết chuyển động (có thể dùng phương pháp):
+ Camshift
+ Particle filter
Đề tài được thực hiện tại các trường học cấp 2, cấp 3 hoặc các trường Trung cấp có lớp học bố trí học sinh ngồi theo sơ đồ.
Giới thiệu bài toán
Tại Trường Trung cấp Thủy sản (địa chỉ: 511 An Dương Vương, Phường An Lạc A, Quận Bình Tân, Tp.HCM) có gần 900 học sinh của 27 lớp thuộc quản lý của sáu khoa của Trường, trong đó gần 90% học sinh theo học nghề là các đối tượng học sinh tốt nghiệp THCS (tuổi từ 15 trở lên), các em đa số còn rất nhỏ, hầu hết phụ huynh đều rất lo lắng cho con em họ có đi học đầy đủ, đúng giờ hay không, có bỏ học, trốn tiết hay không. Thầy Cô giáo chủ nhiệm, bộ phận giám thị cũng có nhu cầu điểm danh học sinh từng lớp theo buổi và theo tiết để biết học sinh có duy trì sĩ số hay không; phát hiện kịp thời các trường hợp nghỉ, bỏ học. Do đó, ngoài việc giảng dạy thì công tác quản lý các em là một yêu cầu hết sức cần thiết và rất quan trọng với nhà trường. Ban giám hiệu và Phòng công tác học sinh giao cho các giám thị phối hợp với giáo viên đứng lớp thường xuyên điểm danh đầu giờ, giữa giờ và cuối giờ để phát hiện các em đi trễ, bỏ học hoặc nghỉ học để kịp thời thông báo cho Phụ huynh ngay trong buổi học hoặc chậm nhất là sau khi kết thúc giờ học.
Với số lượng lớp học và học sinh đông như vậy công việc điểm danh hàng ngày tốn rất nhiều thời gian và nhân lực của Trường, thậm chí còn ảnh hưởng
đến giờ lên lớp của các giáo viên bộ môn vì giám thị phải thường xuyên vào lớp điểm danh từng em và thống kê ngay lập tức để có số lượng chính xác nhất.
Xuất phát từ thực tế trên, việc lắp đặt camera trong các phòng học để điểm danh học sinh có mặt trong lớp bằng hệ thống tự động sẽ giúp giảm tải công việc cho các giám thị, giảm nhân lực cho nhà trường, tăng hiệu quả giám sát học sinh. Đó là lý do để tôi thực hiện đề tài này.
Đề tài nghiên cứu được thực hiện trên tập dữ liệu là video quay tại các lớp học của Trường Trung cấp Thủy sản. Những video này được quay bằng các camera lắp cố định trong những lớp học.
Các hướng tiếp cận
1.3.1 Xác định vị trí vùng đầu trong ảnh
Nhận dạng người và đếm số lượng người trong môi trường thực tế là một thách thức đối với việc xử lý video. Thực tế theo tìm hiểu thì cũng đã có rất nhiều các ứng dụng đếm người dùng. Ví dụ như: Tự động đếm hành khách lên xuống xe buýt, xe lửa, tàu điện hoặc hệ thống giao thông công cộng khác [18].
Việc nhận dạng các học sinh trong một lớp học phức tạp hơn do nhiều yếu tố như: ánh sáng từng thời điểm trong ngày khác nhau (do mây), không gian lớp học (quá rộng hoặc quá hẹp), số lượng học sinh quá đông hay các em ngồi không theo thứ tự cao thấp, tức là học sinh cao ngồi dưới, học sinh thấp ngồi trên hoặc những học sinh có thân hình to (mập) ngồi trước những học sinh có dáng nhỏ (gầy). Do đó việc nhận dạng và điểm danh học sinh khó có thể dùng phương pháp nhận dạng khuôn mặt, nhưng nếu dùng camera để trên cao hướng xuống lớp học và nhận dạng vùng đầu của các em học sinh thì sẽ khả thi hơn rất nhiều.
Thông thường việc nhận dạng đầu thường dùng phương pháp ước lượng di chuyển của người đi bộ dựa trên phân loại các lớp kết hợp với HOG/SVM theo đề xuất của Dalal và Triggs [20]. Phương pháp phát hiện đầu dựa trên các phép tính toán rời rạc và các lớp LPB. Nhận dạng vùng đầu tích hợp thời gian thực
bằng cách sử dụng mô hình ẩn của Markov cho kết quả khá tốt. Hình 1.1 mô tả cách thức phát hiện đối tượng theo thời gian thực được xây dựng theo mô hình phân cấp, phát hiện đối tượng theo từng vùng ảnh liên tục [16].
Phát hiện
Phân loại định hướng
Ước tính liên tục
t
t
+ 1
Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời gian thực [16]
Mô hình này được chia làm hai giai đoạn:
- Giai đoạn đầu tiên bao gồm một lớp HOG/SVM đơn giản sử dụng mô hình chỉ một đầu ở độ phân giải thấp. Hệ thống dò tìm này tương tự như thiết bị được Dalal và Trigg đề xuất. Tập dữ liệu bao gồm khoảng 10.000 hình ảnh được huấn luyện và chú thích thủ công để tạo ra các mẫu ngẫu nhiên tốt nhất. Từ những mẫu sai về khung ảnh không có người đi bộ, hệ thống sẽ được huấn luyện lại để hạn chế nhận dạng sai so với giai đoạn huấn luyện ban đầu. Sử dụng một bộ kiểm tra độc lập để đạt được ngưỡng phát hiện tốt nhất có thể.
- Giai đoạn thứ hai sử dụng một mô hình dựa trên một phần mà mô hình được đào tạo phát hiện của giai đoạn đầu tiên. Mặc dù người đi bộ có thể thay đổi rất nhiều về tư thế và ngoại hình, người đứng đầu chỉ thay đổi chút ít về
ngoại hình. Tuy nhiên, kết quả phát hiện lại tốt hơn so với hệ thống phát hiện đa mô hình.
Phương pháp tính toán entropy H(Ω) của gradient ảnh cho cả hướng và độ lớn của tập huấn luyện hoàn chỉnh Ω theo công thức (1.1). Trung bình IG(ω) được tính bằng cách lấy trung bình từng khối theo chiều kim đồng hồ và các đặc điểm độ lớn ψ (công thức 1.2).
𝑯(𝛀) = - ∑𝝍 𝝐 𝛀 𝑷(𝝍) ∗ 𝒍𝒅(𝑷(𝝍))
(1.1)
IG(𝛚) = 𝑯(𝛀) − 𝑷(𝛚)𝑯(𝛀|𝛚) − 𝑷(𝝎̅)𝑯(𝜴|𝝎̅) (1.2) Hình 1.2 cho thấy độ lệch thông tin theo chiều kim đồng hồ của các mẫu dương so với các mẫu âm và so sánh với các kết quả huấn luyện có được sau
giai đoạn đầu tiên.
Hình 1.2 So sánh các kết quả của entropy của 2 giai đoạn [16]
Lưu ý rằng các entropy của các mẫu âm được chọn ngẫu nhiên gần như được phân bố đồng đều trên ảnh trong khi entropy của mẫu dương cho thấy một cấu trúc tương đối đầy đủ tương tự như lúc đầu.
Để khắc phục vấn đề này, hệ thống sẽ tập trung vào các vùng thông tin có liên quan của ảnh, từ đó tạo ra ba cửa sổ có kích thước giống hệt nhau để mật độ thông tin trên mỗi cửa sổ gần bằng nhau và lớn nhất có thể. Các cửa sổ được