Thuật Toán Theo Vết Đối Tượng Dựa Trên Đặc Trưng Tương Quan

Từ một tập các vùng ảnh đồng màu S, đối tượng cần tìm được xác định như một tập con 𝑺∗ theo công thức (2.15).

𝑺∗ = 𝒂𝒓𝒈 𝒎𝒂𝒙𝒛∈𝒔𝝆(𝒁|𝑶) (2.15)

Với

𝝆(𝒁|𝑶) = 𝝆(𝑪𝒛|𝑶)𝝆(𝑺𝒛|𝑶) (2.16)

Tập 𝑺∗ trong công thức (2.15) có thể được xác định bằng phương pháp vét cạn với việc tìm tất cả các tập con S. Tuy nhiên phương pháp này sẽ mất nhiều thời gian tính toán, độ phức tạp tính toán của nó là 𝑶(𝟐|𝑺|) với |𝑺| là tổng số thành phần của S. Dùng thuật toán thêm bớt các vùng trong [19] để giảm thời gian tính toán. Thuật toán này hiệu quả khi ta thêm một số điều kiện lọc như: loại bỏ vùng đồng màu lớn (đa số là các vùng nền) bằng việc thống kê tiết diện đối tượng so với khung hình. Thuật toán này được mô tả như sau.

Có thể bạn quan tâm!

Xem toàn bộ 97 trang tài liệu này.

Thuật toán 1.1: Tìm đối tượng bằng cách thêm bớt vùng

𝑺′ {𝑆 ∈ 𝑺|𝝆(𝑪𝑺|𝑶) ≥ 𝝉}

𝑺∗ 𝒂𝒓𝒈𝑆∈𝑺′ max 𝝆(𝑪𝑺|𝑶)

Temp Đúng

WHILE (temp) do

𝑆𝑎 {𝑆𝑖 ∈ {𝑺′ − 𝑺∗}, với 𝑺∗ ∪ 𝑆𝑖 là một vùng liên thông}

𝑆+ 𝑎𝑟𝑔𝑚𝑎𝑥𝑆∈𝑺𝒂𝜌({𝑆 ∪ 𝑺∗}|𝑶)

𝑆𝑟 {𝑆𝑖 ∈ 𝑺∗, 𝑣ớ𝑖 {𝑺∗ − 𝑆𝑖} là một vùng liên thông}

𝑆− 𝑎𝑟𝑔𝑚𝑎𝑥𝑆∈𝑺𝒓𝜌({𝑺∗ − 𝑆}|𝑶)

IF 𝜌({𝑆+ ∪ 𝑺∗}|𝑶) ≥ 𝜌({𝑆− ∪ 𝑺∗}|𝑶) and 𝜌({𝑆 ∪ 𝑺∗}|𝑶) >

𝜌(𝑺∗|𝑶) THEN

𝑆∗ 𝑺∗ ∪ 𝑆+

ELSEIF 𝜌({𝑺∗ − 𝑆−}|𝑶) > 𝜌(𝑺∗|𝑶) then

𝑆∗ 𝑺∗ ∪ 𝑆−

ELSE

Temp Sai

ENDIF ENDWHILE

Trong thuật toán 2, ở mỗi bước lặp khi thêm hoặc bớt một vùng 𝑆𝑖 vào 𝑺∗ thì tính kết hợp của tập {𝑺∗ ∪ 𝑆𝑖} và {𝑺∗ − 𝑆𝑖} được kiểm tra. Một tập các thành

phần được xem là kết nối nếu như tất cả các thành phần của nó đều thuộc về một vùng ảnh chung.

Vùng ảnh được tạo ra từ các thành phần 𝑺∗ được xem như là đối tượng cần tìm nếu điều kiện sau đây được thõa mãn

𝝆(𝑺∗|𝑶) ≥ 𝝉𝒄 (2.17)

Trong công thức (2.17) tham số 𝝉𝒄 là một ngưỡng được xác định trước bằng việc học từ tập dữ liệu mẫu.

Theo vết chuyển động dựa trên tương quan

2.4.1 Giới thiệu

Có ít thay đổi giữa hai khung hình liên tiếp (do khoảng thời gian giữa hai khung hình nhỏ, ít hơn 0.04 giây) và bối cảnh xung quanh đối tượng hầu như không thay đổi, ngay cả khi đối tượng bị biến dạng nặng nề. Vì thế, điều quan trọng là mô hình hóa mối quan hệ thời gian của sự xuất hiện vật thể đang được theo dõi cùng với bối cảnh của chúng [13].

Thuật toán được phát triển theo phương pháp “Kernel Ridge Regression” (kết hợp Ridge Regresion với thủ thuật Kernel) dựa trên những bộ lọc tương quan để mã hóa mẫu diện mạo bao gồm vật thể đối tượng và bối cảnh xung quanh của nó. Các mẫu thích ứng được xây dựng bởi các tính năng được đề xuất có khả năng chống bóp méo, chuyển động nhanh và biến dạng lớn. Thuật toán mô hình hóa một cách hiệu quả thông tin bối cảnh liên quan đến thời gian, bằng việc sử dụng những bộ lọc tương quan trong việc theo dõi dài hạn [14].

Điều quan trọng tiếp theo là nâng cấp mô đun phát hiện của việc theo dõi dài hạn để ước tính sự thay đổi quy mô và phát hiện lại vật thể (tái phát hiện) trong trường hợp đối tượng theo dõi thất bại khi nó bị biến dạng hay ngoài tầm xảy ra.

Để ước lượng sự thay đổi quy mô hay kích thước, thuật toán huấn luyện một bộ lọc tương quan khác cho một mục tiêu từ khung đáng tin cậy nhất. Phương pháp này sử dụng đặc trưng HOG để xây dựng một mô hình dạng kim tự tháp chứa các thông tin của đối tượng theo nhiều kích thước và tìm kiếm một kích thước tối ưu một cách toàn diện [19].

Để phát hiện lại vật thể, thuật toán không áp dụng bộ lọc tương quan mà thay vào đó là huấn luyện một trình phát hiện trực tuyến bằng cách sử dụng thuật toán phân loại không phân cấp để phát hiện lại các vật thể phát hiện sai.

Thuật toán giải quyết hai vấn để của phương pháp “theo vết đối tượng dựa trên tương quan”. Vấn đề đầu tiên là tình trạng khó xử giữa tính ổn định và tính linh động. Nếu như trình phân loại được huấn luyện với những mẫu có tính ổn định cao hơn thì thuật toán sẽ giải quyết được với các đối tượng có sự biến dạng và dễ bị mất bằng các mô hình cập nhật những mẫu bị nhiễu. Tuy nhiên, phương pháp này không hoạt động tốt trong việc theo dõi dài hạn. Mặc khác, các trình phân loại trực tuyến có tính thích nghi cao dễ dẫn đến việc bị bỏ qua đối tượng trong trường hợp các bản cập nhật bị nhiễu.

Thuật toán của theo vết tương quan giải quyết hiệu quả vấn đề trên bằng cách mô hình hóa sự tương quan ngữ cảnh thời gian và hình dạng bên ngoài của

vật thể bằng hai mô hình hồi quy dựa trên những bộ lọc tương quan với những tỷ lệ tích nghi khác nhau.

Trình hồi quy ngữ cảnh thời gian này được dùng để ngăn chặn lại sự biến dạng và bóp méo của đối tượng cần theo dõi.

Trình hồi quy ngữ cảnh thời gian này được điều chỉnh một cách thận trọng và được xây dựng dựa trên một mô hình có hình dáng như kim tự tháp dùng cho việc ước lượng quy mô (kích thước) của đối tượng.

Do đó, phương pháp theo vết tương quan này thích nghi một cách hiệu quả với việc thay đổi hình dạng và giảm nguy cơ bỏ qua đối tượng.

Một vấn đề khác với bộ phân loại trực tuyến là tính không rõ ràng của mẫu, mà ở đó những mẫu tiêu cực là cần thiết để huấn luyện cho bộ phân loại và những nhãn tên nhị phân ít hiệu quả hơn để diễn đạt mối quan hệ không gian giữa các mẫu. Bằng việc chuyển quá trình tương quan thành một tích trong miền Fourier, mô hình hồi quy xem xét tất cả dịch chuyển tròn của những đặc tính đầu vào do đó giảm bớt vấn đề về lấy mẫu.

Đóng góp quan trọng của phương pháp này là giải quyết vấn đề của theo dõi lâu dài bằng việc phân tích một cách hiệu quả nhiệm vụ theo dõi thành dự đoán sự chuyển đổi và sự co dãn kích thước của những vật thể mục tiêu kết hợp với một trình tái phát hiện. Sự dự đoán biến dạng phụ thuộc vào mô hình hồi quy ngữ cảnh thời gian chống lại sự biến dạng, biến thể chiếu sáng, nền lộn xộn và chuyển động đột ngột. Được kết hợp với sự biến dạng được dự đoán, một kim tự tháp mục tiêu được xây dựng để xác định sự thay đổi kích thước bằng việc sử dụng một mô hình hồi quy mục tiêu.

2.4.2 Những vấn đề liên quan đến thuật toán

Những bộ lọc tương quan được dùng rộng rãi trong nhiều ứng dụng như là phát hiện vật thể và nhận dạng đối tượng. Bởi vì phép toán được chuyển đổi dễ dàng thành miền tần số Fourier bởi phép nhân từng phần tử, những bộ lọc tương quan đã thu hút sự chú ý đáng kể gần đây để theo dõi hình dạng bên ngoài của đối tượng do hiệu quả tính toán của nó. Những bộ lọc này gồm có:

- Bolme và những cộng sự đã đề xuất để tìm hiểu hiểu bộ lọc MOSSE để theo dõi ngoại thể trên những hình ảnh gam màu xám, mà ở đó, bộ lọc đã được huấn luyện mã hóa ngoại thể của mục tiêu cùng với những cập nhật, trên mỗi khung hình. Bằng việc sử dụng những bộ lọc tương quan, trình theo dõi MOSSE có hiệu quả về mặt tính toán với tốc độ đạt đến vài trăm khung hình mỗi giây[14].

Heriques và những cộng sự đề xuất sử dụng những bộ lọc tương quan trong một không gian nhân với phương pháp CSK đạt được tốc độ cao nhất trong lần đánh giá gần đây. Phương pháp CSK xây dựng trên những đặc trưng tăng cường độ chiếu sáng và được cải thiện bằng việc sử dụng những đặc trưng HOG trên thuật toán theo dõi KCF [14].

Danelljan và những cộng sự khám phá ra những thuộc tính màu sắc của đối tượng và tìm hiểu một bộ lọc tương quan thích nghi bằng việc kết hợp những đối tượng đa kênh vào một không gian nhân Gausian [14].

Zhang và những cộng sự kết hợp thông tin bối cảnh vào việc học của bộ lọc, và mô hình hóa sự thay đổi kích thước dựa trên phản hồi tương quan liên tục [14].

Trình theo dõi DSST học những bộ lọc tương quan nhiều kích thước tương thích bằng việc sử dụng đặc trưng HOG để xử lý sự thay đổi kích thước của những đối tượng.

Tuy nhiên, những phương pháp này không giải quyết được những vấn đề rất quan trọng liên quan đến cập nhật mô hình trực tuyến. Do đó, các trình tương quan này dễ bị biến mất và ít hiệu quả hơn trong việc xử lý các đối tượng bị biến dạng và ngoài tầm.

Để giảm thiểu tình trạng khó xử giữa tính ổn định và tính linh động liên quan đến cập nhật mô hình trực tuyến trong việc theo dõi hình thể, Kalal và những cộng sự đã phân tích việc theo dõi thành ba yếu tố gồm: theo dõi, học tập và pháp hiện (Tracking, Learning, Detection - TLD) [21]. Mà ở đó việc theo dõi và phát hiện tạo điều kiện dễ dàng cho mỗi bên. Những kết quả từ trình theo

dõi cung cấp thông tin học tập để cập nhật trình phát hiện và trình phát hiện tái tạo lại trình theo dõi khi mà nó thất bại. Cơ chế này được cho là hoạt động tốt cho theo dõi lâu dài.

Zhang và những người khác kết hợp nhiều trình phân loại với những mức độ thích nghi khác nhau và thiết kế một bộ đo entropy để kết hợp tất cả các đầu ra theo dõi.

Thuật toán mang lại một số điểm giống nhau với hai phương pháp này cùng với sự khác nhau đáng kể trong những thành phần theo dõi dựa trên phương pháp Lucas-Kanade mà không hoàn toàn khai thác thông tin ngữ cảnh thời gian. Thuận toán sử dụng một mô hình hồi quy hình chóp để nghiên cứu sự tương quan theo thời gian của ngữ cảnh thay vì một trình phân loại nhị phân (ví dụ trình phân loại SVM trực tuyến). Để giảm thiểu vấn đề về những mẫu bị nhiễu, Hare và những cộng sự xem xét sự phân phối không gian của mẫu bên trong một không gian tìm kiếm và đề xuất để nghiên cứu một đầu ra có cấu trúc giao để dự đoán vị trí của vật thể, phương pháp này đã được chứng minh là hoạt động rất tốt. Bởi vì các toán tử tương quan được tính toán trên miền tần số Fourier và cân nhắc tất cả những vòng tròn dịch chuyển của những đặc trưng đầu vào, bên cạnh đó mô hình hồi quy giúp xử lý một cách hiệu quả việc lấy mẫu cơ bản trong việc theo dõi trực tuyến với một bộ phân loại nhị phân trực tuyến.

Thuật toán theo dõi trực tuyến có thể thích ứng với sự thay đổi đáng kể về ngoại hình mà không bị bị bỏ qua. Chúng chia nhiệm vụ thành dự đoán sự biến dạng về hình dáng và kích thước. Sự biến dạng được dự đoán bằng việc sử dụng sự tương quan của ngoại cảnh theo thời gian và sự dự đoán kích thước được thưc hiện bằng cách học một bộ lọc phân biệt tương quan. Thuật toán bao gồm hai thành phần: theo vết chuyển động tương quan; phát hiện trực tuyến.

2.4.3 Thuật toán theo vết đối tượng dựa trên đặc trưng tương quan

Thuật toán 2.2: thuật toán theo vết

INPUT: Khởi tạo khung giới hạn mục tiêu x0

OUPUT: Trạng thái vật thể được dự đoán: 𝑋𝑡= (𝑥̂𝑡, 𝑦̂𝑡, ̂𝑠𝑡) , mô hình hồi quy ngữ cảnh theo thời gian Rc , mô hình quy hồi ngoại hình mục tiêu Rt, và bộ phát hiện Random Ferns Drf

WHILE

Cắt cửa sổ tìm kiếm thành khung t, dựa theo (𝑥̂𝑡−1, 𝑦̂𝑡−1)

và xuất ra những đặc trưng;

// Dự đoán biến dạng

Tính toán bản đồ tương quan yt: sử dụng Rc và

𝑦̂ = 𝐹−1 (𝐴 ⨀ 𝐹 (∅(𝑧)∙ ∅(𝑥̂))) để dự đoán vị trí mới (xt, yt);

// Dự đoán thay đổi kích thước

Xây dựng mô kim tử tháp quanh (xt, yt) và tính toán sơ đồ tương quan yS bằng việc sử dụng Rt và 𝑦̂ =

𝐹−1 (𝐴 ⨀ 𝐹 (∅(𝑧) ∙ ∅(𝑥̂)));

Dự đoán kích thước tối ưu 𝑠̂ sử dụng

𝑠̂ = 𝑎𝑟𝑔𝑟𝑚𝑎𝑥(max(𝑦̂1) , max(𝑦̂2), … , max(𝑦̂𝑠))

𝑥𝑡 = (𝑥𝑡, 𝑦𝑡, 𝑠̂)

//Phát hiện lại mục tiêu

IF max(𝑦𝑠̂) < 𝑇𝑟

THEN

Sử dụng bộ phát hiện Drf để thực hiện việc tái phát hiện và tìm những trạng thái phần tử có thể X; FOREACH (từng trạng thái 𝑋′𝑖 trong X)

Tính điểm độ tin cậy 𝑌′𝑖 sử dụng

Rt và 𝑦̂ = 𝐹−1 (𝐴 ⨀ 𝐹 (∅(𝑧)∙ ∅(𝑥̂)));

ENDIF

IF max( 𝑌′𝑖 ) > 𝑇𝑟

THEN 𝑥𝑡 = 𝑥′t , WHERE i = argmax𝑖 𝑌′𝑖 ;

ENDIF

// Cập nhật mô hình Cập nhật Rc sử dụng

𝑥̂𝑡= (1− ∝)𝑥̂𝑡−1+ ∝ 𝑥𝑡,

𝐴̂𝑡= (1− ∝)𝐴̂𝑡−1+ ∝ 𝐴𝑡,

IF max( 𝑌𝑆̂) > 𝑇∝

THEN

ENDIF

Cập nhật Rt sử dụng 𝐽𝑠̂ và 𝑥̂𝑡=(1− ∝)𝑥̂𝑡−1+ ∝ 𝑥𝑡,

𝐴̂𝑡= (1− ∝)𝐴̂𝑡−1+ ∝ 𝐴𝑡,

Cập nhật 𝐷𝑟𝑓

UNTIL kết thúc chuỗi hình ảnh

ENDWHILE

Mỗi vector đặc trưng x được biểu diễn bằng sự kết hợp của nhiều kênh. Ngoài những đặc trưng HOG với 31 kênh, họ sử dụng sơ đồ đặc trưng của cường độ trong cửa sổ cục bộ 6 × 6 với 8 kênh. Để cung cấp sức mạnh cho những biến thể chiếu sáng, họ tính toán biểu đồ cường độ cục bộ trên kênh ánh sáng và cũng thêm một kênh được chuyển đổi bằng cách áp dụng một phép chuyển đổi thứ bậc không theo phương trình về kênh độ sáng. Do đó, họ sử dụng những vector đặc trưng với 47 kênh để huấn luyện bộ hồi quy ngữ cảnh theo thời gian Rc. Đối với mô hình mục tiêu Rt, họ chỉ sử dụng những đặc trưng HOG để xây dựng được theo dõi với độ tin cậy cao được thay đổi kích thước thành 15 x 15 để hình thành một vector đặc trưng của giá trị cường độ.

Chọn tham số Kernel: sử dụng một nhân Gaussian kernel k(x, x’) =

exp(− |𝑥−𝑥′| ), mà nó miêu tả một cái sơ đồ ∅ với k(x, x’) = ∅(𝑥) ∙ ∅(𝑥′) trong

𝑥2

cả hai mô hình hồi quy Rc và Rt. Họ tính toán sự tương quan toàn nhân 𝐴 =

𝐹(𝑎) 𝐹(𝑦)

𝐹(∅(𝑥) ∙ ∅(𝑥)+ ⋋)

và 𝑦̂ = 𝐹−1 (𝐴 ⨀ 𝐹(𝜃(𝑧) ∙ 𝜃(𝑥̂))) một cách hiệu quả

trên miền tần số Fourer.

Gửi bình luận