Các Đặc Trưng Cơ Bản Của Mạng Nơron

k là tham số dùng để xác định đường biên của đối tượng chiếm bao nhiêu phần trong đối tượng trả về. Kích thước của cửa sổ phải đủ nhỏ để giữ lại các chi tiết và cũng phải đủ lớn để khử các điểm nhiễu. Tham số k = -0.2, kích thước của sổ w =15 và được xác định theo công thức (2.12).

𝝈(𝒙, 𝒚)

𝑻(𝒙, 𝒚) = 𝒎(𝒙, 𝒚) + [𝟏 + 𝒌 ( − 𝟏)]

𝑹

(2.12)

Có thể bạn quan tâm!

Xem toàn bộ 96 trang tài liệu này.

Trong đó: R là giá trị lớn nhất của độ lệch chuẩn (với ảnh đa cấp xám: R = 128), k là tham số nằm trong khoảng [0.2, 0.5], m(x, y) và σ(x, y) là giá trị đáp ứng các mức ngưỡng khác nhau tùy theo các điểm lân cận. Với một vài vùng ảnh có độ tương phản cao thì σ(x, y) ≈ R, khi đó T(x, y) ≈ m(x, y). Kết quả này giống như phương pháp Niblack. Trong trường hợp T(x, y) nhỏ hơn giá trị trung bình thì sẽ xóa đi một vài vùng tối của nền. Tham số k dùng để điểu chỉnh giá trị ngưỡng so với giá trị trung bình m(x, y) (lớn hơn hay nhỏ hơn một tỷ lệ k).

Như vậy ngưỡng của mỗi điểm ảnh được xác định dựa trên việc đánh giá giá trị của các điểm ảnh lân cận với nó, do đó rất thích hợp cho những ảnh có độ sáng thay đổi (ví dụ như ảnh chụp từ máy chụp ảnh). Nhưng thời gian tính toán là rất chậm, tùy thuộc vào kích thước của cửa sổ.

2.3.3. Phương pháp Otsu

Đây là phương pháp xác định ngưỡng cho toàn bộ ảnh. Phương pháp này sẽ tìm một ngưỡng để phân chia các điểm ảnh vào hai lớp tiền cảnh (đối tượng) và nền. Giá trị ngưỡng được xác định sao cho “khoảng cách” giữa các điểm ảnh trong mỗi lớp là nhỏ nhất, điều này tương đương với khoảng giữa hai lớp là lớn nhất. Việc phân chia này dựa trên các giá trị trong histogram của ảnh. Các bước để xác định ngưỡng Otsu t của ảnh được tiến hành như thuật thoán 2.7.

Thuật toán 2.7. Phương pháp phân ngưỡng Otsu

Input: Ảnh đa cấp xám

Output: Ngưỡng nhị phân cho toàn bộ ảnh: Otsu

Bước 1. Tính histogram của ảnh: {pi}

Bước 2. Duyệt tất cả mức xám của ảnh: t

a. Tính lũy tích cho nền PtB và tiền cảnh Pt

b. Tính trị số trung bình của nền 𝜇tB và tiền cảnh 𝜇tF

c. Tính độ lệch chuẩn của nền 𝜎tB và tiền cảnh 𝜎tF

d. Xác định hàm khảng cách: vart hoặc vart

between-class within-class

e. Ngưỡng Otsu là đối số để hàm vart lớn nhất

between-class

Hoặc hàm vartwithin-class đạt giá trị nhỏ nhất

Với ảnh đầu vào là ảnh đa cấp xám, mỗi điểm ảnh có giá trị cường độ nằm trong khoảng [0, L] (L= 255). Giả định rằng {pi} (i = [0, L-1]) là lược đồ mức xám của ảnh – tỷ số giữa số lượng điểm ảnh có mức xám i so với toàn bộ ảnh và t là giá trị mức xám của ngưỡng lựa chọn. Sử dụng F và B để ký hiệu cho lớp tiền cảnh và nền, khi đó việc tính toán xác suất nền và tiền cảnh bởi ngưỡng t được xác định bởi các hàm theo các công thức (2.13), (2.14) và (2.15).

Hàm lũy tích của tiền cảnh và nền được tính theo công thức (2.13).

𝒕

𝟏

𝝁𝒕 = ( ) ∑ 𝒊 𝑷𝒕

𝑩 𝑷𝒕

𝑩 𝒊=𝒐

𝑳−𝟏

𝝁𝒕 = (𝟏 ) ∑ 𝒊 𝑷

𝑭 𝑷𝒕 𝒕

𝑭 𝒊=𝒕+𝟏

(2.13)

Giá trị trung bình của tiền cảnh và nền theo công thức (2.14)

𝒕

𝟏

𝝈𝒕 = ( ) ∑(𝒊 − 𝝁𝒕 )𝟐 𝑷𝒕

𝑩 𝑷𝒕 𝑩

𝑩 𝒊=𝒐

𝑳−𝟏

𝟏

𝝈𝒕 = ( ) ∑ (𝒊 − 𝝁𝒕 )𝟐 𝑷

𝑭 𝑷𝒕 𝑭 𝒕

𝑭 𝒊=𝒕−𝟏

(2.14)

Từ đó ta xác định được khoảng cách giữa hai lớp và khảng cách của lớp trong theo công thức (2.15) và (2.16).

𝒗𝒂𝒓𝒕 = 𝑷𝒕 (𝝁𝒕 - 𝝁)𝟐 + 𝑷𝒕 (𝝁𝒕 - 𝝁)𝟐

𝒃𝒆𝒕𝒘𝒆𝒆𝒏−𝒄𝒍𝒂𝒔𝒔 𝑩 𝑭 𝑭 𝑭

(2.15)

= 𝑷𝒕 𝑷𝒕 (𝝁𝒕 − 𝝁𝒕 )𝟐

𝑩 𝑭 𝑩 𝑭

𝒗𝒂𝒓𝒕 =𝑷𝒕 𝝈𝒕 + 𝑷𝒕 𝝈𝒕

𝒘𝒊𝒕𝒉𝒊𝒏−𝒄𝒍𝒂𝒔𝒔 𝑩 𝑩 𝑭 𝑭

(2.16)

𝑖=1

Trong đó: µ= ∑𝐿−1 𝑖 𝑃𝑖 là giá trị trung bình của toàn ảnh.

Khi đó ngưỡng Otsu t được xác định là đối số để hàm vart between-class đạt giá trị lớn nhất hoặc hàm vart within-class đạt giá trị nhỏ nhất theo công thức (2.17).

tOtsu = argmax 1<=t<=L(vart between-class )

=argmin 1<=t<=L(vart within-class )

(2.17)

Đây là phương pháp được sử dụng phổ biến trong xử lý ảnh vì nó phân đoạn và làm nổi bật ảnh khá tốt. Tuy nhiên phương pháp này sẽ thất bại khi số điểm ảnh tiền cảnh nhỏ hơn 5%.

2.3.4. Nhận xét

Nhị phân ảnh là một thao tác cơ bản để phân tách giữa nền và đối tượng. Trong đó việc xác định ngưỡng nhị phân là thao tác quan trọng và khó khăn nhất. Có thể xác định ngưỡng cho toàn bộ ảnh (phương pháp Otsu) hay xác định ngưỡng cho từng điểm ảnh riêng biệt (phương pháp Niblack) tùy vào yêu cầu của bài toán và tích chất ảnh đầu vào.Việc chỉnh góc nghiêng của các ảnh thu được trong các hệ nhận dạng văn bản là rất cần thiết, bởi vì ảnh nhận được từ các thiết bị ghi hình thường bị lệch so với phương ban đầu. Trong đó, xác định góc lệch là việc quan trọng và khó khăn nhất. Trong phần trên đã giới thiệu ba phương pháp thường được sử dụng, phương pháp dựa vào biến đổi Hough rất tốt cho việc xác định góc nghiêng của các đường thẳng trong ảnh.

2.4. Tổng quan về mạng nơron

2.4.1. Mạng nơron nhân tạo

Mạng nơ ron nhân tạo mô phỏng lại mạng noron sinh học là một cấu trúc khối gồm các đơn vị tính toán đơn giản được liên kết chặt chẽ với nhau trong đó các liên kết giữa các noron quyết định chức năng của mạng[4].

2.4.2. Các đặc trưng cơ bản của mạng nơron

+ Gồm một tập các đơn vị xử lý (các noron nhân tạo)

+ Trạng thái kích hoạt hay đầu ra của đơn vị xử lý

+ Liên kết giữa các đơn vị. Xét tổng quát, mỗi liên kết được định nghĩa bởi một trọng số Wjk cho ta biết hiệu ứng mà tín hiệu của đơn vị j có trên đơn vị k.

+ Một luật lan truyền quyết định cách tính tín hiệu ra của từng đơn vị từ đầu vào của nó.

+Một hàm kích hoạt, hay hàm chuyển, xác định mức độ kích hoạt khác dựa trên mức độ kích hoạt hiện tại.

+ Một đơn vị điều chỉnh (độ lệch) của mỗi đơn vị.

+ Phương pháp thu thập thông tin (luật học).

+ Môi trường hệ thống có thể hoạt động như hình 2.3

WK1

Hàm liên kết

WK2

∑.

•

Đầu ra

•

Hàm tổng

•

WKN

F(.)

Đầu vào

Trọng số liên kết Ngưỡng Hình 2.3. Mô hình mạng nơron

2.4.3. Các thành phần cơ bản của mạng nơron nhân tạo

2.4.3.1. Đơn vị xử lý

Đơn vị xử lý còn được gọi là một nơron hay một phần tử, thực hiện một công việc rất đơn giản: nó nhận tín hiệu vào từ các đơn vị phía trước hay một nguồn bên ngoài và sử dụng chúng để tính tín hiệu ra sẽ được lan truyền sang các đơn vị khác, hình 2.4.

Trong đó:

xi : các đầu vào

wji : các trọng số tương ứng với các đầu vào

θj : độ lệch (bias)

aj : đầu vào mạng (net-input) zj : đầu ra của nơron

g(x): hàm chuyển (hàm kích hoạt). Trong một mạng nơron có ba kiể đơn vị:

X0 Wj0

𝜽j J

g(aj )

aj zj



. j0

Wjn

𝒏

aj =∑

𝒊=𝟏

𝒘𝒊𝒋𝒙𝒊+𝜽

zj = g(aj )

Hình 2.4. Đơn vị xử lý

+ Các đơn vị đầu vào, nhận tín hiệu từ bên ngoài.

+ Các đơn vị đầu ra, gửi dữ liệu ra bên ngoài.

+ Các đơn vị ẩn , tín hiệu vào và tín hiệu ra của nó nằm trong mạng.

Mỗi đơn vị j có thể có một hoặc nhiều đầu vào: x0, x1, x2 … xn, nhưng chỉ có một đầu ra zj. Một đầu vào tới một đơn vị có thể là dữ liệu từ bên ngoài mạng, hoặc đầu ra của một đơn vị khác, hoặc là đầu ra của chính nó.

2.4.3.2. Hàm kết hợp

Mỗi một đơn vị trong một mạng kết hợp các giá trị đưa vào nó thông qua các liên kết với các đơn vị khác, sinh ra một giá trị gọi là net input. Hàm thực hiện nhiệm vụ này gọi là hàm kết hợp, được định nghĩa bởi một luật lan truyền cụ thể. Trong phần lớn các mạng nơron, chúng ta giả sử rằng mỗi một đơn vị cung cấp một bộ cộng như là đầu vào cho đơn vị mà nó có liên kết. Tổng đầu vào đơn vị j đơn giản chỉ là tổng trọng số của các đầu ra riêng lẻ từ các đơn vị kết nối cộng thêm ngưỡng hay độ lệch (bias) θj theo công thức (2.18)

𝒊=

(2.18)

𝒂𝒋=∑𝒏 𝟏 𝒘𝒊𝒋 𝒙𝒊+𝜽𝒋

Trường hợp wji > 0, nơron được coi là đang ở trong trạng thái kích thích. Tương tự, nếu như wji < 0, nơron ở trạng thái kiềm chế. Chúng ta gọi các đơn vị với luật lan truyền như trên là các đơn vị sigma.Trong một vài trường hợp người ta cũng có thể sử dụng các luật lan truyền phức tạp hơn. Một trong số đó là luật sigma-pi, có dạng theo công thức (2.19)

𝒂𝒋=∑𝒏 𝟏 𝒘𝒊𝒋 ∏𝒎 𝟏 𝒙𝒊𝒌+𝜽𝒋

𝒊= 𝒌=

(2.19)

Rất nhiều hàm kết hợp sử dụng một "độ lệch" hay "ngưỡng" để tính net input tới đơn vị. Đối với một đơn vị đầu ra tuyến tính, thông thường, θj được chọn là hằng số và trong bài toán xấp xỉ đa thức θj = 1.

2.4.3.3. Hàm kích hoạt

Phần lớn các đơn vị trong mạng nơron chuyển net input bằng cách sử dụng một hàm vô hướng gọi là hàm kích hoạt, kết quả của hàm này là một giá trị gọi là mức độ kích hoạt của đơn vị. Loại trừ khả năng đơn vị đó thuộc lớp ra, giá trị kích hoạt được đưa vào một hay nhiều đơn vị khác. Các hàm kích hoạt thường bị ép vào một khoảng giá trị xác định, do đó thường được gọi là các hàm bẹp. Các hàm kích hoạt hay được sử dụng là hàm đồng nhất theo công thức (2.20), hình 2.5.

(2.20)

Hình 2.5. Hàm đồng nhất

Nếu coi các đầu vào là một đơn vị thì chúng sẽ sử dụng hàm này. Đôi khi một hằng số được nhân với net-input để tạo ra một hàm đồng nhất.

2.4.3.4. Hàm bước nhị phân

Hàm này cũng được biết đến với tên "Hàm ngưỡng", đầu ra của hàm này được giới hạn vào một trong hai giá trị theo công thức (2.21), Dạng hàm này được sử

dụng trong các mạng chỉ có một lớp. Trong hình vẽ sau, θ được chọn bằng 1, hình 2.6.

(2.21)

Hình 2.6. Hàm bước nhị phân

2.4.3.5. Hàm sigmoid

Hàm này đặc biệt thuận lợi khi sử dụng cho các mạng được huấn luyện bởi thuật toán lan truyền ngược, bởi vì nó dễ lấy đạo hàm, do đó có thể giảm đáng kể tính toán trong quá trình huấn luyện. Hàm này được ứng dụng cho các chương trình ứng dụng mà các đầu ra mong muốn rơi vào khoảng [0,1], theo công thức (2.22), hình 2.7.

(2.22)

Hình 2.7. Hàm Sigmoid

2.4.3.6. Hàm sigmoid lưỡng cực

Hàm này có các thuộc tính tương tự hàm sigmoid. Nó làm việc tốt đối với các ứng dụng có đầu ra yêu cầu trong khoảng [-1,1]. Các hàm chuyển của các đơn vị ẩn là cần thiết để biểu diễn sự phi tuyến vào trong mạng. Lý do là hợp thành của các hàm đồng nhất là một hàm đồng nhất. Mặc dù vậy nhưng nó mang tính chất phi tuyến (nghĩa là, khả năng biểu diễn các hàm phi tuyến) làm cho các mạng nhiều tầng có khả năng rất tốt trong biểu diễn các ánh xạ phi tuyến. Tuy nhiên, đối với luật học lan truyền ngược, hàm phải khả vi và sẽ có ích nếu như hàm được gắn trong một khoảng nào đó. Do vậy, hàm sigmoid là lựa chọn thông dụng nhất. Đối với các đơn vị đầu ra, các hàm chuyển cần được chọn sao cho phù hợp với sự phân phối của các giá trị đích mong muốn. Chúng ta đã thấy rằng đối với các giá trị ra trong khoảng [0,1], hàm sigmoid là có ích; đối với các giá trị đích mong muốn là liên tục trong khoảng đó thì hàm này cũng vẫn có ích, nó có thể cho ta các giá trị ra hay giá trị đích được căn trong một khoảng của hàm kích hoạt đầu ra. Nhưng nếu các giá trị đích không được biết trước khoảng xác định thì hàm hay được sử dụng nhất là hàm đồng nhất. Nếu giá trị mong muốn là dương nhưng không biết cận trên thì nên sử dụng một hàm kích hoạt dạng mũ, theo công thức (2.23), hình 2.8.

(2.23)

Hình 2.8. Hàm simoid lưỡng cực

2.4.4. Các cấu trúc của mạng nơ ron

Cấu trúc của mạng được định nghĩa bởi: số lớp, số đơn vị trên mỗi lớp, và sự liên kết giữa các lớp như thế nào. Các mạng về tổng thể được chia thành hai loại

Gửi bình luận