Phương Pháp Thẩm Định Chéo Mô Hình Sinh Khối Cây Rừng (Cross Validation) Để Xác Định Sai Số Và Lựa Chọn Mô Hình


Trong đó: RMSE: Root Mean Squared Error: Sai số trung phương; y’ là đạo hàm bậc nhất của biến phụ thuộc y và bằng 1; nếu biến phụ thuộc được đổi biến số là ln(y) thì sẽ bằng 1/y.

Công thức tính trung bình hình học (Geometric mean):


Geometric Mean =

2 5 2 3 3 2 Phương pháp thẩm định chéo mô hình sinh khối cây rừng Cross 1

(2.5)

Có thể bạn quan tâm!

Xem toàn bộ 207 trang tài liệu này.

2.3.3.2 Phương pháp thẩm định chéo mô hình sinh khối cây rừng (Cross Validation) để xác định sai số và lựa chọn mô hình

Nghiên cứu này thử nghiệm ba phương pháp thẩm định chéo mô hình sinh khối

Phương pháp thẩm định chéo - Leave-One-Out Cross Validation (LOOCV):

Từ n dữ liệu cây mẫu, phương pháp Leave-One-Out Cross Validation (LOOCV) sử dụng n-1 dữ liệu lập mô hình và 1 dữ liệu độc lập dùng để đánh giá sai số. Mỗi lần như vậy tính toán các chỉ tiêu thống kê đánh giá, so sánh các mô hình như AIC (Akaike information criterion), hệ số xác định R2 và các sai số như Bias%, RMSE%, MAPE%. Lặp lại như vậy với n lần lập mô hình và đánh giá sai số, với sai số mỗi lần được tính từ một dữ liệu độc lập không tham gia lập mô hình, sau đó lấy trung bình (Moore, 2017).

Cách tính các sai số tương đối khi áp dụng LOOCV (Bảo Huy, 2017):


2 6 2 7 2 8 Trong đó L là số lần lặp lại tính sai số mỗi lần sử 2

(2.6)


2 7 2 8 Trong đó L là số lần lặp lại tính sai số mỗi lần sử dụng 3


(2.7)


2 8 Trong đó L là số lần lặp lại tính sai số mỗi lần sử dụng một 4

(2.8)


Trong đó, L là số lần lặp lại tính sai số, mỗi lần sử dụng một dữ liệu độc

lập để tính sai số mô hình (L = n dữ liệu); là giá trị quan sát và dự đoán qua mô hình.

Phương pháp thẩm định chéo - K-Fold

Phương pháp này phân chia dữ liệu thành K phần bằng nhau (K-Fold) (Kohavi, 1995; Picard và ctv, 2012), phổ biến với K = 10 thì một phần dữ liệu (1/10 dữ liệu) không tham gia lập mô hình dùng để đánh giá sai số, trong khi đó K-1 phần dữ liệu (9/10 dữ liệu) dùng lập mô hình. Mỗi lần như vậy tính toán các chỉ tiêu thống kê đánh giá, so sánh các mô hình như AIC, R2 và các sai số như Bias%, RMSE%, MAPE%. Tiến hành lặp lại như vậy K = 10 lần, và tính sai số trung bình từ K lần lặp (Moore, 2017).

Cách tính các sai số tương đối theo phương pháp k-fold như sau (Bảo Huy 2017):


2 9 2 10 2 11 Trong đó k là số phần dữ liệu bằng nhau được phân chia 7

(2.9)


2 10 2 11 Trong đó k là số phần dữ liệu bằng nhau được phân chia k fold 8


(2.10)


2 11 Trong đó k là số phần dữ liệu bằng nhau được phân chia k fold với 9


(2.11)


Trong đó, k là số phần dữ liệu bằng nhau được phân chia (k-fold), với k

= 10; n là số dữ liệu đánh giá của mỗi lần và , là giá trị quan sát và dự đoán qua mô hình.

Phương pháp thẩm định chéo - Monte Carlo

Phương pháp Monte Carlo dùng để thẩm định chéo các mô hình sinh khối được mô tả như sau: Phân chia dữ liệu ngẫu nhiên làm 2 phần, một phần dùng để lập mô hình (80% dữ liệu) và một phần dùng để đánh giá sai số (20% dữ liệu). Mỗi lần như vậy tính toán các chỉ tiêu thống kê đánh giá, so sánh các mô hình như AIC, R2 và các sai số như Bias%, RMSE%, MAPE%. Tiến hành lặp lại như vậy R = 200 lần để thẩm định các mô hình và đánh giá sai số, cuối cùng giá trị thống kê so sánh các mô hình và sai số được tính trung bình từ 200 lần thẩm định chéo (Temesgen và ctv, 2014 và Huy và ctv, 2016a,b).

Các sai số áp dụng theo phương pháp thẩm định chéo Monte Carlo với R lần lặp lại ngẫu nhiên như sau (Swanson và ctv, 2011; Huy và ctv, 2016a,b,c):



2 12 2 13 2 14 Trong đó R 200 là số lần phân chia dữ liệu ngẫu nhiên 12

(2.12)


2 13 2 14 Trong đó R 200 là số lần phân chia dữ liệu ngẫu nhiên thành hai 13


(2.13)


2 14 Trong đó R 200 là số lần phân chia dữ liệu ngẫu nhiên thành hai 14


(2.14)


Trong đó, R = 200 là số lần phân chia dữ liệu ngẫu nhiên thành hai phần, n là số dữ liệu đánh giá của mỗi lần rút mẫu (20% mẫu rút ngẫu nhiên) và là giá trị quan sát và dự đoán qua mô hình.

Công thức tính toán AIC như sau:


AIC = -2 ln(L) + 2p

(2.15)


Trong đó L là Likelihood của mô hình, p là tổng số tham số của mô hình.


Để lựa chọn mô hình tối ưu qua thẩm định chéo sai số, chỉ tiêu AIC là ưu tiên, mô hình có AIC bé nhất là tốt nhất, kết hợp với R2 càng cao càng tốt. Trong trường hợp các mô hình có AIC xấp xĩ nhau thì mô hình có các sai số bé hơn là có độ tin cậy hơn và được lựa chọn.

Trong xử lý số liệu theo các phương pháp thẩm định chéo, các phương pháp tính toán thông thường trên các phần mềm thống kê phổ biến như Excel, Statgraphics, SPSS, … không thể thực hiện được vì sự phức tạp của phân chia dữ liệu ngẫu nhiên, chạy mô hình và tính các chỉ tiêu thống kê, sai số được lặp lại nhiều lần, do đó công việc này cần được lập Code để thực hiện trong phần mềm mã nguồn mở R hoặc SAS.

Cuối cùng, sau khi lựa chọn dạng mô hình nhờ thẩm định chéo và xác định được các sai số của mô hình lựa chọn, mô hình lựa chọn được thiết lập lại dựa vào toàn bộ dữ liệu.

2.3.4 Phương pháp thiết lập hệ thống mô hình sinh khối cây rừng theo hệ thống phân loại thực vật áp dụng phương pháp thiết lập mô hình độc lập

2.3.4.1 Lựa chọn biến số đầu vào, độc lập (Predictor(s)) cho mô hình sinh khối cây rừng khộp

Nghiên cứu này sử dụng biến đầu vào quan trọng cho mô hình sinh khối là đường kính ngang ngực (ở độ cao 1,3 m so với mặt đất (D, cm) trong tất cả hệ thống mô hình sinh khối, vì D luôn có quan hệ với sinh khối toàn bộ và thành phần, đồng thời đây là biến cơ bản và dễ đo đạc trong điều tra rừng (Brown và ctv, 1989, 1997, 2001; Brown và Iverson, 1992).

Ngoài ra nghiên cứu này được tiến hành trên các vùng sinh thái khác nhau của rừng khộp, vì vậy biến đầu vào chiều cao cây rừng (H, m) cũng


được nghiên cứu, đánh giá để phản ánh sự khác nhau của lập địa ảnh hưởng đến tích lũy sinh khối cây rừng (Basuki và ctv, 2009; Chave và ctv, 2005, 2014; Huy và ctv, 2016a,b,c; Kralicek và ctv, 2017).

Đồng thời rừng khộp là kiểu rừng hỗn loài khác tuổi, vì vậy biến đầu vào khối lượng thể tích gỗ (WD (g/cm3) cũng được sử dụng để phản ánh khả năng tích lũy sinh khối/carbon khác nhau theo loài (Basuki và ctv, 2009; Chave và ctv, 2005, 2014; Huy và ctv, 2016a,b,c; Kralicek và ctv, 2017)

Như vậy nghiên cứu này thử nghiệm ba biến số đầu vào cho mô hình ước tính AGB và sinh khối các bộ phận (bao gồm sinh khối thân Bst (kg), sinh khối cành Bbr (kg), sinh khối lá Ble (kg) và sinh khối vỏ cây Bba (kg): Đó là D (cm), H (m) và WD (g/cm3), đồng thời sử dụng tổ hợp các biến, bao gồm:

D2H (m3) = là đại diện cho thể tích cây gỗ và tổ hợp D 2 HWD kg D 2 H×WD×1000 17) là đại diện cho thể tích cây gỗ, và tổ hợp D2HWD (kg)

= D2H×WD×1000) là đại diện cho sinh khối thân cây gỗ.

2.3.4.2 Chọn dạng phương trình sinh khối cây rừng

Dựa trên đã công bố trong và ngoài nước (Brown, 1997; Basuki và ctv, 2009; Chave và ctv, 2005, 2014; Picard và ctv, 2015; Huy và ctv, 2016 a,b,c), luận án sử dụng dạng hàm Power như là dạng phương trình sinh khối trong nghiên cứu này.

Ngoài ra Hình 2.3 và Hình 2.4 cũng cho thấy AGB và các thành phần sinh khối của cây rừng khộp theo hệ thống phân loại thực vật cũng quan hệ với D theo hàm Power, trong đó sinh khối có xu hướng tăng mạnh khi D tăng. Do đó, nghiên cứu này áp dụng hàm Power để lập và thẩm định hệ thống mô hình sinh khối cây rừng khộp với các biến số đầu vào khác nhau.


Hình 2 3 Phân bố sinh khối thân cây Bst kg cành Bbr kg lá Ble kg 18


Hình 2.3. Phân bố sinh khối thân cây (Bst, kg), cành (Bbr, kg), lá (Ble, kg), vỏ cây (Bba, kg) và tổng sinh khối cây rừng khộp trên mặt đất (AGB, kg) theo đường kính ngang ngực (D, cm) trong trường hợp chung loài.


Hình 2 4 Quan hệ AGB theo D theo hệ thống phân loại thực vật ưu thế rừng 19


Hình 2 4 Quan hệ AGB theo D theo hệ thống phân loại thực vật ưu thế rừng 20


Hình 2 4 Quan hệ AGB theo D theo hệ thống phân loại thực vật ưu thế rừng 21


Hình 2.4. Quan hệ AGB theo D theo hệ thống phân loại thực vật ưu thế rừng khộp


2.3.4.3 Ước lượng mô hình sinh khối có trọng số

Các mô hình phi tuyến tính dạng Power được áp dụng trọng số để điều chỉnh độ không đồng nhất trong sai số ở các cây có kích thước khác nhau do hiện tượng phân hóa biến sinh khối mạnh khi kích thước cây tăng lên (heteroscedasticity) (Hình 2.5) (Davidian và Giltinan, 1995; Picard và ctv, 2012; Huy và ctv, 2016a,b,c; Kralicek và ctv, 2017).


Hình 2 5 Phân hóa mạnh dữ liệu sinh khối khi kích thước cây tăng lên theo 22


Hình 2.5. Phân hóa mạnh dữ liệu sinh khối khi kích thước cây tăng lên theo hiện tượng heteroscedasticity

2.3.4.4 Phương pháp lập mô hình phi tuyến tính có trọng số theo phương pháp “Hợp lý cực đại” (Weighted Non-Linear Fixed by Maximum Likelihood)

Sử dụng phương pháp Maximum Likelihood có trọng số để thiết lập mô hình phi tuyến (Weighted Nonlinear Fixed Models fit by Maximum Likelihood) với kiểu dạng mô hình power tổng quát như sau (Huy và ctv, 2016a,b,c; Kralicek và ctv, 2017):

2 16 2 17 Trong đó là Bst Bba Bbr Bl AGB kg ứng với cây thứ j và là tham 23

(2.16)


2 17 Trong đó là Bst Bba Bbr Bl AGB kg ứng với cây thứ j và là tham số 24

(2.17)

Trong đó Bst, Bba, Bbr, Bl, AGB (kg) ứng với cây thứ j; là tham số của mô hình; là các biến số D (cm), H (m), WD (g/cm3), hoặc tổ

hợp biến đại diện cho thể tích cây: D2H hoặc tổ hợp biến đại diện cho sinh khối: D2HWD ứng với cây thứ j và là sai số ngẫu nhiên ứng với cây thứ j.

Xem tất cả 207 trang.

Ngày đăng: 14/07/2022
Trang chủ Tài liệu miễn phí