Sử Dụng Thuật Toán K-Nearest Neighbors (Knn) Để Dự Đoán Giá Trị Tài Sản Thẩm Định


Mỗi tài sản được định giá dựa trên các yếu tố {Tình trạng pháp lý, Chiều rộng, Chiều sâu, Mặt ngõ, Hướng đất, Cơ sở hạ tầng}. Các yếu tố này được đặt tên tương ứng là x1,x2,x3,x4,x5,x6.

Mỗi tài sản đất sẽ có giá bán trên 1m2 tương ứng là Y1, Y2, ..., Y10.

Bảng 3- 1: Ví dụ số liệu mua bán tài sản đất


Giá bán (triệu)

Tình trạng pháp lý

Chiều rộng (m)

Chiều sâu (m)

Mặt ngõ (m)

Hướng đất

Cơ sở hạ tầng

745

Đã cấp sổ đỏ

3,7

9,1

8

Đông Nam (9)

Tốt

1990

Đã cấp sổ đỏ

5

6,1

5

Tây Bắc


(7)

Tốt

700

Đã cấp sổ đỏ

3.6

9

2

Đông Nam (9)

Tốt

4000

Đã cấp sổ đỏ

6

15

12

Đông Nam (9)

Tốt

2600

Đã cấp sổ đỏ

4

12,5

12

Đông Nam (9)

Tốt

2350

Đã cấp sổ đỏ

5

10

12

Đông Bắc (7)

Tốt

485

Đã cấp sổ đỏ

4.5

9

3

Tây Bắc (7)

Tốt

750

Đã cấp sổ đỏ

3,7

12

10

Đông Nam (9)

Tốt

485

Đã cấp sổ đỏ

4

10

5

Tây Nam (9)

Tốt

750

Đã cấp sổ đỏ

3

13

8

Đông (8)

Tốt

Có thể bạn quan tâm!

Xem toàn bộ 103 trang tài liệu này.


Mảnh đất A ở khu vực Hà Đông, trong quá trình thẩm định thu được các thông tin như sau:

- Tình trạng pháp lý: Đã cấp sổ đỏ (1)

- Chiều rộng: 4m

- Chiều sâu: 10m


- Mặt ngõ: 8m

- Hướng: Đông Nam (9)

- Cơ sở hạ tầng: Tốt (1)

Cần xác định giá trị của bất động sản A?

3.2.1. Sử dụng thuật toán K-Nearest Neighbors (KNN) để dự đoán giá trị tài sản thẩm định

Các bước sử dụng KNN trong việc dự đoán với các biến phụ thuộc định lượng như

sau:

- B1: Xác định số láng giềng gần nhất k.

- B2: Tính khoảng cách giữa TSTĐ với tất cả các TSSS cùng khu vực với TSTĐ đã được thẩm định trước đó.

- B3: Sắp xếp theo khoảng cách và xác định k láng giềng gần nhất.

- B4: Lấy ra giá trị tài sản (Y) của k TSSS láng giềng gần nhất.

- B5: Sử dụng giá trị trung bình (average) của biến phụ thuộc Y của kTSSS láng giềng gần nhất là giá trị dự đoán của TSTĐ.

Trong công tác thẩm định giá, nhân viên thẩm định thường tìm ra 3 TSSS dùng để thực hiện việc thuyết minh giá của mình. Vì vậy, trong phần trình bày, luận văn sẽ lấy k = 3 là số láng giềng gần nhất cần tìm kiếm.

Áp dụng thuật toán Euclidean distance để tính khoảng cách giữa TSTĐ với các TSSS. Hàm khoảng cách (Euclidean distance):


x m x m ... x m

2

2

2

1 i1

2 i 2

n in

d (x, m ) x m

i i


Trong đó: + Vectơ mi là điểm thể hiện cho các TSSS.

+ d(x,mi) là khoảng cách giữa TSTĐ và các TSSS.

Ví dụ về áp dụng thuật toán K láng giềng vào trong bài toán định giá tài sản:

Dữ liệu training và mảnh đất A có giá trị các thuộc tính Cơ sở hạ tầng và Tình trạng pháp lý là như nhau. Nên luận văn sẽ không xét đến hai thuộc tính này. Tính khoảng cách d (euclidean distance) từ A đến các đối tượng X1,…,X10

Lần lượt ta có:



d1


(4 3.7)2(10 9.1)2(8 8)2(9 9)2

0, 95

d2 d3 d4 d5 d6 d7 d8 d9

5.40

(4 5)2(10 6.1)2(8 5)2(9 7)2

(4 3.6)2(10 9)2(8 2)2(9 9)2

6.09

(4 6)2(10 15)2(8 12)2(9 9)2

6.70

(4 4)2(10 12.5)2(8 12)2(9 9)2

4.72

(4 5)2(10 10)2(8 12)2(9 7)2

4.58

(4 4.5)2(10 9)2(8 3)2(9 7)2

5.5

(4 3.7)2(10 12)2(8 10)2(9 9)2

2.84

(4 4)2(10 10)2(8 5)2(9 9)2

(4 3)2(10 13)2(8 8)2(9 8)2

3

d10

3.32

Sắp xếp theo khoảng cách tăng dần và lấy ra 3 giá trị gần nhất ta có:

Bảng 3- 2: Tính toán và sắp xếp giá trị của tài sản theo khoảng cách tăng dần


X

d(A,X)

Y

X1

0.95

745

X8

2.84

750

X9

3

485

X10

3.32

750

X6

4.58

2350

X5

4.72

2600

X2

5.4

1990

X7

5.5

485

X3

6.09

700

X4

6.70

4000


Ta có thể dự đoán giá trị của tài sản A bằng trung bình của các giá trị Y của K (=3) láng giềng gần nhất. YA= 660 triệu.

Nhận xét: Với thuật toán K láng giềng, các yếu tố được xét đến trong tài sản có vị trí quan trọng là như nhau. Nhưng trên thực tế khi xét đến giá trị của một tài sản, chuyên viên thẩm định sẽ có trật tự ưu tiên trong việc xét các yếu tố. Với tài sản A như trên, thực


tế chuyên viên thẩm định, định giá giá trị tài sản là 800 triệu. Vì vậy giá trị tài sản dự đoán được trong thuật toán chưa tối ưu.

Tuy nhiên, với thuật toán KNN ta có thể tìm ra được những tài sản có nhiều yếu tố gần giống nhất với tài sản thẩm định. Điều này có ý nghĩa trong việc tìm ra k tài sản so sánh trong thẩm định giá bằng phương pháp so sánh.

3.2.2. Dự đoán giá trị tài sản qua phương pháp hồi quy tuyến tính đa biến

Áp dụng phương pháp hồi quy tuyến tính vào bài toán định giá tài sản bất động sản là đất của luận văn. Ta đi xây dựng mô hình hồi quy với:

- Biến phụ thuộc Y: Giá trị tài sản của bất động sản.

- Biến độc lập định lượng: X1: Chiều rộng, X2: Chiều sâu, X3: Mặt ngõ.

- Biến độc lập định tính:

o D1: Tình trạng pháp lý (BĐS chưa được cấp sổ đỏ: D1=0, BĐS đã có sổ đỏ: D1=1).

o D2: Hướng đất (Nam:D2=10, Tây Nam:D2=9, Đông Nam:D2=9, Đông:D2=8, Tây:D2=8, Bắc:D2=8, Tây Bắc: D2=7, Đông Bắc:D2=7).

o D3: Cơ sở hạ tầng (Cơ sở hạ tầng xấu:D3= 0, Cơ sở hạ tầng tốt:D3= 1).

Với tập dữ liệu trên thì yếu tố Pháp lý và CSHT đều có giá trị như nhau nên ta loại bỏ hai yếu tố 2 biến D1 và D3 trong ví dụ này. Khi đó:

Ta có phương trình hồi quy tuyến tính với 6 yếu tố trên như sau:


GiaTriTS 01(ChieuRong) 2 (ChieuSau) 3(MatNgo) 4 (HuongDat)

Y 01 X1 2 X 2 3X 3 4D1

10 42.5 105.7 77 83

42.5

187.59

450.47

336.3

350.


77

336.3

872.3

723

645

83

350.5

888,1

645

697

5

14855

70524

 

X T X 105.7 450.47 1176.27 872.3 888,1,

 

X TY 169183.5

   142090

   

   123295

   

16.25154461 -1.180569447 0.044741144 0.069179582 -1.462617004

 

-1.180569447 0.184104532 0.000399785 -0.015803205 0.062118572

-0.015803205

-0.016546463

0.015940487

0.006040771

0.062118572

-0.042577472

0.006040771

0.193029279

( X T X )1 0.044741144 0.000399785 0.041093714 -0.016546463 -0.042577472

 

0.069179582

-1.462617004


4775.96

 

927.4977

=> ( X T X )1 X TY 44.52609

 

123.5497

 

108.1469

Như vậy giá trị tài sản dự đoán:

GiaTriTS = -4775.96 + 927.49*ChieuRong + 44.53*ChieuSau + 123.54*MatNgo

+ 108.15*HuongDat

Kết quả của ví dụ trên chạy bằng Data Analys trong Excel:


Hình 3 4 Kết quả phân tích hồi quy tuyến tính ví dụ thẩm định đất Nhận 1

Hình 3- 4:Kết quả phân tích hồi quy tuyến tính ví dụ thẩm định đất

Nhận xét: Từ kết quả tính toán được thủ công và phần mềm ta có các kết luận sau:

- Các giá trị

1,..., 4

đều mang giá trị dương. Nếu X1, X2,X3,X4 đều được cố định ở

0, giá trị ước lượng của tài sản gần bằng -4775.96. Điều này là không có ý nghĩa

trong thực tế nên trong trường hợp này ta tạm bỏ qua

0 . Nếu cố định X2,X3,X4

chiều rộng tăng lên 1 đơn vị thì giá trị của tài sản sẽ tăng lên 927.49 đơn vị. Tương tự nếu chiều sâu tăng lên 1 đơn vị thì giá trị của tài sản tăng lên 44.53đơn vị, mặt ngõ tăng 1 đơn vị thì giá trị tài sản tăng 123.54 đơn vị. Đơn vị của chiều rộng, chiều sâu và mặt ngõ là như nhau, nên ta có thể so sánh thấy chiều rộng có hệ số lớn nhất nên nó có ảnh hưởng cao nhất đến giá trị của tài sản, giá trị chiều sâu có ảnh hưởng thấp nhất đến giá trị của tài sản.


- Với mức độ tin cậy là 95% chỉ có yếu tố chiều rộng có khoảng tin cậy cho độ dốc là (230,1624) không bao gồm 0. Nên có mối liên hệ ý nghĩa giữa chiều rộng với giá tài sản.

- Giá trị R2 = 0.844 nói lên rằng 4 yếu tố (Chiều rộng, chiều sâu, mặt ngõ, hướng đất) có thể giải thích được khoảng 84,4% độ biến thiên trong giá trị của tài sản thẩm định. Như vậy giá trị tài sản còn phụ thuộc vào một số các yếu tố khác chưa được xét trong bài toán như: Giá trị còn lại của tài sản, vị trí, an ninh khu vực…

- Giá trị p value của yếu tố chiều rộng là bé nhất (p=0.019) càng chứng tỏ mức độ ảnh hưởng của yếu tố này lên giá trị tài sản là lớn nhất trong số 4 yếu tố.

Sử dụng phương trình hồi quy tuyến tính này để ước lượng giá trị cho 3 tài sản có nhiều yếu tố tương đồng nhất với tài sản thẩm định đã tìm được trong thuật toán KNN trên.

Bảng 3- 3: Giá trị các tài sản so sánh.


Tài sản

Chiều rộng

Chiều Sâu

Mặt Ngõ

Hướng đất

Giá trị thực tế

Giá trị ước lượng

TSSS1

3,7

9,1

8

Đông Nam (9)

745

1022

TSSS2

3,7

12

10

Đông Nam (9)

750

1398

TSSS3

4

10

5

Tây Nam (9)

485

970


Giá trị tài sản ước lượng chênh lệch lớn với giá trị thực tế của các tài sản so sánh. Với độ chênh lệch khoảng 500 triệu. Giá trị này cũng gần tương đương với sai số chuẩn của ước lượng Sxy = 632.95. Như vậy, chúng ta cần tính toán và hiển thị sai số chuẩn của ước lượng ra ngoài trang web. Để người dùng có cơ sở để tăng giảm giá trị của tài sản thẩm định sau khi ước lượng dựa trên phương trình hồi quy tuyến tính.

3.2.3. Kết hợp thuật toán KNN và hồi quy tuyến tính đa biến

Chúng ta có thể sử dụng trực tiếp các mô hình hồi quy KNN và hồi quy tuyến tính để dự báo giá tài sản thẩm định. Mỗi mô hình đều có ưu điểm và nhược điểm khác nhau.

Bảng 3- 4: So sánh hai phương pháp KNN và hồi quy tuyến tính đa biến


Yếu tố

KNN

Hồi quy tuyến tính

Ưu điểm

- Thuật toán đơn giản, dễ dàng triển khai

- Đơn giản, dễ dàng triển khai

- Thời gian xây dựng và dự



- Xử lý tốt với tập dữ liệu nhiễu

báo nhanh

Nhược điểm

- Cần nhiều thời gian để thực

- Độ chính xác không cao với


hiện do phải tính toán khoảng

tập mẫu ít và có dữ liệu nhiễu.


cách với tất cả các đối tượng trong tập.

- Cần chuyển đổi kiểu dữ liệu với các yếu tố định tính


- Cần chuyển đổi kiểu dữ liệu



với các yếu tố định tính


Mức độ áp dụng

Áp dụng hiệu quả trong việc

Áp dụng hiệu quả trong việc

trong bài toán

tìm kiếm k tài sản so sánh có

xác định các trọng số ảnh


nhiều yếu tố tương đồng nhất

hưởng đến giá trị tài sản của


với tài sản thẩm định

các yếu tố.


Với ưu điểm của hai phương pháp hồi quy này, luận văn sẽ sử dụng cả hai phương pháp vào trong bài toán ước lượng giá tài sản. Mỗi phương pháp sẽ được sử dụng tại một giai đoạn của quá trình dự đoán. Nhắc lại một số bước chính trong so sánh trong thẩm định mà luận văn có thể áp dụng các phương pháp hồi quy:

- Bước 1: Nhân viên thẩm định tạo báo cáo định giá cần phải tìm ra 3 tài sản so sánh tương đồng nhất đối với tài sản thẩm định.

- Bước 2: So sánh lần lượt các yếu tố của tài sản so sánh và tài sản thẩm định để đưa giá tỷ lệ điều chỉnh giá tại tài sản so sánh.

- Bước 3: Tính trung bình giá trị sau tất cả hiệu chỉnh của 3 tài sản so sánh để đưa ra giá trị của tài sản cần thẩm định.

Áp dụng các phương pháp hồi quy vào bài toán:

- Sau khi có thông tin các yếu tố cần quan tâm của tài sản. Sử dụng phương pháp K láng giềng để xác định k tài sản có nhiều yếu tố gần giống nhất với tài sản cần thẩm định. Sau đó chọn 3 tài sản gần giống nhất trong k tài sản vừa tìm được. Như vậy ta đã giải quyết được bước 1 của bài toán.

- Với tập k tài sản vừa tìm được ở bước 1, ta đã có được một tập dữ liệu không có nhiễu. Sử dụng phương pháp hồi quy tuyến tính đa biến để lập ra phương trình hồi quy. Mỗi biến là một yếu tố cần so sánh. Các hệ số hồi quy tìm được tương đương với tỷ lệ điều chỉnh giá của tài sản. Nó có thể là tăng hoặc giảm. Như vậy ta đã giải quyết được bước 2 của thuật toán.

- Bước 3 của thuật toán tương đương với việc áp dụng mô hình hồi quy vừa tìm được để tính giá trị ước lượng của 3 tài sản so sánh. Giá trị trung bình của 3 tài sản so sánh này là giá trị của tài sản thẩm định.

Như vậy, với sự kết hợp của hai phương pháp này trong bài toán định giá tài sản thẩm định gần như giải quyết được các bước trong phương pháp so sánh thực tế mà nhân


viên thẩm định cần phải thực hiện. Giải quyết được các vấn đề dữ liệu nhiễu và kết quả thu được đáng tin cậy hơn.

3.3. Thiết kế ứng dụng

Theo mô tả của bài toán thẩm định tài sản như đã trình bày ở mục 2. Hệ thống hỗ trợ thẩm định tài sản bảo đảm trong ngân hàng sẽ được thiết kế thành hai module. Đó là: Module ETL và module thẩm định tài sản bảo đảm.


Hệ thống thẩm định giá


Module ETL

Module Thẩm định tài sản


Service phân tích file báo cáo

Trích xuất từ CSDL

thẩm định

Quản lý hồ sơ TĐ

Lập hồ sơ TĐ

Tạo báo cáo TĐ

Hình 3- 5: Mô hình thiết kế ứng dụng thẩm định tài sản bảo đảm

3.3.1. Module ETL

Nhóm chức năng ETL (Extract, Transform and Load) thực hiện việc trích rút, chuyển đổi và nạp dữ liệu vào kho dữ liệu của ứng dụng.

- Xây dựng một core service để đọc các file báo cáo thẩm định. Các file báo cáo thẩm định được gửi về từ các ngân hàng dữ liệu của các chi nhánh của ngân hàng. Từ các file dữ liệu báo cáo ngân hàng mua từ các đối tác, ngân hàng khác.

- Ngoài ra chương trình cho phép người dùng phân tích các file báo cáo thẩm định người dùng đã thu thập được vào trong Database, thông qua các chức năng import hoặc thêm mới trực tiếp từ các form nhập liệu.

- Tiền xử lý dữ liệu: Dữ liệu được đọc từ các file sẽ được trích xuất, tiền xử lý để thỏa mãn với cấu trúc cơ sở dữ liệu được xây dựng ở kho dữ liệu.

- Xây dựng một job định kỳ ETL các dữ liệu báo cáo thẩm định đã hoàn thành trong chương trình Thẩm định tài sản.Theo định kỳ hàng ngày, chương trình sẽ có một job tự động thực hiện việc trích xuất, chuyển đổi và nạp dữ liệu báo cáo thẩm định từ hệ thống thẩm định vào kho dữ liệu của ứng dụng.

..... Xem trang tiếp theo?
⇦ Trang trước - Trang tiếp theo ⇨

Ngày đăng: 09/05/2023