Nghiên cứu cập nhật hệ thống chỉ tiêu phát triển dân cư, xã hội theo vùng và vận dụng trong dạy học địa lí 9 - 2


- Về Không gian (địa bàn) nghiên cứu thực nghiệm, chủ yếu tại một số trường THCS trên địa bàn thành phố Thái Nguyên.

5. Tình hình nghiên cứu đề tài

Hệ thống chỉ tiêu phát triển DCXH theo vùng là bộ phận không thể thiếu trong lí luận và thực tiễn phân vùng kinh tế và qui hoạch không gian vùng. Điều này bắt nguồn từ trường phái vùng địa lí kinh tế Nga - Liên Xô trước đây. Theo tư tưởng của V.I. Lênin, Kế hoạch điện khí hóa toàn Nga được soạn thảo, nước Nga được chia thành 8 vùng với hai tiêu chí trụ cột là : có giai cấp vô sản mạnh, có trung tâm năng lượng mạnh - chủ yếu là điện khí hóa. Mỗi tiêu chí trong Kế hoạch này gồm hai phần : định chất - số dân, chất lượng của giai cấp vô sản Nga; định lượng - diện tích, số dân, cở sở năng lượng, trình độ điện khí hóa. Kế hoạch GOELRO được đưa vào giảng dạy trong nhà trường, thông qua môn Địa lí kinh tế xã hội nước Nga.

Tiếp thu tinh hoa của Địa lí Liên Xô trước đây, các nhà địa lí Việt Nam đã tiến hành phân vùng kinh tế đất nước dựa trên hệ thống các tiêu chí tổng hợp, gồm hệ thống tiêu chí về địa lí tự nhiên, địa lí KTXH, trong đó có hệ thống tiêu chí phát triển DCXH. [1],[2],[3]. Gần đây, dựa trên hệ thống tiêu chí kinh tế, dân cư, xã hội, Viện Chiến lược phát triển - Bộ KH&ĐT đã nghiên cứu đề xuất đổi mới hệ thống vùng kinh tế thời kì CNH - HĐH và hội nhập kinh tế quốc tế [4].

Sơ đồ phân vùng KTXH được đưa vào CT&SGK Địa lí phổ thông, trước hết là Địa lí 9 và Địa lí 12. Trong CT&SGK Địa lí phổ thông trước đây, phần vùng kinh tế thường được tiếp cận định tính có minh chứng kèm theo các giá trị định lượng. Các tác giả biên soạn SGK Địa lí 9 mới đã tiến bước xa hơn với việc nghiên cứu nội dung phân hóa lãnh thổ đất nước bằng hệ thống chỉ tiêu phát triển DCXH dựa trên số liệu và dữ kiện năm 1999 [4]. Do đặc điểm thay đổi nhanh chóng số liệu và vấn đề thực tiễn trong SGK Địa lí 9, và


nói chung của các tài liệu bộ môn Địa lí KTXH Việt Nam, là nếu không kịp thời cập nhật, thì vấn đề sẽ trở nên nhàm chán, kém hấp dẫn, không đáp ứng yêu cầu dạy học theo hướng tích cực.

Như vậy vấn đề đặt ra là cập nhật hệ thống chỉ tiêu phát triển DCXH đã được đặt ra, và đúng lúc, trong xu thế chung của kinh tế học phát triển trên phạm vi toàn thế giới. Đi đầu theo hướng này là WB, IMF, UNESSCO, ADB với nhiều công trình nghiên cứu, tiêu biểu là các ấn phẩm của WB về hệ thống các chỉ báo phát triển thế giới (World Development Indicator, 2003, 2007) [12]. Điều lí thú nhất là Năm 2009, WB công bố Báo cáo Phát triển thế giới với chuyên đề : Tái định dạng Địa - Kinh tế (Reshaping Economic Geography) với khối lượng đồ sộ hệ thống chỉ báo phát triển kinh tế, dân cư và xã hội của các quốc gia và lãnh thổ thành viên WB [13]. Thêm nữa, giải thưởng Nobel năm 2008 của Paul Krugman về học thuyết Thương mại mới và Địa - Kinh tế mới (New trade and Neww Economic Geography Consepts) với chủ thuyết về Hiệu ứng tiết kiệm do qui mô lớn (Economic of scale effect Principle ), làm cho việc nghiên cứu hệ thống các chỉ báo phát triển DCXH trở nên sinh động và hấp dẫn. Vấn đề Con người là trung tâm, chủ thể phát triển vốn rất trừu tượng, có thể nói là khó nghiên cứu nhất, thì từ cuối những năm 90 thế kỉ XX, do đề xuất của một nhà kinh tế Pakistan, Chỉ số phát triển nhân văn - HDI (Human Development Index) được thừa nhận làm cơ sở để xây dựng các báo cáo thường niên của UNDP về Phát triển con người. Theo đó các quốc gia và lãnh thổ thành viên LHQ soi xét lại mình, đặt ra mục tiêu nỗ lực phấn đấu nhằm cải thiện và nâng cao trình độ phát triển con người theo hệ thống chỉ số tiêu biểu.[13].

Với sự nhạy bén cái mới, đồng thời trong khuôn khổ hợp tác với các tổ chức UNDP, WB, ADB, IMF và nhiều tổ chức phi chính phủ thuộc LHQ, Viện Khoa học Xã hội Việt Nam đã công bố Báo cáo Phát triển con người

Có thể bạn quan tâm!

Xem toàn bộ 95 trang tài liệu này.


Việt Nam năm 2001 và Phát triển con người Việt nam 1999 - 2004 với chủ đề Những thay đổi và xu hương chủ yếu. [21], [22]. Nhà xuất bản Thống kê trong các Niên giám thống kê thường niên đã cung cấp một khối lượng thông tin rất lớn về tình hình và các chỉ số phát triển DCXH Việt Nam [16]. Đón đầu xu thế phát triển chung này, Viện Chiến lược phát triển thuộc Bộ KH&ĐT đã công bố hệ thống các chỉ tiêu phát triển kinh tế, dân cư, xã hội trong Qui hoạch phát triển KTXH : Một số vấn đề lí luận và thực tiễn [21].

Nghiên cứu cập nhật hệ thống chỉ tiêu phát triển dân cư, xã hội theo vùng và vận dụng trong dạy học địa lí 9 - 2

Vấn đề nghiên cứu hệ thống các chỉ tiêu phát triển DCXH đứng trước cơ hội mới từ các văn bản pháp qui của Nhà nước, như : Bộ tiêu chí Phân định vùng dân tộc thiểu số và miền núi theo trình độ phát triển (Quyết định số 393/2005/ QĐ/UBDT, ngày 29/8/2005 của Bộ trưởng - Chủ nhiệm Ủy ban Dân tộc) [1] ; và mới đây nhất Bộ Tiêu chí quốc gia về nông thôn mới (Ban hành kèm theo Quyết định 491/ QĐ-TTg, ngày 16/4/2009 của Thủ tướng Chính phủ) [2]. Cơ hội mới của việc cập nhật các chỉ tiêu phát triển DCXH là kết quả Tổng điều tra dân số và nhà ở ngày 1 tháng 4 năm 2009 với nhiều tư liệu thông tin phong phú và toàn diện.

Nắm bắt được xu phát triển chung của tiêu chí hóa các công trình nghiên cứu về địa lí DCXH, các tác giả biên soạn Địa lí 9 đã tích hợp các bảng chỉ tiêu phát triển dân cư xã hội vào mục III trong các bài học về phần Phân hóa lãnh thổ theo vùng (Bài 1- 4 và các Bài từ 17 -37) [4].

Việc nghiên cứu cập nhật hệ thống chỉ tiêu phát triển DCXH phục vụ mục đích dạy học Địa lí ở trường phổ thông có được cơ hội quan trọng nhờ các công trình đã xuất bản và sử dụng rộng rãi trong các trường cao đẳng và đại học trong nước, đặc biệt của các nhà khoa học địa lí sư phạm đầu ngành. [8][10][11][13][19][20][24].

Vấn đề đặt ra đối với chúng tôi là nghiên cứu cập nhật các chỉ tiêu mới năm 2009 thay cho các vấn đề và số liệu năm 1999 trong SGK Địa lí 9 dựa


trên số liệu mới với cách nhìn mới trong khuôn khổ hợp lí, nhằm đảm bảo tính hệ thống, vừa sức và đạt hiệu quả cao và thiết thực trong dạy học Địa lí 9 theo hướng tích cực hóa đối với GV và HS THCS.

6. Phương pháp nghiên cứu

Phương pháp nghiên cứu lí thuyết chủ yếu gồm :

- Phương pháp lịch sử;

- Phương pháp hệ thống;

- Phương pháp phân tích tổng hợp;

- Phương pháp so sánh.

Phương pháp nghiên cứu thực tế bao gồm:

- Phương pháp điều tra quan sát;

- Phương pháp thống kê;

- Ứng dụng phần mềm tin học;

- Phương pháp thực nghiệm sư phạm.

7. Cấu trúc luận văn

Ngoài các phần Mở đầu, Kết luận, Tài liệu tham khảo, Phụ lục; nội dung luận văn gồm các chương :

Chương 1: Cơ sở lí luận và thực tiễn của đề tài;

Chương 2: Cập nhật hệ thống chỉ tiêu phát triển dân cư, xã hội theo vùng ở Việt Nam;

Chương 3: Thực nghiệm sư phạm.


Chương 1

CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI

1.1. CƠ SỞ NHẬN THỨC LUẬN


Địa lí học là khoa học nghiên cứu mối quan hệ Tự nhiên - Con người - Xã hội, xét về bản chất đây là mối quan hệ của xã hội loài người, và do đó mang tính triết học. Do vậy, vấn đề chỉ số hóa cần được nghiên cứu trên bình diện : Chất - Lượng / Thời gian - Không gian / Vận động - Phát triển.

1.2.1. Chất - Lượng (C-L)


Đây là cặp phạm trù triết học phản ánh những mặt quan trọng của hiện thực khách quan. Thế giới không phải bao gồm những sự vật có sẵn, hoàn chỉnh mà là tổng hợp những quá trình trong đó các sự vật không ngừng xuất hiện, biến đổi, nhưng từ đó không nên cho rằng chúng không có những hình thức tồn tại nhất định, hoàn toàn không ổn định và không khác nhau. Mặc dù các sự vật có thay đổi đến đâu, nhưng hễ nó vẫn còn tồn tại là sự vật này, chứ không phải là sự vật khác, thì vẫn có một đối tượng được qui định về chất. Tính qui định về chất của các sự vật và các hiện tượng là cái làm cho chúng ổn định, phân biệt với nhau và tạo nên tính muôn vẻ vô tận của thế giới. Chất của sự vật không phải là qui về từng đặc tính của nó, gắn với sự vật như một tổng thể, bao quát toàn bộ sự vật, không tách khỏi sự vật. Do đó, khái niệm chất gắn liền với sự tồn tại của sự vật. Sự vật trong khi là bản thân nó thì không thể mất chất của nó. Các đặc tính khác nhau của sự vật biểu hiện trong các quan hệ của sự vật này với sự vật khác; theo nghĩa đó, có thể nói rằng các sự vật và các hiện tượng có nhiều chất. Bên cạnh tính qui định về chất, mọi sự vật đều có tính qui định về lượng : đại lượng, số lượng nhất định, nhịp độ diễn biến nhất định, trình độ phát triển nhất định của các quá trình, trình độ phát triển nhất định của các đặc tính, v.v.. Lượng là một thuộc tính


qui định của sự vật mà nhờ đó (trên thực tế hoặc trong tư duy), ta có thể phân chia nó thành những bộ phận cùng loại và có thể tập hợp các bộ phận đó lại làm một. Tính cùng loại (tương tự, giống nhau) của các bộ phận hay của các sự vật là dấu hiệu tiêu biểu của lượng. Sự khác nhau giữa các sự vật không giống nhau thì mang tính chất, còn sự khác nhau giữa các sự vật giống nhau thì mang tính lượng. Khác với chất, lượng không gắn chặt với sự tồn tại của sự vật; những biến đổi về lượng không lập tức dẫn tới chỗ thủ tiêu hoặc tới thủ tiêu hoặc tới sự biến đổi chủ yếu của sự vật. Chỉ sau khi đã đạt được những giới hạn nhất định đối với từng sự vật, thì những biến đổi về lượng làm nảy sinh những biến đổi về chất. Theo nghĩa đó, tính qui định về lượng, khác tính qui định về chất, được đặc trưng bằng mối quan hệ bên ngoài với bản chất của sự vật. Vì vậy, trong quá trình nhận thức (ví dụ như trong toán học), nó có thể tách khỏi nội dung như tách khỏi một cái gì không quan trọng đối với sự vật. Khả năng áp dụng hết sức rộng rãi các lí luận toán học vào các lĩnh vực khác nhau của khoa học tự nhiên và kĩ thuật, kể cả Địa lí học là do chỗ Toán học nghiên cứu chủ yếu các quan hệ lượng. Chất không thể qui về lượng, như các nhà siêu hình học mưu toan làm. Không có sự vật nào lại chỉ có mặt lượng , mỗi sự vật đề là sự thống nhất của một chất và một lượng nhất định (độ); nó là một đại lượng về chất lượng (lượng), và là một chất được qui định về lượng. Nếu phạm vi đến độ sẽ dẫn tới sự thay đổi bản thân sự vật hoặc hiện tượng, tới chỗ biến nó thành một sự vật hoặc một hiện tượng khác (chuyển hóa những biến đổi về lượng thành những biến đổi về chất).

1.2.2. Thời gian và không gian (TG - KG)


Là các hình thức tồn tại phổ biến của vật chất ; không gian là hình thức tồn tại của các khách thể và các quá trình vật chất được đặc trưng bằng cấu trúc và quảng tính của các hệ thống vật chất; còn thời gian là hình thức thay thế tiếp nhau của các hiện tượng và các trạng thái của vật chất được đặc trưng


bằng độ dài tồn tại của chúng. TG-KG đều có tính khách quan, không tách rời vật chất, gắn với vận động và với nhau, vô tận về số lượng và chất lượng. Đặc tính phổ biến của thời gian là độ dài, tính không lặp đi lặp lại, tính chất không quay ngược trở lại. Đặc tính phổ biến của không gian là quảng tính, sự thống nhất của tính liên tục và tính đứt đoạn. Không gian có ba chiều, còn thời gian chỉ có một chiều. Kết luận chủ yếu của thuyết tương đối A. Einstein chính là xác định rằng TG - KG không tự nó tồn tại, tách rời vật chất, mà nằm trong mối quan hệ qua lại phổ biến, trong đó chúng mất đi tính độc lập và xuất hiện như là những mặt tương đối của TG - KG thống nhất và không thể phân chia. Đồng thời khoa học còn chứng minh rằng thời gian và quảng tính của các vật thể phụ thuộc vào tốc độ vận động của các vật thể ấy, và kết cấu của continum 4 chiều (3 chiều không gian và 1 chiều của thời gian) - một hệ thống 4 biến số cần thiết để xác định một hiện tượng và các khối lượng vật chất và trường hấp dẫn do chúng tạo ra. Theo chủ nghĩa duy vật biện chứng - chứ không phải là duy vật địa lí - nhận thức của con người ngày càng nhận thức sâu sắc hơn và đúng đắn hơn về tính hiện thực khách quan của TG - KG.

1.2.3. Vận động và phát triển (VĐ - PT)


Là thuộc tính quan trọng nhất, phương thức tồn tại của vật chất, bao hàm tất cả những quá trình diễn ra trong tự nhiên và xã hội. Dưới hình thức chung nhất, vận động là sự biến đổi nói chung, là mọi sự tác động qua lại giữa các khách thể vật chất. Trong thế giới, không có vật chất nào không vận động, cũng như không thể có vận động mà không có vật chất. Vận động của vật chất là tuyệt đối; vật chất tự thân vận động, không do tác động từ bên ngoài, nguồn gốc của tự thân vận động là mâu thuẫn bên trong của sự vật và hiện tượng; cũng như vật chất, vận động không ai sáng tạo ra và không bị tiêu diệt. Vận động được bảo toàn cả về lượng và chất. Như vậy vật chất chỉ có thể tồn tại bằng cách vận động và thông qua vận động nó biểu hiện sự tồn tại của nó; còn


bất cứ sự đứng yên nào cũng chỉ là tương đối và là một trong những yếu tố của vận động. Một vật thể đang đứng yên so với Trái đất, cũng đang vận động cùng với Trái đất quanh Mặt trời, cùng với Mặt trời quay chung quanh trung tâm Thiên hà, v.v… Thế giới là vô tận, cho nên mọi vật thể đều tham gia vào vô số hình thức vận động. Tính bền vững về vật chất của các vật thể và tính ổn định của những đặc tính của vật thể cũng là kết quả của sự vận động của các hạt vi mô. Như vậy, vận động quyết định những đặc tính, tổ chức kết cấu và tính chất tồn tại của vật chất. Sự vận động của vật chất là nhiều vẻ theo những biểu hiện của nó và tồn tại dưới những hình thức khác nhau. Trong quá trình phát triển của vật chất, xuất hiện những hình thức vận động phức tạp và mới về chất. Nếu sự vận động của hệ thống vật chất phục tùng một qui luật thống nhất nào đó là quá trình phát triển của hệ thống. Với sự phát triển đi lên, thì các mối liên hệ, cơ cấu và các hình thức vận động của các khách thể vật chất ngày càng phức tạp thêm, xuất hiện những kiến tạo tiến hóa từ thấp lên cao. Ngược lại, sự phát triển đi xuống thể hiện sự sa sút và suy sụp của hệ thống. Vận động là khái niệm chung hơn so với phát triển, vì vận động bao hàm mọi sự thay đổi, trong đó có cả thay đổi bề ngoài và ngẫu nhiên không phù hợp với qui luật phát triển bên trong của hệ thống.

Vận động chính là mọi sự biến đổi nói chung, kể từ sự thay đổi vị trí trong không gian cho đến tư duy. Theo F.Enghen, có 5 hình thức vận động khác nhau về vật chất và trình độ cao thấp theo thứ tự : cơ học, vật lí, hóa, sinh vật, xã hội. Các hình thức này có quan hệ chặt chẽ với nhau. Hình thức vận động này luôn có khả năng chuyển hóa thành hình thức vận động khác trong những điều kiện cụ thể.


1.2. CHỈ TIÊU: DIỄN GIẢI, CẤU TRÚC, PHƯƠNG PHÁP XỬ LÍ DỮ LIỆU


1.2.1. Nội hàm và ngoại diên của khái niệm


Chỉ tiêu phát triển DCXH là khái niệm cơ bản, tuy không quá mới mẻ, nhưng lần đầu tiên được đưa vào CT&SGK Địa lí 9, do đó, được coi là khái niệm khung, làm cơ sở để nhận thức các đặc trưng phân hóa lãnh thổ theo vùng của Việt Nam. Khái niệm này là sản phẩm tư duy, kết quả của việc nắm vững các dấu hiệu cơ bản, đặc thù của đối tượng vùng, là hình ảnh khách quan về sự khác biệt giữa các vùng.

Với tư cách là một khái niệm, chỉ tiêu phát triển DCXH bao gồm hai bộ phận : nội hàm và ngoại diên. Nội hàm của khái niệm này là tập hợp các dấu hiệu bản chất được phản ánh một cách khách quan. Dấu hiệu bản chất của khái niệm này là những cái tồn tại đặc trưng dùng để so sánh với các chỉ tiêu khác. Đến lượt nó, các dấu hiệu được phân thành dấu hiệu cơ bản và dấu hiệu không cơ bản. Các dấu hiệu cơ bản qui định bản chất bên trong, đặc trưng về định chất của các vùng lãnh thổ; dấu hiệu không cơ bản không biểu thị bản chất, không có tính qui định định lượng của sự vật và hiện tượng. Ngoại diên của khái niệm chỉ tiêu phát triển DCXH chứa đựng những dấu hiệu có trong nội hàm. Nội hàm và ngoại diên của khái niệm liên hệ chặt chẽ, biểu thị tính thống nhất trong phản ánh tập hợp các đối tượng có dấu hiệu cơ bản chung.

Là một khái niệm có tính địa lí, chỉ tiêu phát triển DCXH được coi là khái niệm tập hợp, phản ánh các yếu tố đặc trưng về định chất và định lượng, bao gồm 9 nhóm khái niệm chung : Mật độ dân số / Sự gia tăng tự nhiên của dân số, Tỉ lệ hộ nghèo / Tỉ lệ thất nghiệp ở thành thị / Tỉ lệ thiếu việc làm ở nông thôn / Thu nhập bình quân đầu người / Tỉ lệ người lớn biết chữ / Tuổi thọ trung bình (kì vọng sống) / Tỉ dân số thành thị.


Nội hàm của mỗi khái niệm nêu trên được định nghĩa hoặc diễn giải về nội dung và thước đo định lượng. Ví dụ, chỉ tiêu về mật độ dân số ở ĐBSH năm 2009 là 432 người / km2, bao gồm 3 yếu tố ngoại diên : (1) định vị không gian : ĐBSH ; (2) Định vị thời gian : năm 2009; (3) Định lượng : 432 người trên km2. Theo toàn quốc và 7 vùng kinh tế, nội hàm của các chỉ tiêu phát triển DCXH được định nghĩa đồng nhất về định chất, định lượng, thời gian và không gian. Đem so sanh với mức chung toàn quốc và với từng vừng hoặc nhiều vùng, người ta có được ngoại diên rộng lớn, làm cơ sở để phân tích và so sánh sự vận động và phát triển vùng kinh tế lãnh thổ.

Nội hàm và ngoại diên của khái niệm chỉ tiêu phát triển DCXH về bản chất là khái niệm nền tảng trong nhận thức cũng như trong dạy học Địa lí, đúng như Đặng Văn Đức nhận định: " Khái niệm là nội dung của bài học và là đối tượng của sự lĩnh hội bởi học sinh, nó là một trong hai yếu tố khách quan, quyết định logic của bản thân quá trình dạy học" [10], [11].

Mỗi khái niệm luôn gắn với một sự vật, hiện tượng cụ thể - định vị không gian, thời gian; và như vậy việc gắn khái niệm vùng lãnh thổ, chỉ tiêu phát triển DCXH mang tính địa lí sâu sắc. Tuy nhiên, đây là khái niệm phức tạp, do đó, người ta cần tới sự diễn giải với mục đích làm dễ hiểu hơn các dấu hiệu bản chất, qua đó nhận thức sâu hơn về nội hàm và ngoại diên của khái niệm này.

1.2.2 Diễn giải và cấu trúc


Tiêu chí là các đại lượng biểu thị và chất là lượng của một sự vật và hiện tượng địa lí, bao gồm các thuộc tính cơ bản về không gian và thời gian, trong đó không gian địa lí được thể hiện qua lãnh thổ có giới hạn của sự vận động (có diện tích, các đường viền phạm vi), qua các hướng vận động - gọi chung là vec tơ, thường mặc định là không gian địa lí.


Cấu trúc một tiêu chí bao gồm hai phần chính :


- Phần đính chất, thường là tiêu chí hay là chỉ dẫn địa lí của chỉ số. Ví dụ, tiêu biểu trong địa lí tự nhiên, đó là chỉ số khô hạn; trong Địa lí kinh tế - xã hội, đó là mật độ dân số, chỉ số phát triển dân cư; trong nghiên cứu sự phát triển con người, đó là chỉ số phát triển nhân văn - HDI;

- Phần định lượng là đơn vị đo tương ứng theo không gian / lãnh thổ và theo thời gian.

Trong nhiều nguồn tài liệu nghiên cứu, người ta thường sử dụng các thuật ngữ khác nhau : Trong các báo cáo hàng năm của mình WB thường dùng thuật ngữ chỉ báo; Niên giám thống kê của Tổng cục Thống kê sử dụng rộng rãi các thuật ngữ : chỉ số - thường đo bằng %. Vị dụ : Chỉ số tăng trưởng kinh tế, chỉ số phát triển GDP,…Trong các báo cáo về kế hoạch phát triển KTXH ngắn hạn, trung hạn dài hạn người ta sử dụng thuật ngữ chỉ tiêu.

Nhìn tổng quan, cấu trúc của một TIÊU CHI / CHỈ SỐ / CHỈ TIÊU nói chung và địa lí nói riêng thường bao gồm hai phần : (1) Tên gọi và / (2) Thước đo, trong đó kèm theo hai thuộc tính bắt buộc, đó là thời gian : theo năm / tháng và theo lãnh thổ, đó là các đơn vị hành chính hoặc các đơn vị lãnh thổ địa lí, cũng có thể nói đó là chỉ dẫn địa lí.

1.2.3. Phương pháp xử lí số liệu


Đây là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu.


Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ toàn bộ quá trình khám phá các tri thức có ích từ các tập dữ liệu lớn. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộ quá trình, sử dụng các giải thuật để chiết xuất ra các mẫu (pattern) (hay các mô hình) từ dữ liệu.

Các bước thực hiện khai thác dữ liệu : Các giải thuật khai phá dữ liệu thường được mô tả như những chương trình hoạt động trực tiếp trên file dữ liệu. Với các phương pháp toán học và thống kê trước đây, thường thì bước đầu tiên là các giải thuật nạp toàn bộ file dữ liệu vào trong bộ nhớ. Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các file đơn giản để phân tích được.

Quá trình khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành thích hợp sao cho giải thuật khai phá dữ liệu có thể hiểu được. Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi).

Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nếu phải truy cập vào toàn bộ nội dung của cơ sở dữ liệu và làm những việc như trên. Có rất nhiều các giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê đơn giản của cơ sở dữ liệu, khi mà toàn bộ thông tin trong cơ sở dữ liệu là quá dư thừa đối với mục đích của việc khai phá dữ liệu.

Xem tất cả 95 trang.

Ngày đăng: 24/04/2022
Trang chủ Tài liệu miễn phí