1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phương pháp khoảng cách trong phân tích thống kê mẫu điểm không gian

68 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phương Pháp Khoảng Cách Trong Phân Tích Thống Kê Mẫu Điểm Không Gian
Tác giả Đào Thị Tuyết Thanh
Người hướng dẫn PGS. TS. Đào Hữu Hồ
Trường học Đại học Quốc gia Hà Nội
Chuyên ngành Lý thuyết xác suất và thống kê toán học
Thể loại Luận Văn Thạc Sĩ Khoa Học
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 68
Dung lượng 767,64 KB

Cấu trúc

  • MỞ ĐẦU

  • MỤC LỤC

  • CHƯƠNG1: QUÁ TRÌNH ĐIỂM KHÔNG GIAN: CÁC KHÁI NIỆM VÀ KẾT QUẢ CƠ BẢN

  • 1.1 Mẫu điểm không gian

  • 1.2 Tính ngẫu nhiên không gian hoàn toàn (tính CSR)

  • 1.3 Tiêu chuẩn Monte Carlo

  • 1.4 Quá trình điểm không gian

  • 1.4.1Quá trình đơn biến

  • 1.4.2 Quá trình Poisson thuần nhất

  • CHƯƠNG2: CÁC PHƯƠNG PHÁP KHOẢNG CÁCH

  • 2.1 Khoảng cách giữa các biến cố.

  • 2.2 Khoảng cách lân cận gần nhất

  • 2.3 Khoảng cách từ điểm tới các biến cố gần nhất

  • 2.4 Ước lượng tính chất cấp hai: ước lượng hàm K(t)

  • CHƯƠNG 3: PHÂN TÍCH MẪU ẢNH TRÊN MÁY TÍNH

  • 3.1. Lập trình xử lý hàm H(t)

  • 3.2. Lập trìnhxử lý hàm G(t)

  • 3.3 Lập trình xử lý hàm F(t).

  • 3.4 Lập trình xử lý hàm K(t)

  • 3.5 Phân tích xử lý ba mẫu ảnh cụ thể.

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Nội dung

Quá trình điểm không gian: Các khái niệm cơ bản

Mẫu điểm không gian

Trong nghiên cứu thống kê, dữ liệu thường được trình bày dưới dạng tập hợp các điểm phân bố ngẫu nhiên trong không gian Ví dụ, các hình ảnh chụp từ trên cao có thể cho thấy vị trí của cây cối trong rừng, tổ chim, hoặc các tế bào trong mẫu mô nhỏ.

Chúng ta gọi những tập hợp này là mẫu điểm không gian, trong đó vị trí của các phần tử được xem như các biến cố, nhằm phân biệt chúng với những điểm ngẫu nhiên khác trong miền đang được đề cập.

Sau đây ta xem xét một số ví dụ cụ thể về mẫu điểm không gian

Hình 1.1 do Numata cung cấp minh họa vị trí của 65 cây thông đen Nhật Bản, được bố trí trong một hình vuông có cạnh dài 5,7m.

Hình 1.2: Vị trí của 62 cây gỗ đỏ Hình 1.2, do Strauss đưa ra(xem [14]), thể hiện vị trí 62 cây gỗ đỏ trên một hình vuông với cạnh 23m

Hai mô hình này thể hiện sự khác biệt rõ rệt; Hình 1.1 cho thấy một cấu trúc không rõ ràng, giống như một mô hình ngẫu nhiên hoàn toàn Ngược lại, Hình 1.2 thể hiện sự mọc thành cụm rõ rệt của các cây gỗ đỏ, và mẫu điểm này được mô tả là mẫu kết tập.

Hình 1.3: Vị trí nhân của 42 tế bào sinh học

Hình 1.3 do Ripley cung cấp minh họa một mẫu điểm thể hiện nhân của 42 tế bào sinh học, cho thấy sự phân bố của các nhân tế bào có vẻ quy tắc.

Qua 3 ví dụ trên ta có thể hình thành một sự phân loại các mẫu điểm không gian như sau: mẫu có quy tắc, mẫu ngẫu nhiên, mẫu kết tập

Trong bài viết này, chúng ta giả định rằng các miền được xem xét là miền phẳng trong không gian hai chiều Tuy nhiên, nguyên tắc này có thể được mở rộng cho các không gian khác.

1.2 Tính ngẫu nhiên không gian hoàn toàn (tính CSR)

Tính ngẫu nhiên không gian hoàn toàn (Complete Spatial Randomness - CSR) được định nghĩa là tính độc lập tứ phía, trong đó số biến cố của mẫu điểm rơi vào k tập Borel rời nhau tạo thành k biến ngẫu nhiên độc lập.

Giả thiết về tính ngẫu nhiên trong không gian khẳng định rằng số biến cố trong miền phẳng A có diện tích A tuân theo phân phối Poisson với giá trị trung bình λ A Đồng thời, nếu có n biến cố X i trong miền A, thì các biến cố này được coi là một mẫu ngẫu nhiên độc lập cỡ n với phân phối đều trên A.

Trong mô hình, hằng số λ đại diện cho cường độ hoặc số trung bình các biến cố trên mỗi đơn vị diện tích Nếu tính chất CSR được thỏa mãn, cường độ của các biến cố sẽ không thay đổi quá mức cho phép Hơn nữa, khi tính CSR được thỏa mãn, các biến cố sẽ không ảnh hưởng lẫn nhau, tức là tính độc lập sẽ bị vi phạm nếu sự tồn tại của một biến cố tại vị trí X có thể khuyến khích hoặc hạn chế sự tồn tại của các biến cố khác xung quanh.

Hình 1.4: 100 biến cố trong một hình vuông đơn vị

Hình 1.4 minh họa mẫu điểm ngẫu nhiên trong không gian của 100 biến cố trên một đơn vị diện tích, với sự thiếu vắng hình ảnh ấn tượng về sự kết tập Điều này cũng cần được lưu ý vì nó có sự tương đồng bề ngoài với hình 1.1.

Tính CSR đóng vai trò quan trọng trong việc chuẩn hóa các ý tưởng, điều này thường khó thực hiện trong thực tế Tuy nhiên, nó có thể mang lại sự tiện lợi cho những bước đầu tiên trong quá trình phát triển bền vững.

Hầu hết các phân tích bắt đầu với việc kiểm tra tính CSR, bởi nó có những ưu điểm sau:

- Một mẫu thỏa mãn tính CSR không bác bỏ những ưu điểm của các phương pháp phân tích thống kê chính thức

- Các tiêu chuẩn được dùng như là công cụ để khám phá tập số liệu hơn là để bác bỏ tính CSR

- Tính CSR tác động như là một phân chia giả thiết để phân biệt mẫu điểm có quy tắc và mẫu điểm kết tập

Mô hình ngẫu nhiên đơn giản cho mẫu ảnh không gian thường dẫn đến các phân phối lý thuyết phức tạp Do đó, để kiểm định mô hình với các số liệu, người ta thường áp dụng các tiêu chuẩn Monte Carlo.

Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không gian Nội dung của tiêu chuẩn như sau:

Ta xét một thống kê U nào đó

+ Giả sử u 1 là giá trị quan sát của U từ mẫu điểm đã cho

Giả sử u_i (i = 2, …, s) là các giá trị của U được sinh ra từ các mẫu ngẫu nhiên độc lập, đáp ứng giả thiết H, trong đó giả thiết H trong luận văn này đề cập đến tính CSR.

+ Giả sử u ( j ) là giá trị lớn nhất thứ j trong số u i , i = 1,2,…, s

Khi đó với giả thiết H ta có: u s u

Nếu u 1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H

Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa s k

Ta giả thiết các giá trị u i là khác nhau, do đó hạng (hay vị trí) của u 1 trong dãy   u i là rõ ràng

Theo Hope, sự tổn thất lực lượng nhận được từ tiêu chuẩn Monte Carlo là rất nhỏ, cho thấy rằng giá trị s không cần phải lớn Với mức ý nghĩa một phía thông thường là 5%, giá trị s = 100 là đủ để đạt được kết quả mong muốn.

Tiêu chuẩn Monte Carlo

Mô hình ngẫu nhiên đơn giản cho mẫu ảnh không gian thường dẫn đến các phân phối lý thuyết phức tạp Do đó, để kiểm định mô hình với các số liệu thực tế, người ta thường áp dụng các tiêu chuẩn Monte Carlo.

Tiêu chuẩn này được dùng để đánh giá tính CSR của một mẫu điểm không gian Nội dung của tiêu chuẩn như sau:

Ta xét một thống kê U nào đó

+ Giả sử u 1 là giá trị quan sát của U từ mẫu điểm đã cho

Giả sử u_i (i = 2, …, s) là các giá trị của U được sinh ra từ các mẫu ngẫu nhiên độc lập, đáp ứng giả thuyết H nào đó, trong đó giả thuyết H trong luận văn này liên quan đến tính CSR.

+ Giả sử u ( j ) là giá trị lớn nhất thứ j trong số u i , i = 1,2,…, s

Khi đó với giả thiết H ta có: u s u

Nếu u 1 được xếp vào vị trí lớn thứ k hoặc cao hơn thì ta bác bỏ giả thiết H

Thực hiện như vậy ta nhận được tiêu chuẩn một phía với mức ý nghĩa s k

Ta giả thiết các giá trị u i là khác nhau, do đó hạng (hay vị trí) của u 1 trong dãy   u i là rõ ràng

Hope đã chỉ ra rằng sự tổn thất lực lượng nhận được từ tiêu chuẩn Monte Carlo là rất nhỏ, do đó giá trị s không cần phải lớn Với mức ý nghĩa một phía thông thường là 5%, giá trị s = 100 là đủ.

Tổn thất lực lượng trong nghiên cứu của Mairiott về "vùng giới hạn mờ" cho thấy giá trị của u1 có thể có ý nghĩa trong phương pháp kiểm tra cổ điển nhưng không có ý nghĩa trong phương pháp kiểm tra Monte Carlo, và ngược lại Giả sử hàm phân phối của U với giả thiết H là F(u), đối với tiêu chuẩn một phía 5% với s = 20k.

Ta có F(u1) = P(U ≤ u1), và nếu u1 có thứ hạng lớn hơn hoặc bằng k, giả thiết H sẽ bị bác bỏ Với s – 1 giá trị ui (i = 2, … , s), nếu có r giá trị lớn hơn u1, thì sẽ có s – r – 1 giá trị nhỏ hơn hoặc bằng u1 Theo công thức xác suất Bernoulli, ta có thể nhận được công thức (1.1).

Với phương pháp kiểm tra cổ điển khi s → ∞ , P(bác bỏ H/ u 1 ) tiến tới 1 hoặc 0 tương ứng với F(u 1 ) lớn hơn hoặc nhỏ hơn 0,95.

Quá trình điểm không gian

Một quá trình điểm không gian là một cơ cấu ngẫu nhiên mà nó sinh ra một tập hợp đếm được các biến cố x i trong mặt phẳng

Chúng ta sẽ làm việc với các quá trình dừng và đẳng hướng

Tính dừng của quá trình đề cập đến việc tất cả các đặc tính của quá trình không thay đổi khi thực hiện phép tịnh tiến Trong khi đó, tính đẳng hướng có nghĩa là các đặc tính của quá trình vẫn giữ nguyên khi thực hiện phép quay.

Các phương pháp thống kê cho mẫu điểm không gian chủ yếu liên quan đến việc so sánh giữa các mô tả tóm tắt thực nghiệm của dữ liệu và mô tả tóm tắt lý thuyết của mô hình quá trình điểm Quá trình này dẫn đến việc thiết lập các tiêu chuẩn về tính ngẫu nhiên không gian, tập trung vào việc so sánh dạng phân phối lý thuyết của khoảng cách.

Trong bài viết này, chúng ta sẽ khám phá 6 cách và hàm phân phối tương ứng trong mẫu quan sát của n biến cố Chúng ta sẽ tập trung vào các mô tả tóm tắt lý thuyết của quá trình điểm, nhấn mạnh các tính chất cần thiết để phát triển các phương pháp thống kê hiệu quả Các ký hiệu sẽ được sử dụng để hỗ trợ cho quá trình phân tích này.

E[X] là kỳ vọng của biến ngẫu nhiên X

N(A) là số các biến cố trong miền phẳng A

N j (A) là số các biến cố loại j trong A (trong quá trình đa biến)

A là diện tích của A dx là một miền nhỏ chứa điểm x y x  là khoảng cách Euclid giữa điểm x và y

Trước hết, ta định nghĩa tính chất cấp một và tính chất cấp hai của quá trình điểm không gian

Tính chất cấp một được mô tả bởi hàm cường độ

 Đối với quá trình dừng, λ(x) được coi là hằng số λ, tức là số các biến cố trên một đơn vị diện tích

Tính chất cấp hai mô tả bởi hàm cường độ cấp hai:

 dx dy dy N dx N y E x dy dx

Hàm cường độ có điều kiện là:

   Đối với quá trình dừng, λ2(x,y) ≡ λ2(x – y) Trong quá trình dừng,đẳng hướng thì λ2(x – y) có thể viết là λ 2 (t) với t  x  y

Một đặc trưng khác của tính chất cấp hai của một quá trình dừng, đẳng hướng là hàm K(t), được định nghĩa như sau:

7 với N 0 (t) là số các biến cố khác trong khoảng cách t của một biến cố tùy ý

Ta thiết lập mối quan hệ giữa K(t) và λ 2 (t) như sau:

Giả sử quá trình của chúng ta diễn ra theo trật tự, tức là các biến cố trùng nhau không thể xảy ra Cụ thể, xác suất P{N(dx) > 1} có cấp nhỏ hơn so với dx, điều này cho thấy E[N(dx)] ~ P{N(dx) = 1} Tỷ số giữa hai đại lượng này có xu hướng tiến đến 1 khi dx tiến gần về 0.

 N ( dx )   1 P  N ( dx )  1   p P  N ( dx )  1    P N ( dx )  1   p 0 ( dx )  P  N ( dx )   1

Giả sử E  N(dx)N(dy)~P  N(dx)N(dy)1, với các giả thiết này, số trung bình của các biến cố trong khoảng cách t từ một biến cố bất kỳ có thể được tính thông qua tích phân cường độ có điều kiện trên một hình tròn có tâm tại gốc và bán kính t.

Theo lý thuyết, làm việc với λ2(t) có thể thuận tiện hơn so với K(t) Để hỗ trợ điều này, chúng ta định nghĩa hàm mật độ hiệp phương sai như một sự thay thế nhỏ.

Trong phân tích dữ liệu, K(t) được ưa chuộng hơn λ2(t) vì khả năng ước lượng dễ dàng từ dữ liệu Cả K(t) và λ2(t) đều liên quan đến hàm phân phối và hàm mật độ xác suất của khoảng cách giữa các cặp biến cố.

Trong các mẫu nhỏ, việc ước lượng trở nên thuận lợi mà không cần phải xem xét phân phối thực nghiệm Điều này đặc biệt hữu ích khi chúng ta cần đưa ra các dự đoán chính xác.

Một lợi ích khác của hàm K là tính bất biến của nó đối với phép làm mỏng ngẫu nhiên Điều này có nghĩa là nếu mỗi biến cố trong một quá trình được giữ lại hoặc không theo dãy phép thử Bernoulli độc lập, thì hàm K của quá trình làm mỏng sẽ giống hệt với hàm K của quá trình ban đầu Theo định nghĩa, hàm K được xác định là tỷ số giữa hai đại lượng E[N0(t)] và λ Sự làm mỏng có hiệu quả khi mỗi phần tử bội là p, trong đó xác suất giữ lại cho một biến cố bất kỳ là tỷ số không đổi.

1.4.2 Quá trình Poisson thuần nhất

Quá trình Poisson thuần nhất trên mặt phẳng là nền tảng lý thuyết cho quá trình điểm không gian, biểu diễn cơ chế ngẫu nhiên đơn giản nhất để tạo ra các mẫu điểm không gian Trong ứng dụng, nó được coi là tiêu chuẩn lý tưởng cho tính ngẫu nhiên không gian hoàn toàn Quá trình Poisson được định nghĩa qua hai vấn đề chính: i) Với λ > 0, trong bất kỳ miền phẳng hữu hạn A, N(A) tuân theo phân phối Poisson với trung bình λA; ii) Khi N(A) = n, n biến cố trong A tạo thành một mẫu ngẫu nhiên độc lập phân phối đều trong A Để chứng minh tính tự phù hợp của i) và ii), ta đưa ra tính chất iii): iii) Đối với hai miền rời nhau A và B, các biến ngẫu nhiên N(A) và N(B) là độc lập Từ i) và ii), ta có thể suy ra iii) bằng cách đặt C = A ∪ B là hợp của hai miền rời nhau A và B, với p = A / C và q = 1 - p = B / C.

Khi đó, áp dụng ii) cho miền C ta suy ra: y x q x p y n x C N

Theo i) ta có phân phối đồng thời của N(A) và N(B) là:

N(A) và N(B) có phân phối Poisson độc lập khi x, y là các số nguyên không âm Điều này cho thấy tính cộng tính của các biến ngẫu nhiên phân phối Poisson độc lập X và Y, cùng với phân phối nhị thức có điều kiện của X khi biết X + Y, sẽ xác nhận các tính chất i) và ii) cho mọi miền là hợp của hai miền rời nhau, nơi mà các tính chất này thỏa mãn Qua đó, chúng ta chứng minh tính tự phù hợp mà chúng ta cần.

Tham số λ của quá trình Poisson là cường độ của nó Từ tính độc lập iii) ta suy ra

Hàm phân phối G(y) mô tả khoảng cách từ một biến cố đến biến cố gần nhất, trong khi F(x) thể hiện khoảng cách từ một điểm bất kỳ đến biến cố gần nhất Đối với quá trình Poisson, hai hàm phân phối G(y) và F(x) là đồng nhất, vì sự tồn tại của một biến cố tại một điểm cụ thể, như x₀, không ảnh hưởng đến phân phối số lượng biến cố còn lại trong hình tròn có tâm tại x₀.

Để mô phỏng một thể hiện riêng của quá trình Poisson trên miền A với điều kiện N(A) bằng một giá trị cố định, cần tạo ra các biến cố độc lập theo hàm phân phối đều trên A Những dạng khó sử dụng của miền A có thể được điều chỉnh bằng cách mô phỏng các quá trình trên một miền lớn hơn, như hình chữ nhật hoặc hình tròn, và chỉ giữ lại các biến cố nằm trong A.

Các phương pháp khoảng cách

Khoảng cách giữa các biến cố

Giả sử ta có một mẫu điểm gồm n biến cố trong một miền A, khi đó ta có

Khoảng cách giữa các biến cố được ký hiệu là T, thể hiện khoảng cách giữa hai biến cố i và j trong miền A Phân phối lý thuyết của khoảng cách T giữa hai biến cố độc lập và phân phối đều trong A phụ thuộc vào kích thước và hình dạng của A Đặc biệt, khoảng cách này có thể được biểu diễn dưới dạng hàm phân phối khi A là hình vuông hoặc hình tròn Đối với một hình vuông đơn vị, hàm phân phối của T được xác định rõ ràng.

Còn đối với một đường tròn bán kính đơn vị, hàm phân phối là:

Bây giờ chúng ta phát triển tiêu chuẩn CSR dựa trên khoảng cách giữa hai biến cố

Giả sử miền A đã biết hàm phân phối H(t), ta tiến hành tính toán hàm phân phối thực nghiệm (EDF) cho khoảng cách giữa các biến cố Hàm này được ký hiệu là ˆ ( ).

H chính là tỷ lệ quan sát được của các khoảng cách giữa các biến cố t ij không vượt quá t, vì vậy

H #( t ij  t ) trong đó # ( t ij  t )là số lượng của các t ij mà nhỏ hơn hay bằng t

Bây giờ ta vẽ đồ thị của ˆ ( )

H là tung độ và H(t) là hoành độ Nếu dữ liệu mẫu điểm tương thích với CSR, đồ thị sẽ có dạng xấp xỉ tuyến tính, tức là sẽ tạo thành một đường thẳng Điều này có nghĩa là khi tính chất CSR được thỏa mãn, hàm ˆ ( ) sẽ phản ánh chính xác mối quan hệ giữa các biến.

H sẽ bằng hàm H(t) Để đánh giá mức độ có ý nghĩa hoặc sự xa rời tính tuyến tính, biện pháp thuận lợi là phân phối mẫu ˆ ( )

H với giả thiết tính CSR được thỏa mãn, tuy nhiên, điều này trở nên phức tạp do sự phụ thuộc giữa các khoảng cách của các biến cố và một điểm biên chung Vì vậy, chúng ta sẽ tiến hành theo các bước sau đây.

Ta thực hiện mô phỏng s – 1 mẫu điểm bao gồm n biến cố trong miền A, với kích thước và hình dạng tương tự như mẫu điểm đang được xem xét, đồng thời giả thiết thỏa mãn tính CSR Điều này có nghĩa là s – 1 mô phỏng này bao gồm n biến cố độc lập và phân phối đều trong miền A.

+ Với một mẫu mô phỏng ta tính hàm phân phối thực nghiệm H ˆ i ( t ), i 2,3,…, s

+ Xác định các bao mô phỏng trên dưới tương ứng:

Bao mô phỏng trên là U(t) = max{ H ˆ i ( t ), i = 2,3, …, s } (2.3)

Bao mô phỏng dưới là L(t) = min { H ˆ i ( t ) , i = 2,3, …, s } (2.4) Các bao mô phỏng này được vẽ đối với H(t) và có tính chất là với tính CSR và với mỗi t t s

Các bao mô phỏng giúp ta đánh giá, giải thích đồ thị của ˆ ( )

H đối với H(t) Hai trong nhiều phép xấp xỉ để xây dựng tiêu chuẩn Monte Carlo chính xác của CSR như sau: i) Chọn t 0 và xác định ˆ ( ) t 0

Hạng của u1 trong dãy ui (i = 1, 2, …, s) cung cấp một cơ sở tiêu chuẩn quan trọng, vì với tính CSR, tất cả các hạng của u1 đều đồng nhất Để xác định ui, chúng ta sử dụng nó như một thước đo cho sự khác biệt giữa Hˆi(t) và H(t) trên toàn bộ khoảng biến thiên t, được tính bằng công thức H(ui) = ∫(Hˆi(t) - H(t))^2 dt Một lần nữa, tiêu chuẩn dựa trên hạng của u1 được áp dụng để phân tích.

Phép xấp xỉ đầu tiên có ý nghĩa chỉ khi t 0 có thể được lựa chọn một cách ngẫu nhiên, trong khi đó cách thứ hai có vẻ khách quan hơn

Nếu miền A có hàm phân phối lý thuyết H(t) chưa biết, việc kiểm tra tính CSR vẫn khả thi bằng cách thay thế H(t) trong công thức (2.6) bằng ˆ ( ).

Các ui không còn độc lập khi tính CSR được thỏa mãn, nhưng vẫn đảm bảo rằng tất cả các hạng của u 1 có cùng xác suất Tương tự, phương pháp đồ thị liên quan đến việc vẽ đồ thị của các hàm ˆ ( ).

H , U(t) và L(t) đối với H 1 (t) Chú ý vì )

H chỉ bao gồm các mô phỏng của tính CSR mà không có dữ liệu ban đầu nên nó cho một ước lượng không chệch của H(t)

Sau khi đã có đồ thị các hàm ˆ ( )

H , U(t) và L(t) ta tiến hành quan sát dáng điệu của ˆ ( )

H đối với U(t) và L(t) Nếu đồ thị hàm ˆ ( )

H xấp xỉ một đường thẳng và nằm giữa đồ thị bao mô phỏng trên U(t) và đồ thị bao mô phỏng dưới L(t), có nghĩa là ˆ ( )

H vẫn nằm trong vùng dao động của tính CSR, cho phép chúng ta chấp nhận giả thiết H, tức là mẫu điểm có tính CSR Ngược lại, nếu không nằm trong vùng này, chúng ta sẽ bác bỏ giả thiết H, điều này có nghĩa là mẫu điểm không có tính CSR.

13 Để nhận được các kết quả trình bày trên chúng ta phải nhờ đến sự giúp đỡ của máy tính điện tử

Lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm ở hình 1.1, 1.2, 1.3 sẽ được thực hiện ở chương sau.

Khoảng cách lân cận gần nhất

Trong miền A, cho n biến cố, khoảng cách từ biến cố thứ i đến biến cố gần nhất được gọi là yi Mỗi biến cố sẽ tạo ra n giá trị yi trong miền A Từ đó, chúng ta có thể tính toán được EDF.

G , khoảng cách lân cận gần nhất bằng cách tương tự với việc tính toán được sử dụng tại mục 2.1 để có được ˆ ( )

Tương tác giữa các biến cố thường diễn ra ở mức độ nhỏ, ví dụ như cây cối tìm kiếm ánh sáng mặt trời và chất dinh dưỡng qua ngọn cây hoặc hệ thống rễ Trong tình huống này, khoảng cách lân cận gần nhất trở thành công cụ khách quan giúp tập trung vào khoảng cách nhỏ giữa các biến cố, mặc dù ngưỡng khoảng cách chính xác vẫn chưa được xác định.

Sự phân bố lý thuyết của khoảng cách lân cận gần nhất Y dưới tính CSR phụ thuộc vào số lượng n và miền A, không thể được biểu diễn một cách đơn giản do sự phức tạp của hiệu ứng biên Nếu bỏ qua hiệu ứng biên và ký hiệu A là diện tích của miền A, chúng ta có thể nhận được một biểu thức xấp xỉ cho vấn đề này.

Xác suất để một biến cố tùy ý nằm trong khoảng cách y của một biến cố xác định, với giả thiết về tính CSR, cho thấy rằng các biến cố được xác lập độc lập Do đó, hàm phân phối xấp xỉ của Y được xác định dựa trên điều này.

Với n lớn, ta đặt λ bằng một xấp xỉ khác nữa là   nA  1 ta có:

Hàm phân phối thực nghiệm ˆ ( )

G có thể so sánh với các bao mô phỏng trên và dưới nhận được từ các hàm phân phối thực nghiệm mô phỏng G ˆ i ( y ), i = 2,

… , s; một cách chính xác như trong mục 2.1

Chúng ta có thể sử dụng (2.7) như một phân phối lý thuyết, nhưng đây chỉ là một xấp xỉ Do đó, người ta thường ưa chuộng sử dụng trung bình mẫu G i (y) của các hàm phân phối thực nghiệm G ˆ i (y) với i = 2,…, s, dựa trên các mô phỏng.

Các cơ sở có thể đối với tiêu chuẩn Monte Carlo là

+ Chọn u i là giá trị trung bình của mẫu ycủa n khoảng cách lân cận gần nhất

Bước cuối cùng là vẽ đồ thị các hàm G ˆ i ( y ), U(y), L(y) trên cùng một hệ tọa độ với hoành độ là G 1 (y), các tung độ tương ứng là ˆ ( )

Việc đánh giá hàm phân phối thực nghiệm G1(y) cho các khoảng cách lân cận gần nhất dựa trên mẫu điểm đã cho tương tự như quy trình đánh giá hàm ˆ ( ).

Việc lập trình để xử lý bài toán trên, sau đó áp dụng vào các mẫu điểm được giới thiệu ở 1.1 sẽ được bàn đến ở chương sau.

Khoảng cách từ điểm tới các biến cố gần nhất

Giả sử có m điểm mẫu trong miền A, với x i là khoảng cách từ mỗi điểm mẫu đến biến cố gần nhất trong n biến cố trong A Hàm phân phối thực nghiệm được tính toán từ những khoảng cách này.

F đo khoảng trống trong A có nghĩa là 1 - Fˆ(x), đại diện cho ước lượng diện tích B(x) của miền B(x) Miền này bao gồm tất cả các điểm trong A có khoảng cách tối thiểu x tới mỗi biến cố trong A.

Lập luận tương tự như khi dẫn tới (2.7) dưới giả thiết về tính CSR ta nhận được biểu thức xấp xỉ:

Lotwick đã phát triển một thuật toán dựa trên ngôn ngữ Dirichlet của Green-Sibson để tính toán chính xác B(x) khi A là hình chữ nhật Việc sử dụng m điểm trong lưới kxk sẽ mang lại một xấp xỉ phù hợp nếu giá trị k được chọn hợp lý Theo Diggle và Matern, k nên được đặt bằng n (xem [8]).

Hình 2.1:Đồ thị thực nghiệm F ˆ ( x ) của các tế bào sinh học

Hình (2.1) chỉ ra rằng với mẫu điểm hình 1.3- nhân của 42 tế bào sinh học mức độ xấp xỉ được dùng là k = 7 ≈ 42 ; k = 14; k = 96

Với sự tiến bộ của khoa học tính toán, việc chọn giá trị k lớn không còn là một trở ngại Như hình 2.1 đã chỉ ra, khi k lớn, đường cong F ˆ (x) sẽ trở nên trơn tru hơn.

Tương tự như đã làm trong khoảng cách lân cận gần nhất, tiêu chuẩn Monte Carlo của CSR có thể dựa trên thống kê:

Ước lượng tính chất cấp hai: ước lượng hàm K(t)

Chúng ta sẽ tập trung vào ước lượng hàm K dựa trên các lý do đã nêu trong mục 1.4.2 Từ ước lượng K ˆ (t), chúng ta áp dụng công thức (1.4) để thu được ước lượng cần thiết.

16 lượng cho hàm  2 (t) Chọn một dải độ rộng h > 0 làm phép xấp xỉ

) ˆ( ) ˆ( ) ˆ ' (    sẽ dẫn tới ước lượng

Đoạn văn này đề cập đến việc tạo ra ước lượng tương tự như tổ chức đồ thị của 2(t) tại các khoảng độ rộng h trong t Stoyan và Stoyan đã giới thiệu một phiên bản nhân trơn, được nhiều tác giả như Moller, Syversveen và Waagepetersen áp dụng trong nghiên cứu của họ.

Hàm K(t) được định nghĩa trong mục 1.4.2 với công thức λK(t) = E[N0(t)], thể hiện tính chất cấp hai của quá trình dừng và đẳng hướng Ở đây, cường độ λ đại diện cho số lượng trung bình của các biến cố xảy ra trên một đơn vị diện tích.

Tương tự, với E(t) = E[N0(t)] là kỳ vọng của các biến cố trong khoảng thời gian t từ một biến cố tùy ý, chúng ta có thể phát triển một công thức ước lượng cho E(t) như sau:

(2.10) Ở đây, I(.) ký hiệu là hàm chỉ tiêu

Dạng công thức ước lượng ~ ( ) t

Hàm K được thể hiện trong (2.10) cho thấy mối liên hệ chặt chẽ với phân bố khoảng cách giữa các biến cố, điều này đã được phân tích kỹ lưỡng trong mục 1.2.

E là ước lượng chệch âm đối với E(t) do hiệu ứng biên Đối với biến cố trong khoảng cách t của biên A, cần loại trừ các biến cố khác có thể xảy ra trong khoảng cách t nhưng nằm ngoài biên này.

A Một vài phương pháp đã được đề xuất cho việc này, phương pháp sau chúng ta sử dụng là của Ripley (xem [13])

+ Đặt ( x , u )là tỷ lệ chu vi của vòng tròn tâm x và bán kính u nằm trong A

Trong quá trình dừng và đẳng hướng, xác suất có điều kiện  ij cho thấy khả năng xảy ra một biến cố khi biết rằng nó nằm ở khoảng cách u ij từ biến cố thứ i là x i Như thể hiện trong hình 2.2, cần lưu ý rằng  ij không nhất thiết bằng  ji.

Hình 2.2: Ước lượng của Ripley (1976) cho hàm K(t)

Như vậy ước lượng không chệch cho E(t) là 1 1 ( )

+ Thay cường độ chưa biết λ bởi

A n1 , chúng ta nhận được ước lượng của Ripley(xem [13]) cho K(t)

Thực ra ,trong biểu thức K ˆ ( t ),Ripley sử dụng 1 2 n hơn là

Ước lượng của Ripley cho thấy rằng khi t nhỏ, nó không bị chệch đáng kể, nhưng cần phải có giới hạn trên cho t vì trọng số  ij có thể tiến tới vô cùng khi t tăng Tuy nhiên, trong thực tế, vấn đề này không nghiêm trọng Ví dụ, khi A là hình vuông đơn vị, lý thuyết về t sẽ được xác định rõ ràng.

1 ≈ 0,7 nhưng K ˆ ( t )sẽ hiếm khi được yêu cầu với các giá trị t lớn như vậy

Các phần mềm Splancs kết hợp một thuật toán được viết bởi Barry Rowlingson cho cách tính ( x , u )khi A là một đa giác tùy ý Công thức rõ ràng của )

Các hình dạng đơn giản như hình chữ nhật và hình tròn có thể được viết ra cho miền A, và chúng rất dễ sử dụng khi hiệu quả tính toán là yếu tố quan trọng nhất.

+ Trước tiên ta xét trường hợp A là hình chữ nhật (0,a)x(0,b)

Như vậy, d 1 và d 2 là khoảng cách từ điểm x đến biên thẳng đứng và nằm ngang gần nhất của A Để tính ( x , u )chúng ta cần phân biệt hai trường hợp

Theo (2.12), giá trị (x, u) bằng 1 khi u nhỏ hơn hoặc bằng min(d1, d2) Các công thức này áp dụng cho u trong khoảng 0 đến 0,5min(a, b), và điều này đã được xác nhận là đủ cho các ứng dụng thực tế.

Giả sử A là một hình tròn với tâm tại gốc tọa độ và bán kính a Khoảng cách từ điểm x đến hình tròn được tính bằng r = √(x₁² + x₂²) Trong trường hợp này, chúng ta cần phân biệt hai tình huống khác nhau.

Các công thức này áp dụng cho các giá trị của u từ 0 đến a

Phân tích mẫu ảnh trên máy tính

Lập trình xử lý hàm H(t)

Chúng tôi thực hiện lập trình để xử lý hàm H(t) cho mẫu ảnh của 65 cây thông đen Nhật Bản, và đối với các mẫu ảnh khác, các tham số sẽ được điều chỉnh tương ứng.

Const tfi = 'Pic_In.ini'; maxn = 65;

Type toado = record x,y : real end;

A,A1,A2,A3,A4 : Array [0 maxn+1] of toado; kc :Array [0 maxn,0 maxn] of Real;

If GraphResultGrOK Then Halt(1);

(*==============================================*) Procedure Vehetruc(XO,YO,Dx1,Dx2,Dy1,Dy2:Integer);

Line(XO-Dx1, YO, XO+Dx2, YO); {Truc hoanh}

Line(XO+Dx2-5, YO-5, XO+Dx2, YO);

Line(XO+Dx2-5, YO+5, XO+Dx2, YO);

Line(XO, YO-Dy2, XO, YO+Dy1); {Truc tung}

Line(XO, YO-Dy2, XO-5, YO-Dy2+5);

Line(XO, YO-Dy2, XO+5, YO-Dy2+5);

(*==============================================*) Function FileExists(FileName: String): Boolean;

(*===============================================*) Procedure Nhap; { Đọc dữ liệu ảnh mẫu ban đầu}

(*===============================================*) Procedure SinhNN; {Sinh cac diem ngau nhien}

(*===============================================*) Function KCHH(i,j:Integer):Real; {Tinhkhoang cach giua 2 diem i va j}

Begin tg:=sqrt(sqr(a[i].x-a[j].x)+sqr(a[i].y-a[j].y));

(*===============================================*) Procedure TinhKCHH; { Tinh cac khoang cach}

(*===============================================*) Function Dem ( t: real) : Integer;{ Dem so khoang cach nho hon t} Var i,j,tg : Integer;

If kc[i,j] t) then s:=0 else begin d1:= 1-x[i]; d1:= min(x[i],d1); d2:= 1-y[i]; d2:= min(y[i],d2); if u

Ngày đăng: 09/07/2021, 16:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như, (2004), Thống kê toán học,Nhà xuất bản Đại học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Thống kê toán học
Tác giả: Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Nhà XB: Nhà xuất bản Đại học Quốc Gia Hà Nội
Năm: 2004
[2] Hoàng Trung Sơn, TS. Hoàng Ngọc Bắc, (2006), Lập trình Pascal, Nhà xuất bản Khoa học và Kỹ thuật Sách, tạp chí
Tiêu đề: Lập trình Pascal
Tác giả: Hoàng Trung Sơn, TS. Hoàng Ngọc Bắc
Nhà XB: Nhà xuất bản Khoa học và Kỹ thuật
Năm: 2006
[3] Nguyễn Viết Phú, Nguyễn Duy Tiến, (2004), Cơ sở lý thuyết xác suất, Nhà xuất bản Đại học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Cơ sở lý thuyết xác suất
Tác giả: Nguyễn Viết Phú, Nguyễn Duy Tiến
Nhà XB: Nhà xuất bản Đại học Quốc Gia Hà Nội
Năm: 2004
[4] Quách Tuấn Ngọc, (2010), Ngôn ngữ lập trình Pascal, Nhà xuất bản Giáo dục Sách, tạp chí
Tiêu đề: Ngôn ngữ lập trình Pascal
Tác giả: Quách Tuấn Ngọc
Nhà XB: Nhà xuất bản Giáo dục
Năm: 2010
[5] Trần Đức Huyên, (2007), Phương pháp giải các bài toán trong tin học, Nhà xuất bản Giáo dục Sách, tạp chí
Tiêu đề: Phương pháp giải các bài toán trong tin học
Tác giả: Trần Đức Huyên
Nhà XB: Nhà xuất bản Giáo dục
Năm: 2007
[6] Barnard, G. A. (1963). Contribution to the discussion of Professor Bartlett ’ s paper. Journal of the Royal Statistical Society. B 25, 294 Sách, tạp chí
Tiêu đề: Journal of the Royal Statistical Society
Tác giả: Barnard, G. A
Năm: 1963
[7] Bartlett, M. S. (1964). Spectral analysis of two-dimensional point processes.Biometrika, 51, 299-311 Sách, tạp chí
Tiêu đề: Biometrika
Tác giả: Bartlett, M. S
Năm: 1964
[8] Diggle, P.J. and Matern, B.(1981). On sampling designs for the estimation of point-event nearest neighbor distributions. Scandinavian Journal of Statistics, 7,80-4 Sách, tạp chí
Tiêu đề: Scandinavian Journal of Statistics
Tác giả: Diggle, P.J. and Matern, B
Năm: 1981
[9] Hope, A. C. A. (1968). A simplified Monte Carlo significance test procedure.Journal of the Royal Statistical Society,B 30, 582-98 Sách, tạp chí
Tiêu đề: Journal of the Royal Statistical Society
Tác giả: Hope, A. C. A
Năm: 1968
[10] Marriott, F. H. C. (1979). Monte Carlo test: how many simulations? Applied Statistics, 28, 75-7 Sách, tạp chí
Tiêu đề: Applied Statistics
Tác giả: Marriott, F. H. C
Năm: 1979
[11] Moller, J., Syversveen, A.R. and Waagepetersen, R.P.(1998). Log-Gaussian Cox processes. Scandinavian Journal of Statistics,25, 459-82 Sách, tạp chí
Tiêu đề: Scandinavian Journal of Statistics
Tác giả: Moller, J., Syversveen, A.R. and Waagepetersen, R.P
Năm: 1998
[12] Numata, M. (1961). Forest vegetation in the vicinity of Choshi. Coastal Flora and vegetation at Choshi, Chiba Prefecture IV. Bulletin of Choshi Marine Laboratoy, Chiba University, 3, 28-48 Sách, tạp chí
Tiêu đề: Bulletin of Choshi Marine Laboratoy, Chiba University
Tác giả: Numata, M
Năm: 1961
[13] Ripley, B. D. (1976). The second-order analysis of stationary point processes. Journal of Applied Proabability, 13, 255-66 Sách, tạp chí
Tiêu đề: Journal of Applied Proabability
Tác giả: Ripley, B. D
Năm: 1976
[14] Ripley, B. D. (1977). Modelling spatial patterns (with discussion). Journal of the Royal Statistical Society, B 39, 172-212 Sách, tạp chí
Tiêu đề: Journal of the Royal Statistical Society
Tác giả: Ripley, B. D
Năm: 1977
[15] Stoyan, D., Kendall, W.S. and Mecke, J. (1995). Stochastic Geometry and its Applications (second edtion). New York: Wiley Sách, tạp chí
Tiêu đề: Stochastic Geometry and its Applications (second edtion)
Tác giả: Stoyan, D., Kendall, W.S. and Mecke, J
Năm: 1995
[16]Stoyan, D. and Stoyan, H.(1994). Fractals, Random Shapes and Point Fields.New York: Wiley Sách, tạp chí
Tiêu đề: Fractals, Random Shapes and Point Fields
Tác giả: Stoyan, D. and Stoyan, H
Năm: 1994

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w