Sự thiếu tính tối ưu tiệm cận cho mật độ cố định

Một phần của tài liệu Ước lượng phi tham số cho hàm mật độ ngẫu nhiên (Trang 23 - 31)

1.2 Ước lượng hạch của mật độ

1.2.4 Sự thiếu tính tối ưu tiệm cận cho mật độ cố định

Làm thế nào để chọn được hạchK và dải thông hđể ước lượng hạch của mật độ đạt tối ưu? Một cách cũ và vẫn còn phổ biến là cố định mật độ pvà cực tiểu hóa theo K và h tiệm cận của M ISE. Như chúng ta sẽ chỉ ra sau đây, cách tiếp cận này không phù hợp. Một phương pháp khác để chọn h sẽ được trình bày trong Mục 1.4.

Bổ đề 1.2.2. Nếu f ∈L2(R), thì limδ→0sup

|t|≤δ

Z

(f(x+t)−f(x))2dx= 0.

Chứng minh. Kí hiệu Φ là biến đổi Fourier của f. Với mọi t ∈ R, biến đổi Fourier của f(ã+t) là hàm số ω 7→ Φ(ω)eitω. Áp dụng Định lớ Plancherel,

với mọi t∈R, Z

(f(x+t)−f(x))2dx = Z

|Φ(ω)|2

eitω−1

2dω

= 4 Z

|Φ(ω)|2sin2(ωt/2)dω.

Lấy 0≤δ≤π và |t| ≤δ thì sin2(ωt/2)≤sin2(√

δ/2) ở đó |ω| ≤t−1/2, và ta được

Z

(f(x+t)−f(x))2dx ≤ 4 Z

|ω|≤t−1/2

|Φ(ω)|2sin2(ωt/2)dω+ Z

|ω|>t−1/2

|Φ(ω)|2dω

≤ 4

sin2(ωt/2) Z

|Φ(ω)|2dω+ Z

|ω|>t−1/2

|Φ(ω)|2dω

= o(1) khi δ →0, do Φ∈L2(R).

Mệnh đề 1.2.7. Giả sử rằng:

(i) hàm K là một hạch cấp 1 thỏa mãn các điều kiện Z

K2(u)du <∞, Z

u2|K(u)|du <∞, SK =4 Z

u2K(u)du6= 0;

(ii) mật độ p là khả vi trên R và có đạo hàm bậc nhất p0 liên tục tuyệt đối trên R và đạo hàm bậc 2 thỏa mãn

Z

(p00(x))2dx <∞.

Khi đó với mọi n≥1 sai số bình phương tích phân trung bình của ước lượng hạch pˆn thỏa mãn

M ISE ≡ Ep

Z

(ˆpn(x)−p(x))2dx

= 1

nh Z

K2(u)du+ h4 4 SK2

Z

(p00(x))2dx

(1 +o(1)), (1.24) trong đó o(1) là không phụ thuộc vào n (nhưng phụ thuộc vào p) và tiến tới 0 khi h tiến tới 0.

Chứng minh. Đầu tiên, ta phân tích tích phân phương sai R

σ2(x)dx. Từ (1.5), ta có

Z

σ2(x)dx= 1 nh

Z

K2(u)du− 1 nh2

Z Z K

z−x h

p(z)dz 2

dx.

Từ giả thiết suy ra mật độ xác suất p bị chặn đều trên R. Vì vậy, p thuộc L2(R). Áp dụng bất đẳng thức Cauchy-Schwarz và định lí Tonelli-Fubini, ta được

Z Z +∞

−∞

K

z−x h

p(z)dz 2

dx

Z Z

K

t−x h

dt Z

K

z−x h

p2(z)dzdx

=h2 Z

|K(u)|du 2Z

p2(z)dz.

Bởi vậy

Z

σ2(x)dx= 1 nh

Z

K2(u)du(1 +o(1)), (1.25) trong đó o(1) là không phụ thuộc vào n và tiến tới 0 khi h tiến tới 0.

Tiếp theo, ta xét tích phân độ chệch R

b2(x)dx. Thay l = 2 vào (1.19) ta được

b(x) =h2 Z

u2K(u) Z 1

0

(1−τ)p00(x+τ uh)dτ

du. (1.26) Đặt

b∗ = h4 4

Z

u2K(u)du 2Z

(p00(x))2dx

= h4 Z Z

u2K(u) Z 1

0

(1−τ)p00(x)dτ

du 2

dx,

và xét Z

b2(x)dx−b∗

= h4 Z

A1(x)A2(x)dx

(1.27)

≤ h4 Z

A21(x)dx

1/2Z

A22(x)dx 1/2

với

A1(x)=4 Z

u2K(u) Z 1

0

(p00(x+τ uh)−p00(x)) (1−τ)dτ

du,

A2(x)=4 Z

u2K(u) Z 1

0

(p00(x+τ uh) +p00(x)) (1−τ)dτ

du.

Áp dụng bất đẳng thức Minkowski tổng quát, bất đẳng thức Cauchy-Schwarz và định lí Tonelli-Fubini, ta được

Z Z

u2|K(u)|

Z 1 0

|p00(x+τ uh)|(1−τ)dτ

du 2

dx (1.28)

 Z

u2|K(u)|

Z Z 1 0

|p00(x+τ uh)|(1−τ)dτ 2

dx

!1/2

2

≤ Z

u2|K(u)|

Z Z 1 0

(p00(x+τ uh))2(1−τ)dτ dx Z 1

0

(1−τ)dτ 1/2

du

!2

= 1 4

Z

u2|K(u)|du 2Z

(p00(x))2dx <∞.

Từ đây suy ra tích phân R+∞

−∞ A22(x)dx bị chặn bởi một hằng số không phụ thuộc vào h. Để ước lượng R

A21(x)dx ta chia miền lấy tích phân thành hai phần ứng với |u| ≤h−1/2 và |u|< h−1/2. Khi đó

Z

A21(x)dx ≤

 Z

u2|K(u)|

Z Z 1 0

|p00(x+τ uh)−p00(x)|dτ 2

dx

!1/2

du

2

(1.29)

≤ Z

u2|K(u)|

Z Z 1 0

(p00(x+τ uh)−p00(x))2dτ dx 1/2

du

!2

≤ sup

|u|≤h−1/2

Z 1 0

Z

(p00(x+τ uh)−p00(x))2dτ dx 1/2Z

u2|K(u)|

+2 Z

(p00(x))2dx 1/2Z

|u|>h−1/2

u2|K(u)|du

!2

.

Áp dụng Bổ đề 1.2.2 ta có sup

|u|≤h−1/2

Z 1 0

Z

(p00(x+τ uh)−p00(x))2dxdτ (1.30)

≤ sup

|t|≤h−1/2

Z

(p00(x+τ uh)−p00(x))2dx=o(1), khi h→0. Từ (1.27)-(1.30) ta được

Z

b2(x)dx=b∗(1 +o(1)) khih→0.

Kết hợp với (1.25) ta được M ISE =

Z

b2(x)dx+ Z

σ2(x)dx

= 1

nh Z

K2(u)du(1 +o(1)) +h4 4

Z

u2K(u)du 2Z

(p00(x))2dx(1 +o(1))

= 1

nh Z

K2(u)du+ h4 4 SK2

Z

(p00(x))2dx

(1 +o(1)), từ đó suy ra điều phải chứng minh.

Số hạng chính trong biểu thức (1.24) là 1

nh Z

K2(u)du+ h4 4 SK2

Z

(p00(x))2dx. (1.31) Chú ý rằng nếu K là một hạch không âm, biểu thức (1.31) chính là kết quả khi ta thay β= 2 vào biểu thức (1.22) (trong Định lí 1.2.3).

Phương pháp tối ưu hóa phổ biến mà ta nói tới ở đầu mục này chính là tìm h và hạch không âm K sao cho biểu thức (1.31) đạt giá trị nhỏ nhất.

Giá trị tối ưu của h và K là hM ISE(K) =

R K2 nSK2 R

(p00)2 1/5

, (1.32)

K∗(u) = 3

4(1ưu2)+ (1.33)

(Hạch Epanechnikov). Cụ thể hơn hM ISE(K) =

15 nR

(p00)2 1/5

. (1.34)

Chú ý rằng cách chọn hnhư biểu thức (1.32), (1.34) không khả thi vì chúng phụ thuộc vào đạo hàm cấp 2 của mật độ p chưa biết. Do đó, khi thay K và h xác định bởi công thức (1.33), (1.34) vào (1.1) thì biểu thức thu được không là một ước lượng của p. Ta gọi biểu thức này là giả ước lượng hay ước lượng giả Epanechnikov, và kí hiệu là pEn.Từ Mệnh đề 1.2.7 ta có

n→∞lim n4/5Ep(pEn(x)−p(x))2dx= 34/5 51/5

Z

(p”(x))2dx 1/5

. (1.35) Điều này thường được đưa ra như một tiêu chuẩn cho cách chọn hạch K và dải thông h tối ưu, và (1.35) là ước lượng tốt nhất có thể đạt được của MISE. Ước lượng giả Epanechnikov được cho là ước lượng tối ưu khi ta thay R(p”(x))2dx bằng một ước lượng dựa trên các quan sát (Xi). Bây giờ chúng ta sẽ giải thích tại sao phương pháp tiếp cận tới tối ưu như thế là sai lầm.

Mệnh đề 1.2.8. Giả sử rằng điều kiện (ii) của Mệnh đề 1.2.7 được thỏa mãn và K là một hạch cấp 2 (do đó, SK = 0), sao cho

Z

K2(u)du <∞.

Khi đó với mọi ε >0, bất kì ước lượng hạch pˆn của mật độ với dải thông h=n−1/5ε−1

Z

K2(u)du thỏa mãn

n→∞lim supn4/5Ep

Z

(ˆpn(x)−p(x))2dx≤ε. (1.36) Khẳng định trên vẫn đúng khi ta thaypˆnbởi ước lượng dươngpˆ+n =max(0,pˆn):

n→∞lim supn4/5Ep

Z

(ˆp+n(x)−p(x))2dx≤ε. (1.37)

Chứng minh. Vì K là một hạch cấp 2 nên R

u2K(u)du = 0. Khi đó dựa vào cách đặt b∗ trong chứng minh Mệnh đề 1.2.7 thì b∗ = o(h4), vì vậy R b2(x)dx =o(h4). Lại có tích phân phương sai thỏa mãn (1.25) trong chứng minh Mệnh đề 1.2.7, nên ta có

Z

σ2(x)dx= 1 nh

Z

K2(u)du(1 +o(1)).

Vì vậy Ep

Z

(ˆpn(x)−p(x))2dx= 1 nh

Z

K2(u)du(1 +o(1)) +o(h4).

Với h=n−1/5ε−1R

K2(u)du,ta được Ep

Z

(ˆpn(x)−p(x))2dx = 1 nn−1/5ε−1R

K2(u)du Z

K2(u)du(1 +o(1)) +o(h4)

= ε

n4/5(1 +o(1)) +o(h4), nên

n→∞lim supn4/5Ep

Z

(ˆpn(x)−p(x))2dx≤ε.

Vậy nên (1.36) được chứng minh xong.

Vì Ep[(ˆp+n(x)−p(x))2]≤Ep[(ˆpn(x)−p(x))2], ∀x0 ∈Rnên Ep

Z

(ˆp+n(x)−p(x))2dx≤Ep

Z

(ˆpn(x)−p(x))2dx.

Suy ra

n→∞lim supn4/5Ep Z

(ˆp+n(x)−p(x))2dx≤ lim

n→∞supn4/5Ep Z

(ˆpn(x)−p(x))2dx≤ε, tức là (1.37) được chứng minh.

Ta thấy với mọi ε > 0 đủ nhỏ và giả thiết của p là như nhau thì giá trị tiệm cận của MISE của ước lượng pˆn và pˆ+n trong Mệnh đề 1.2.8 là nhỏ hơn của giả ước lượng Epanechnikov. Chú ý rằng pˆn và pˆ+n là các ước lượng đúng, không phải các ước lượng giả. Do đó, nếu việc đánh giá sai số của ước lượng dựa vào giá trị tiệm cận của MISE của ước lượng ứng với mỗi hàm

mật độ cố địnhp thì có vô số các ước lượng hoàn toàn tốt hơn giả ước lượng Epanechnikov. Hơn thế nữa, Mệnh đề 1.2.8 còn có nghĩa là :

infTn

n→∞lim supn4/5Ep

Z

(Tn(x)−p(x))2dx= 0, (1.38) trong đó infTn là cận dưới đúng lấy trên tập tất cả các ước lượng hạch hoặc lấy trên tập tất cả các phần dương của ước lượng hạch dương.

Ngoài ra, đưa phần ước lượng dương pˆ+n vào trong Mệnh đề 1.2.8 là có mục đích riêng. Vì trên thực tế, ta thường phải sử dụng các hạch không âm bởi hàm mật độ là không âm. Điều này sẽ hỗ trợ cho tính "tối ưu" của hạch Epanechnikov vì hạch này thu được bằng cách cực tiểu hóa giá trị tiệm cận MISE trên tập các hạch không âm. Mệnh đề 1.2.8 đưa ra một ước lượng

ˆ

p+n không âm, và có tiệm cận tương đương với ước lượng pˆn, và có giá trị tiệm cận của MISE nhỏ hơn giá trị tiệm cận của giả ước lượng Epanechnikov.

Mệnh đề 1.2.8 đóng vai trò phản ví dụ. Trên thực tế ước lượng pˆn và pˆ+n chưa phải ước lượng tốt nhất. Dải thông hchứa thừa sốε−1 có thể nhận giá trị lớn bất kì. Thừa số này có tác dụng làm giảm phương sai, trong khi đó, với mỗi p cố định, điều kiện R

u2K(u)du = 0 loại bỏ số hạng chính của độ chệch khi n đủ lớn, tức là khin ≥n0 nào đó (n0 phụ thuộc vào p) sự loại bỏ độ chệch là có thể được với mỗi p cố định nhưng lại không đều theo mọi p thuộc lớp Sobolev các hàm trên với β = 2. Thông điệp của Mệnh đề 1.2.8 là ngay cả một ước lượng không có vẻ tối ưu như pˆn cũng có thể đạt kết quả tốt hơn giả ước lượng Epanechnikov khi ta chỉ xét giá trị tiệm cận của MISE tương ứng với p cố định.

Tóm lại, việc xấp xỉ tiếp cận dựa vào việc cố địnhp không dẫn đến khái niệm tối ưu thống nhất. Trong trường hợp đặc biệt, nói rằng "cách chọn K và h như trong biểu thức (1.32)-(1.34) là tối ưu" là không có nghĩa.

CHÚ Ý

(1) Đôi khi các tiệm cận của MSE (sai số tại một điểm cố định) với pcố định được sử dụng để tìm h và K tối ưu, được xác định bởi các biểu thức giống như biểu thức (1.32) tới (1.34). Chú ý này vẫn còn phù hợp khi thay MSE

bởi MISE.

(2) Kết quả của Mệnh đề 1.2.8 có thể được nâng cao. Dưới giả thiết của p giống như trong Mệnh đề 1.2.7 và 1.2.8, ta có thể xây dựng một ước lượng

˜

pn sao cho

n→∞lim n4/5Ep Z

(˜pn−p(x))2dx= 0. (1.39)

Một phần của tài liệu Ước lượng phi tham số cho hàm mật độ ngẫu nhiên (Trang 23 - 31)

Tải bản đầy đủ (PDF)

(46 trang)