Phân phối xác suất Gauss và chuẩn Z

Một phần của tài liệu Giáo trình xử lý số liệu và quy hoạch thực nghiệm hóa học (Trang 27 - 32)

Chương 2: Hàm phân phối xác suất và chuẩn thống kê

2.1. Phân phối xác suất Gauss và chuẩn Z

2.1.1. Cơ sở thống kê và ứng dụng phân phối Gauss

Hàm số của phân phối Gauss (hay còn gọi là phân phối chuẩn) được biểu diễn bằng phương trình toán học:

φ(x) = 1

σ√2π× e−

(x−μ)2

2σ2 (2.1)

Trong đó:

x là biến số ngẫu nhiên;

 là hằng số, bằng giá trị kỳ vọng của biến ngẫu nhiên;

 là độ lệch chuẩn của biến ngẫu nhiên.

Đặt Z = x−μ

σ (2.2)

Thay vào phương trình 2.1 ta thu được

φ(z) = 1

√2π× e−

z2

2 (2.3)

Z được gọi là chuẩn Z hay chuẩn Gauss.

Đồ thị của hàm phân phối chuẩn có dạng như hình 2.1

Hình 2.1. Đồ thị hàm phân phối xác suất Gauss

Về ý nghĩa hình học của đồ thị, diện tích giới hạn của hàm phân phối với trục hoành (tích phân của hàm phân phối chuẩn) chính là xác suất:

∫−z+zφ(Z) dz = P (xác suất hay tần suất dồn từ –Zσ đến +Zσ) Nếu lấy tích phân trong toàn bộ z từ – đến + thì xác suất bằng 1

∫−∞+∞φ(Z) dz = 1tần suất dồn từ – đến +

Với các giá trị cụ thể của z ta có các trường hợp đặc biệt sau:

Với Z = 1, xác suất P = ∫−1+1φ(Z) dZ = 68.3%

Với Z = 2, xác suất P = ∫−2+2φ(Z) dZ = 95.4%

Với Z = 3, xác suất P = ∫−3+3φ(Z) dZ = 99.7%

Đối với một tập số liệu thực nghiệm có giá trị trung bình x và độ lệch chuẩn , nếu tập số liệu này đủ lớn để có phân bố ngẫu nhiên theo phân phối chuẩn, có thể kết luận như sau:

68.3% các giá trị của tập nằm trong khoảng x –  ≤ x ≤ x + , hoặc giá trị thực nằm trong khoảng x –  ≤ x ≤ x +  với độ tin cậy 68.3%.

95.4% các giá trị của tập nằm trong khoảng x – 2 ≤ x ≤ x + 2, hoặc giá trị thực nằm trong khoảng x – 2 ≤ x ≤ x + 2 với độ tin cậy 95.4%.

99.7% các giá trị của tập nằm trong khoảng x – 3 ≤ x ≤ x + 3, hoặc giá trị thực nằm trong khoảng x – 3 ≤ x ≤ x + 3 với độ tin cậy 99.7%.

Từ hàm phân phối chuẩn, khi cho một giá trị Zi thì ta tính được độ tin cậy thống kê Pi (ứng với một diện tích Pi). Ngược lại, khi cho giá trị Pi thì có thể tính được một giá trị Zi. Có thể tra bảng hoặc sử dụng hàm Excel để biết Z khi biết giá trị P hoặc ngược lại.

Phân phối chuẩn và chuẩn Z có ý nghĩa đặc biệt quan trọng trong kiểm định thống kê (Z–test), đánh giá tập số liệu thực nghiệm, ước lượng giá trị đo lường (tính ε), kiểm soát chất lượng trong hoạt động kiểm nghiệm (control chart), thử nghiệm thành thạo (Z–score),...

2.1.2. Tính toán phân phối Gauss bằng hàm Excel

Hàm phân phối chuẩn được tính bằng hàm Norm.dist trong Excel với cú pháp:

fx=NORM.DIST(x, mean, standard_dev, cumulative) Trong đó:

x: giá trị cần xem xét của tập số liệu Mean: giá trị trung bình

Standard_dev: độ lệch chuẩn

Cumulative: giá trị logic, nếu là True sẽ trả về giá trị phân phối tích lũy, False trả giá trị mật độ xác suất.

Đối với hàm phân phối tích lũy chuẩn tắc (là phân phối chuẩn có giá trị trung bỡnh à = 0 và độ lệch chuẩn σ = 1), giỏ trị hàm được tớnh theo hàm Normsdist với cú pháp: fx=NORMSDIST(Z)

Ngược lại, khi biết giá trị độ tin cậy xác định, có thể dùng hàm Excel tính toán giá trị chuẩn Z theo hàm Normsinv với cú pháp:

fx=NORMSINV(probability).

Ví dụ 2.1: Tính giá trị và vẽ đồ thị hàm phân phối của tập số liệu thực

nghiệm sau:

0.678 0.512 0.732 0.514 0.808 0.544 0.878 0.600 0.610 0.660 0.728 0.766 0.842 0.882

Giải:

Để tính giá trị phân phối chuẩn φ(x) của tập số liệu thực nghiệm ta thực hiện nhập bảng số liệu và sắp xếp theo thứ tự từ nhỏ đến lớn (Data/sort/AZ) và thực hiện tính theo cú pháp ở trên ta thu được kết quả và đồ thị như hình sau:

Nếu chọn giá trị hàm phân phối dạng mật độ xác suất (khi cumulativeFalse) kết quả và đồ thị tương ứng thu được có dạng như sau:

Ví dụ 2.2: Một khảo sát về mức độ ô nhiễm coliform trong nước thải công nghiệp cho kết quả trung bình là 1100 mg/L với độ lệch chuẩn là 150 mg/L (n > 30). Tính xác suất các mẫu trong mỗi trường hợp:

a) Lượng coliform nhỏ hơn 1250 mg/L b) Lượng coliform lớn hơn 1250 mg/L

c) Lượng coliform có giá trị từ 950 – 1250 mg/L.

Giải:

a) Sử dụng hàm NORM.DIST(x, mean, standard_dev, cumulative), với x= 1250; Sd = 150, cumulative # true cho xác suất các mẫu có hàm lượng coliform <1250.

Xác suất P = NORM.DIST(1250, 1100, 150, true) = 0.8413. Số mẫu có mức độ ô nhiễm coliform nhỏ hơn 1250 mg/L, chiếm 84.13%.

b) Xác suất mẫu có mức độ ô nhiễm lớn hơn 1250 mg/L = 1 – 0.8413

= 0.1587, chiếm 15.87%.

c) Xác suất mẫu có mức độ ô nhiễm từ 950 – 1250 = 0.8413 – 0.1587

= 0.6827, chiếm 68.27%.

Nhận xét: Khoảng nồng độ coliform từ 950 –1250 tương ứng với x –

 ≤ x ≤ x + , do vậy xác suất tương ứng của khoảng giá trị này là 68.3%.

Ví dụ 2.3: Dùng hàm Excel tính xác suất theo phân phối chuẩn phía trái của một tập số liệu thực nghiệm khi Z lần lượt là –3, 3 và xác suất trong khoảng của Z = (–3, 3).

Giải:

Với Z = 3, độ tin cậy P (Z<3) =NORMSDIST(3)= 0.998650 Với Z = –3, độ tin cậy P (Z<–3) =NORMSDIST(–3)= 0.001350 Độ tin cậy ứng với Z = (–3, 3), P (–3< Z < 3)= 0.998650 – 0.001350

= 0.997300 tương đương với 99.7% cho xác suất hai phía khi Z = 3.

Ví dụ 2.4: Dùng hàm Excel tính giá trị chuẩn Z của một giá trị nhất định trong tập số liệu theo phân phối chuẩn phía trái ứng với độ tin cậy 97.725 % và 2.275 %.

Giải:

Ứng với độ tin cậy là 97.725 %, Z=NORMSINV(0.97725) 2 Ứng với độ tin cậy là 2.275 %, Z=NORMSINV(0.02275) – 2 Từ kết quả trên ta thấy giá trị xác suất tương ứng với khoảng Z = (– 2, 2) sẽ là: P(–2 < Z <2) = 97.725% – 2.275 % = 95.45%.

Một phần của tài liệu Giáo trình xử lý số liệu và quy hoạch thực nghiệm hóa học (Trang 27 - 32)

Tải bản đầy đủ (PDF)

(299 trang)