Phạm vi khóa học
Ở khóa học này chúng ta sẽ học các nội dung cơ bản về thống kê học.
Những kiến thức cơ bản về thống kê rất quan trọng, đặc biệt nếu bạn chưa từng nghiên cứu về lĩnh vực này Trước khi dấn thân vào những cuốn sách khó về thống kê, hãy tham gia khóa học này để nắm vững nền tảng và chuẩn bị tốt hơn cho việc học tập sau này.
Khóa học này sẽ bắt đầu với thống kê mô tả, tập trung vào ước tính và thử nghiệm, trước khi chuyển sang kết nối với khóa học máy học.
Khóa học này sẽ giúp bạn nắm vững các ý tưởng cơ bản về thống kê, từ đó bạn có thể đọc hiểu các sách thống kê khác một cách dễ dàng hơn Kiến thức này rất quan trọng cho việc nghiên cứu học máy, vì vậy hãy chắc chắn củng cố những kiến thức cơ bản trong khóa học!
Sử dụng Python trong khóa học này
Trong khóa học này, tôi sẽ sử dụng Python để tiếp cận với thống kê Nếu bạn không quen thuộc với mã Python, bạn có thể bỏ qua các phần có chứa mã Tuy nhiên, để phù hợp với mục tiêu hướng tới khoa học dữ liệu (Data Science), việc nắm vững một số kiến thức cơ bản về Python sẽ hữu ích Khóa học sẽ chủ yếu sử dụng các thư viện Python như NumPy, Pandas, matplotlib, và seaborn, cùng với hai thư viện mới là SciPy (stats) và scikit-learn.
SciPy là thư viện mở của python trong khoa học, đọc là sai-pai Nó dựa trên NumPy
Bài 1 về thống kê mô tả và suy luận thống kê cung cấp những kiến thức quan trọng cho khoa học và kỹ thuật Nó bao gồm các mô-đun hữu ích như bài toán thống kê, tối ưu hóa, tích phân và đại số tuyến tính, giúp người học nắm vững các kỹ năng cần thiết trong lĩnh vực này.
Trong khóa học này, chúng ta sẽ khám phá thống kê thông qua module stats trong SciPy Bên cạnh đó, scikit-learn, một thư viện mã nguồn mở của Python, sẽ được sử dụng để áp dụng vào các thuật toán chính trong lĩnh vực máy học.
Scikit-learn là một thư viện máy học, phát triển từ SciPy Toolkit, nhưng có thể được coi là một thư viện độc lập Ngoài ứng dụng chính trong máy học, scikit-learn cũng được sử dụng một phần trong thống kê Cả SciPy và scikit-learn đều có sẵn trong Anaconda.
Trong khóa học này, chúng tôi sẽ thực hành viết code Python, tuy nhiên, cần lưu ý rằng mã nguồn không nhất thiết phải đạt tiêu chuẩn "tối ưu" Điều này là do khóa học không tập trung vào việc dạy Python một cách chuyên sâu.
Thống kê là gì?
Thống kê là một lĩnh vực khoa học chuyên nghiên cứu các phương pháp và cách tiếp cận để phân tích dữ liệu Dữ liệu thống kê được hình thành khi chúng ta thu thập các giá trị quan sát và đo lường từ một đối tượng mà chúng ta muốn nghiên cứu.
Để tìm hiểu thu nhập hàng năm của một nhà khoa học dữ liệu tại Nhật Bản, trước tiên chúng ta cần tìm kiếm thông tin liên quan đến mức thu nhập của họ Những giá trị thu thập và tổng hợp này được gọi là dữ liệu thống kê.
Trong khóa học này, tôi chia thống kê làm hai nhóm lớn:
• Thống kê mô tả ( descriptive statistics ).
• Thống kê luận lý ( thống kê suy luận) ( inferential statistics ).
Nghe qua những từ ngữ trên bạn đừng nghĩ là khó nhé, nó không khó đâu.
Tầm quan trọng của việc trực quan hóa dữ liệu bằng cách sử dụng các biểu đồ phân tán cũng đã được thực hiện trong khóa học Python.
Mặc dù biểu đồ phân tán giúp ta nhận diện xu hướng của dữ liệu, nhưng nó vẫn có những hạn chế Để khắc phục điều này, tôi muốn áp dụng kiến thức số học cơ bản nhằm phân tích và làm rõ hơn về tập dữ liệu này.
Khi xem xét thu nhập hàng năm của các chuyên gia khoa học dữ liệu tại Nhật Bản, ta nhận thấy rằng mức thu nhập này vượt trội hơn so với người lao động bình thường Tuy nhiên, để hiểu rõ mức chênh lệch cụ thể, cần có các chỉ số dễ hiểu và minh bạch.
Chẳng hạn nhìn vào mức thu nhập bình quân (trung bình) cũng được, hoăc có thể sử dụng giá trị trung tâm.
Sử dụng các chỉ số này cho phép chúng ta phân tích dữ liệu một cách chính xác, ngay cả khi số lượng dữ liệu hiển thị không nhiều và không cần phải có nhiều người tham gia.
1.3 THỐNG KÊ LÀ GÌ? 7 À, bạn có thể nghĩ ồ việc như thế cũng có thể làm được hay sao, vậy thì phải cố học thống kê thôi!
Dữ liệu mẹ, hay còn gọi là population trong tiếng Anh, là những thông tin có ý nghĩa được thu thập từ thực tế Từ dữ liệu quan sát này, chúng ta sẽ chọn ra một phần dữ liệu để nghiên cứu, gọi là dữ liệu mẫu hoặc dữ liệu tiêu bản, tương ứng với thuật ngữ sample trong tiếng Anh Suy luận thống kê là quá trình sử dụng dữ liệu mẫu để rút ra những đặc tính của dữ liệu cha.
Suy luận thống kê bao gồm hai hình thức chính: Ước lượng và Kiểm định Ước lượng được sử dụng để suy ra tỷ lệ hoặc giá trị trung bình từ một mẫu dữ liệu, ví dụ như "Thu nhập trung bình hàng năm của các nhà khoa học dữ liệu Nhật Bản là XX" hoặc "Tỷ lệ nam-nữ trong ngành khoa học dữ liệu tại Nhật Bản là XX."
Kiểm định là quá trình đưa ra câu trả lời Có hoặc Không cho các câu hỏi dựa trên kết quả khảo sát từ mẫu Ví dụ, một câu hỏi có thể là: "Thu nhập hàng năm của các nhà khoa học dữ liệu Nhật Bản có tăng so với năm ngoái không?"
Hầu hết mọi người thường liên tưởng "thống kê" với thống kê suy luận, nhưng thống kê ước lượng thực sự là phần cốt lõi của thống kê Kiến thức về thống kê mô tả là điều cần thiết để thực hiện ước lượng và kiểm định Do đó, trong khóa học này, chúng ta sẽ tập trung nghiên cứu thống kê mô tả trước khi chuyển sang thống kê suy luận.
Bài 1: Thống kê mô tả và suy luận thống kê có thể gây khó khăn cho nhiều người Tuy nhiên, bạn không cần phải lo lắng hay nhớ tất cả các thuật ngữ ngay lập tức Hãy tiếp cận từng bước một để làm quen với nội dung này một cách dễ dàng hơn.
Sau đó, từ lần sau, tôi sẽ giải thích "giá trị đại diện" đầu tiên của thống kê mô tả!
Giá trị đại diện trong thống kê bao gồm hai lĩnh vực chính: thống kê mô tả và thống kê suy luận Thống kê mô tả tập trung vào việc phân tích dữ liệu từ các quan sát thực tế Để hiểu rõ hơn về kết quả phân tích, chúng ta cần các chỉ số thể hiện đặc tính của dữ liệu Bài học này sẽ giới thiệu các chỉ số quan trọng phản ánh đặc tính của dữ liệu.
Cũng từ đây, chúng ta sẽ sử dụng Python để tính toán chỉ số của dữ liệu.
Giá trị đại diện của dữ liệu
Nó có một cái tên khá khó hiểu, nhưng mấu chốt là giá trị được sử dụng để giải thích ý nghĩa của dữ liệu.
Khi bạn mua 5 quả táo tại siêu thị, nếu được hỏi về trọng lượng của một quả táo, bạn thường sẽ cung cấp trọng lượng trung bình của năm quả táo "Giá trị trung bình" ở đây được sử dụng như một đại diện cho trọng lượng của quả táo mà bạn đã mua.
Giá trị đại diện chỉ được thể hiện bằng một con số và đóng vai trò quan trọng trong việc đánh giá tài sản tổng thể Trong cuộc sống hàng ngày, bạn thường sử dụng khái niệm này để xác định kích thước của những quả táo mà bạn mua Hôm nay, chúng ta sẽ đi sâu vào việc tìm hiểu về giá trị trung bình này.
Trung bình số học thường được biết đến là gì (trung bình cộng)
Giá trị trung bình cộng (arithmetic mean) chỉ là một trong nhiều loại giá trị trung bình khác nhau Điều này cho thấy có nhiều phương pháp để tính toán và hiểu các giá trị trung bình trong thống kê.
Ví dụ: Tôi có 5 quả táo có trọng lượng như sau 295g, 300g, 300g,310g, 311g Chúng có khối lượng trung bình là:
Trong python, ta có thể dùng thư viện numpy để tính toán giá trị trung bình cộng như sau:
10 BÀI 2 GIÁ TRỊ ĐẠI DIỆN
Giá trị trung bình cộng của một dãy số được tính bằng tổng các số trong dãy chia cho số lượng số hạng Công thức toán học để biểu diễn điều này là: ¯x = (x1 + x2 + + xn) / n.
Sử dụng tỷ suất (trung bình hình học)
Chúng ta hãy xem xét ví dụ sau:
Người ta thống kê được rằng nhân viên một công ty từ khi gia nhập vào một công ty có độ thăng tiến về thu nhập như sau:
-Sau một năm làm việc thì lương tăng so với năm trước là5%.
-Sau hai năm làm việc thì lương tăng so với năm trước là10%.
-Sau ba năm làm việc thì lương tăng so với năm trước là 30%.
Giả sử khi mới gia nhập một công ty, lương anh nhân viên là 500 đô la Vậy bây giờ (sau
3 năm) thì lương của anh ấy là bao nhiêu?
Mức tăng trung bình hàng năm là một câu hỏi quan trọng mà nhiều người quan tâm Nếu áp dụng công thức tính giá trị trung bình cho các mức tăng 5%, 10% và 30%, chúng ta có thể tính toán được mức tăng lương bình quân hàng năm.
Nào, bây giờ tôi giả định tỷ suất tăng lương hàng năm là g Khi đó ta có:
Nếu ta coi m g = (1 +g), ta có:x 1 = (1 + 0.05),x 2 = (1 + 0.01),x 3 = (1 + 0.3).
Ta có công thức: m g 3 =x 1 x 2 x 3 ⇒m g = √ 3 x 1 x 2 x 3 Giá trị này gọi là trung bình hình học (geometric mean) Nó được sử dụng khi tính tỷ suất trung bình.
Như vậy nếu là trung bình cộng thì ta có công thức:x1+x2+x3
3 Trong trường hợp tính tỷ suất trung bình thì là: √ 3 x 1 x 2 x 3 Tổng quát ta có:
Trung bình điều hòa
Ta hãy thử tính giá trị trung bình hình học bằng Python Ở đây tôi sẽ sử dụng module stats trong SciPy.
Các bạn có thể sử dụng scipy.stats.gmean()để tính.
Từ nay, khi được hỏi về tỷ suất tăng lương trung bình hàng năm, bạn nên áp dụng công thức tính giá trị trung bình hình học để có được kết quả chính xác và đáng tin cậy.
2.4 Trung bình điều hòa Ở phần này tôi xin giới thiệu một khái niệm trung bình nữa, đó là trung bình điều hòa, có tên tiếng anh là harmonic mean.
Nghịch đảo của trung bình nghịch đảo, hay còn gọi là "harmonic mean," là một khái niệm có vẻ phức tạp Để hiểu rõ hơn, hãy xem xét một số ví dụ cụ thể.
Chẳng hạn một người đi từ A tới B với vận tốc là x 1 km/h.Ở chiều về anh ta đi từ B tới
A với vận tốc là x 2 km/h.
Như vậy vận tốc trung bình là bao nhiêu? Nhiều người sẽ nghĩ rằng đó chẳng phải là x 1 +x 2
2 km/h hay sao? Tuy nhiên chúng ta hãy xem xét vấn đề dưới góc độ thời gian như sau:
Thời gian anh ta đi quãng đường 2.AB là bao lâu nếu coi d (km) là khoảng cách AB, ta có: d x 1 + d x 2 (đơn vị thời gian).
Như vậy vận tốc trung bình mà anh ta đã đi là quãng đường chia cho thời gian:
Nhìn vào công thức này ta thấy nó có hình thù là nghịch đảo của trung bình cộng của nghịch đảo.
Khi anh ta di chuyển với vận tốc 20 km/h trên chiều đi và 60 km/h trên chiều về, việc tính vận tốc trung bình không thể sử dụng công thức trung bình cộng đơn giản Thay vào đó, cần áp dụng công thức nghịch đảo, cụ thể là tính nghịch đảo của (1/20 + 1/60)/2, dẫn đến kết quả vận tốc trung bình chỉ là 30 km/h.
Một cỏch tổng quỏt, nếu ta cú n số hạng x 1 , x 2 ã ã ã , x n , khi đú trung bỡnh điều hũa là: m h = 1
12 BÀI 2 GIÁ TRỊ ĐẠI DIỆN
Trong Python ta có cách tính trung bình điều hòa bằng cách sử dụng scipy.stats.hmean() như sau:
Mặc dù không thường xuyên được sử dụng như một giá trị đại diện, công thức này vẫn xuất hiện trong quá trình học lý thuyết máy học Do đó, tôi muốn giới thiệu nó đến các bạn để mở rộng kiến thức.
Tính chất quan trọng của giá trị trung bình cộng
Giá trị trung bình cộng có nhiều tính chất quan trọng, trong đó hai tính chất nổi bật cần được nhấn mạnh Đầu tiên, tổng độ lệch từ các điểm dữ liệu đến giá trị trung bình cộng luôn bằng 0.
Khi xem xét 5 quả táo với trọng lượng lần lượt là 295g, 300g, 300g, 310g và 311g, ta tính được giá trị trung bình là 303.2g Bằng cách lấy trọng lượng từng quả táo trừ đi giá trị trung bình và cộng tất cả các kết quả lại, ta sẽ nhận được tổng bằng 0.
2 5 6 8 4 3 4 1 8 8 6 0 8 0 8 0 2e - 14 e−14 có nghĩa là10 −14 ,nó có giá trị xấp xỉ là 0.
Giá trị trung bình đại diện cho vị trí trung tâm trong tập dữ liệu, với độ lệch từ các điểm dữ liệu xung quanh nó có thể là dương hoặc âm, dẫn đến việc chúng triệt tiêu lẫn nhau và tổng độ sai khác bằng 0 Độ sai khác này được gọi là Thiên Sai, trong đó "Thiên" ám chỉ sự thiên lệch về một phía, còn "Sai" mang nghĩa sai khác Một thuật ngữ dễ hiểu hơn có thể là "độ lệch".
Một tính chất quan trọng là tổng các bình phương độ lệch từ các điểm dữ liệu tới giá trị trung bình đạt giá trị nhỏ nhất Đối với một giá trị X bất kỳ, tổng các bình phương độ sai khác từ dữ liệu tới X được biểu diễn là S(X) = Σ (x_i - X)² Để xác định giá trị của X mà tổng này nhỏ nhất, ta cần tính đạo hàm của biểu thức S(X) và tìm điều kiện khi nào đạo hàm này bằng 0: dS(X)/dX = -2n.
Tổng kết
Biến đổi là khái niệm mà nhiều người đã nắm bắt, nhưng nếu vẫn có người chưa hiểu rõ thì cũng không vấn đề gì Điều này có thể được chấp nhận mà không cần phải đưa ra bằng chứng cụ thể.
Các tính chất này, mặc dù có vẻ hiển nhiên, nhưng lại đóng vai trò quan trọng trong việc giải thích lý thuyết thống kê trong tương lai.
Trong bài học này, tôi đã trình bày cách giải thích dữ liệu thông qua các chỉ số dễ hiểu, với sự chú trọng vào các giá trị đại diện, đặc biệt là giá trị trung bình, được sử dụng phổ biến nhất để phân tích dữ liệu.
Trong bài viết này, giá trị trung bình được hiểu là giá trị trung bình cộng, trừ khi có ghi chú khác Thuật ngữ "trung bình" trong khuôn khổ khóa học này ám chỉ đến trung bình số học, hay còn gọi là trung bình cộng.
• Giá trị đại diện là giá trị đại diện cho dữ liệu Chỉ một giá trị được sử dụng để đánh giá bản chất của toàn bộ dữ liệu.
• Trung bình là một trong những chỉ số thường được sử dụng làm giá trị đại diện.
• Chú ý rằng giá trị trung bình hình học được sử dụng trong trường hợp giá trị dữ liệu là tỷ suất.
• Để tính giá trị trung bình hình học ta dùng scipy.stats.gmean(), và để tính giá trị trung bình điều hòa ta sử dụng scipy.stats.hmean()
• Tổng độ lệch từ các điểm dữ liệu tới giá trị trung bình cộng là 0.
• Giá trị trung bình cộng là giá trị mà tại đó tổng các bình phương của độ lệch từ các điểm dữ liệu tới nó là nhỏ nhất.
Học thuộc các công thức và ký hiệu có thể rất khó khăn, nhưng điều này là cần thiết để nắm vững kiến thức Trong bài viết tiếp theo, tôi sẽ giới thiệu thêm những giá trị đại diện khác để giúp bạn hiểu rõ hơn.
14 BÀI 2 GIÁ TRỊ ĐẠI DIỆN
Giá trị đại diện khác
Tôi đã đề cập đến chỉ số quan trọng nhất, "trung bình", trong "giá trị đại diện", là
Giá trị giải thích các đặc điểm của toàn bộ dữ liệu, tuy nhiên, còn nhiều giá trị khác có thể được sử dụng làm giá trị đại diện Trong bài viết này, tôi sẽ giới thiệu ngắn gọn về những giá trị đó.
Giá trị trung vị, giá trị giữa
Giá trị trung vị (median) là một khái niệm quan trọng trong Khoa học dữ liệu, thường xuất hiện trong các công cụ như NumPy và boxplot của Seaborn Đây là chỉ số giúp xác định giá trị nằm ở giữa khi sắp xếp dữ liệu theo thứ tự tăng dần Đối với tập dữ liệu có số lượng chẵn, giá trị trung vị được tính bằng cách lấy trung bình cộng của hai số ở giữa.
2 Gia tri t r u n g b i n h la 4 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 Để làm rõ trong trường hợp dữ liệu có số chẵn phần tử:
Khi các giá trị dữ liệu gần giống nhau, giá trị trung bình có thể được sử dụng làm đại diện Tuy nhiên, nếu có các giá trị ngoại lệ (outlier) lệch khỏi phân phối tổng thể, việc sử dụng giá trị trung bình có thể không phản ánh chính xác tình hình dữ liệu.
Khi phân tích dữ liệu như thu nhập hàng năm hoặc tài sản, giá trị trung vị thường là lựa chọn tốt hơn giá trị trung bình, bởi vì giá trị trung vị ít bị ảnh hưởng bởi các giá trị ngoại lệ Trong khi giá trị trung bình có thể bị biến đổi lớn nếu có các giá trị đột biến, giá trị trung vị giữ được tính chính xác hơn trong các trường hợp này Tuy nhiên, việc tính toán giá trị trung vị phức tạp hơn, vì cần phải sắp xếp dữ liệu trước khi xác định giá trị ở giữa, điều này đặc biệt rõ rệt khi xử lý lượng dữ liệu lớn Chúng ta sẽ sử dụng NumPy để tính toán giá trị trung bình và giá trị trung vị, đồng thời so sánh thời gian tính toán bằng cách sử dụng time.time().
9 # T h o i g i a n sau khi t i n h t o a n gia tri t r u n g b i n h c o n g ( sec )
16 # T h o i g i a n sau khi t i n h t o a n gia tri t r u n g vi
Hàm time.time() trong Python sẽ trả về thời gian thực thi dưới dạng giây, giúp bạn tính toán thời gian cho các xử lý Để hiển thị giá trị số thập phân với hai chữ số sau dấu phẩy, bạn có thể sử dụng định dạng {:.2f}, rất tiện lợi khi làm việc với thời gian Trong phân phối chuẩn, giá trị trung bình và giá trị trung vị đều xấp xỉ 0, với phương sai là 1, cho thấy mức độ phân tán của dữ liệu.
Giá trị xuất hiện nhiều lần nhất: Tối Tần Trị
Tối tần trị (mode) là giá trị đại diện cho dữ liệu, không giống như giá trị trung bình hay giá trị trung vị Đây là giá trị xuất hiện nhiều lần nhất trong một bảng dữ liệu, giúp xác định xu hướng phổ biến trong tập hợp số liệu.
Giá trị xuất hiện nhiều lần nhất, hay còn gọi là tối tần trị, là giá trị có tần suất xuất hiện cao nhất trong một phân bố dữ liệu Khi sắp xếp dữ liệu theo số lần xuất hiện, tối tần trị giống như đỉnh núi cao nhất, thể hiện mật độ xuất hiện nhiều nhất trong xác suất thống kê.
Nếu dữ liệu thống kê rất tập trung vào một giá trị cụ thể, thì giá trị tối tần trị sẽ là lựa chọn phù hợp hơn so với giá trị trung bình hoặc trung vị để đại diện cho dữ liệu đó.
Ta có thể sử dụng scipy.stats.mode() để tính tối tần trị.
2 # Tra ve Toi Tan Tri ( m o d e ) va so lan x u a t h i e n cua no
4 # Neu tim t h a y hai gia tri Toi Tan Tri , no se tra ve gia tri nho hon T r o n g vi du nay so
5 # Vi vay gia tri tra ve la 3 , vi 3 < 4
Nếu đầu vào là một mảng NumPy Array hai chiều Khi đó mode sẽ được tính như thế nào?
Khi chỉ định axis=0, hàm sẽ duyệt qua từng cột dữ liệu trong ma trận Mỗi cột sẽ có một giá trị mode riêng, và với bốn cột dữ liệu, chúng ta sẽ có bốn giá trị mode tương ứng Mỗi giá trị mode sẽ đi kèm với số lần xuất hiện của nó trong cột dữ liệu.
Chế độ mặc định là axis=0, tuy nhiên bạn có thể chỉ định axis=1, khi đó nó sẽ duyệt theo hàng Bạn hãy thử thực hành nhé.
18 BÀI 3 GIÁ TRỊ ĐẠI DIỆN KHÁC
Tổng kết
Bài viết này giới thiệu ba giá trị đại diện trong thống kê: giá trị trung bình, trung vị và tối tần trị Tối tần trị là giá trị xuất hiện nhiều nhất trong một tập dữ liệu, với "tối" nghĩa là tối đa và "tần" liên quan đến tần suất Những giá trị này giúp phân tích và hiểu rõ hơn về dữ liệu.
• Giá trị trung vị là giá trị nằm ở trung tâm trong dữ liệu sau khi đã được sắp xếp tuần tự từ nhỏ đến lớn.
Giá trị trung vị có ưu điểm nổi bật là ít bị ảnh hưởng bởi các giá trị ngoại lai nằm xa vùng phân bố của dữ liệu, điều này làm cho nó trở thành một chỉ số thống kê đáng tin cậy hơn so với giá trị trung bình.
Để tính toán giá trị trung vị, cần sắp xếp lại dữ liệu, điều này khiến cho quá trình tìm trung vị tốn nhiều thời gian hơn so với việc tính giá trị trung bình.
• Để tính toán thời gian xử lý trong Python có thể sử dụng time.time()
• Tối tần trị là giá trị xuất hiện nhiều lần nhất trong dữ liệu.
Câu chuyện của chúng ta đã kết thúc một cách dễ hiểu Những giá trị này sẽ hữu ích trong việc giải thích các phân phối khác nhau trong thống kê trong tương lai, vì vậy hãy ghi nhớ chúng.
Mức độ phân tán (Sử dụng phạm vi và vị trí phần tư)
Để hiểu rõ hơn về giá trị đại diện trong dữ liệu, chúng ta cần xác định giá trị nào thực sự phản ánh đặc trưng của toàn bộ tập dữ liệu Trong trường hợp trọng lượng của táo, giá trị trung bình có thể đủ để mô tả thông tin do sự chênh lệch trọng lượng không lớn Tuy nhiên, với những con chó có trọng lượng khác nhau, chỉ sử dụng trọng lượng trung bình sẽ không đủ để đánh giá toàn diện Khi dữ liệu có sự chênh lệch lớn, chúng ta cần một chỉ số phân tán để hiểu rõ hơn về sự phân bố của dữ liệu, từ đó kết hợp với các giá trị đại diện để đưa ra đánh giá chính xác hơn về các đặc điểm của toàn bộ dữ liệu.
Phạm vi của giá trị
Trong số các con chó mà bạn nuôi, trọng lượng của chúng lần lượt là 10kg, 13kg, 17kg, 20kg và 29kg, với trọng lượng trung bình là 17.8kg Tuy nhiên, chỉ dựa vào trọng lượng trung bình này để nói rằng các con chó có trọng lượng khoảng 17.8kg là không hợp lý, vì sự chênh lệch giữa con nhỏ nhất (10kg) và con lớn nhất (29kg) lên tới 19kg Do đó, việc chỉ nhấn mạnh vào trọng lượng trung bình sẽ không phản ánh chính xác sự đa dạng về kích thước và trọng lượng của các con chó.
Con chó tôi nuôi có trọng lượng trung bình là 17.8kg, nằm trong khoảng từ 10kg đến 29kg, giúp người nghe hình dung rõ hơn về mức độ phân tán của dữ liệu Độ phân tán này có thể được thể hiện qua sự chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất, được gọi là phạm vi (range).
20 BÀI 4 MỨC ĐỘ PHÂN TÁN (SỬ DỤNG PHẠM VI VÀ VỊ TRÍ PHẦN TƯ)
Giá trị trung bình là 17.8kg với phạm vi 19kg, giúp người nghe hình dung rõ hơn về thực tế Tuy nhiên, nếu không xem xét các giá trị gây nhiễu và trường hợp ngoại lệ, chúng ta sẽ không thể giải quyết triệt để các vấn đề thực tiễn.
Do đó tiếp theo tôi sẽ giới thiệu một chỉ số thường được sử dụng, đó là vị trí phần tư.
Phạm vi sử dụng phần tư và độ lệch phần tư
Các giá trị cực trị như giá trị tối thiểu và tối đa thường bị ảnh hưởng bởi các giá trị ngoại lệ Do đó, một chiến lược hiệu quả là sử dụng các giá trị gần với giá trị trung bình hơn để xác định mức độ phân tán.
Sau khi sắp xếp dữ liệu theo thứ tự tăng dần, chúng ta chia dữ liệu thành bốn phần bằng nhau dựa trên ba cột mốc Q1, Q2 và Q3, được gọi là vị trí phần tư (quartile) Giá trị tại các vị trí này giúp xác định độ lệch phần tư (thiên sai phần tư) của dữ liệu.
Phương pháp chia bốn phần bằng nhau rất đơn giản Đầu tiên tìm tới giá trị trung vị, nó chia dữ liệu làm hai nửa trước và nửa sau.
Để tìm trung vị của dữ liệu, ta chia nó thành hai nửa và xác định trung vị cho mỗi nửa Nếu số lượng dữ liệu là lẻ, ta sẽ tính trung bình của hai số ở giữa để có được giá trị trung vị.
Mỗi phần tư trong thống kê bao gồm các điểm Q1, Q2 và Q3, tương ứng với phần tư thứ nhất, phần tư thứ hai và phần tư thứ ba Đặc biệt, phần tư thứ hai chính là giá trị trung vị.
Vậy thì Q 3 −Q 1 sẽ được coi là phạm vi phần tư (interquartile range: IQR), một nửa giá trị này là Q3−Q1
Thiên sai phần tư, hay còn gọi là độ lệch phần tư (QD), được xác định bằng công thức QD = Q3 - Q2 Tuy nhiên, cần lưu ý rằng thông tin này có thể gây nhầm lẫn, vì vậy cần thận trọng khi áp dụng.
IQR và QD là các chỉ số quan trọng dùng để đo lường độ phân tán của dữ liệu Khác với phạm vi (range), IQR và QD không bị ảnh hưởng bởi các giá trị ngoại lệ, giúp phản ánh chính xác hơn sự phân bố của dữ liệu.
Ta có thể sử dụng scipy.stats.iqr() để tính IQR.
Điểm hạn chế của phạm vi và phạm vi phần tư
9 # C h i e u cao cua box la IQR
4.3 Điểm hạn chế của phạm vi và phạm vi phần tư
Bạn thấy thế nào? Chỉ số này có lẽ là khó hiểu đúng không?
Phạm vi có nhược điểm lớn là dễ bị ảnh hưởng bởi các yếu tố ngoại lệ, dẫn đến việc không phản ánh chính xác bản chất của dữ liệu Mặc dù phạm vi phần tư và độ lệch giữa các phần tư giúp xác định nơi dữ liệu phân tán tập trung, nhưng chúng vẫn không đủ để mô tả toàn bộ mức độ phân tán của dữ liệu, vì không phải tất cả dữ liệu đều được xem xét Do đó, những phương pháp này có thể chưa đáp ứng hoàn toàn nhu cầu phân tích của bạn.
Chúng ta có thể sử dụng chỉ số trung bình thiên sai, hay trung bình độ sai khác, để dễ dàng hiểu và phân tích toàn bộ dữ liệu Trong phần tiếp theo, tôi sẽ giải thích về phân tán và độ lệch chuẩn.
Khái niệm về độ phân tán và độ lệch chuẩn là rất quan trọng và thường được nhắc đến trong nhiều lĩnh vực Nhiều người có thể đã nghe về chúng, nhưng để hiểu rõ hơn, tôi sẽ trình bày chi tiết hơn ở phần sau.
Tổng kết
Trong bài học này, tôi đã trình bày về phạm vi phần tư và độ lệch phần tư, nhằm thể hiện mức độ phân tán của dữ liệu từ giá trị cực đại đến giá trị cực tiểu.
22 BÀI 4 MỨC ĐỘ PHÂN TÁN (SỬ DỤNG PHẠM VI VÀ VỊ TRÍ PHẦN TƯ)
• Phạm vi (range) = Giá Trị Cực Đại - Giá Trị Cực Tiểu: Dễ bị ảnh hưởng bởi giá trị ngoại lệ (dữ liệu gây nhiễu).
• Phần tư (quartile): Giá trị tại vị trí chia dữ liệu thành bốn phần bằng nhau khi mà dữ liệu đã được sắp xếp từ nhỏ tới lớn.
• Phần tư thứ hai là giá trị trung vị.
• Phạm vi phần tư (IQR) =Q 3 −Q 1 Ít bị ảnh hưởng bởi giá trị ngoại lệ.
• Độ lệch phần tư (thiên sai phần tư) (QD) : là một nửa của IQR.
• Những khái niệm nói trên không biểu diễn toàn bộ dữ liệu, chưa đầy đủ.
Phần tư là một khái niệm quan trọng trong thống kê, thường được sử dụng trong các khóa học dữ liệu để đánh giá mức độ phân tán của dữ liệu Tuy nhiên, khi xem xét độ phân tán, phạm vi phần tư và thiên lệch phần tư không phải là những chỉ số thích hợp để đo lường mức độ dàn trải của dữ liệu.
Trong phần tiếp theo, chúng ta sẽ khám phá một chỉ số quan trọng về mức độ phân tán, đó là phân bố và độ lệch chuẩn Phân tán và độ lệch chuẩn là những khái niệm phổ biến trong thống kê và máy học Vì lý do này, hãy nỗ lực học hỏi để nắm vững kiến thức này.
Nhất định hiểu về phân tán và độ lệch chuẩn
Trong bài trước, chúng ta đã tìm hiểu về các khái niệm cơ bản liên quan đến độ phân tán như phạm vi, độ lệch phần tư (QD) và phạm vi phần tư (IQR) Tuy nhiên, những khái niệm này có nhược điểm là không áp dụng được trong việc tính toán chỉ số cho toàn bộ dữ liệu.
Trong bài học này, tôi sẽ bổ sung kiến thức về phân tán và độ lệch chuẩn, hai khái niệm quan trọng trong thống kê học.
Trong bài viết này, chúng ta sẽ đề cập đến các khái niệm quan trọng và sử dụng Python để thực hiện các phép tính Đồng thời, chúng ta cũng sẽ thảo luận về phương sai bất thiên, một khái niệm liên quan đến phân tán dữ liệu.
Độ lệch trung bình
Do phạm vi và IQR, QD không phản ánh đầy đủ tính phân tán của toàn bộ dữ liệu, nên chúng ta cần tìm một phương pháp khác để đo lường độ phân tán này Vậy cách đơn giản nhất để biểu thị độ phân tán của toàn bộ dữ liệu là gì?
Độ lệch là khoảng cách giữa mỗi giá trị và giá trị trung bình, và tổng các độ lệch thường bằng 0 do sự triệt tiêu giữa các giá trị dương và âm Khi tính độ sai khác từ các điểm dữ liệu đến giá trị trung bình, một số sẽ có giá trị dương và một số sẽ có giá trị âm, dẫn đến kết quả cuối cùng là 0 Nếu chỉ quan tâm đến khoảng cách mà không phân biệt giá trị âm hay dương, ta sẽ sử dụng giá trị tuyệt đối của độ lệch.
24 BÀI 5 NHẤT ĐỊNH HIỂU VỀ PHÂN TÁN VÀ ĐỘ LỆCH CHUẨN các điểm dữ liệu tới các giá trị trung bình thì có được không?
Công thức |x i −x|¯ là một cách hiệu quả để đo lường mức độ phân tán của dữ liệu Bằng cách cộng các giá trị tuyệt đối của sự thiên sai từ các điểm dữ liệu tới giá trị trung bình và chia cho số lượng điểm dữ liệu, chúng ta có thể tính được độ lệch trung bình hay độ lệch trung bình tuyệt đối, thường được gọi là M D Giá trị này giúp biểu thị rõ ràng mức độ phân tán trong tập dữ liệu.
Độ lệch tuyệt đối của mỗi giá trị dữ liệu thể hiện sự thay đổi trong tập dữ liệu Khi các giá trị phân tán rộng rãi, độ lệch tuyệt đối sẽ lớn, dẫn đến giá trị M D cao Ngược lại, nếu các giá trị gần nhau, M D sẽ giảm.
Khi toàn bộ dữ liệu giống nhau thì độ phân tán M D sẽ là 0 Khi đó đương nhiên có thể nói rằng độ phân tán là 0.
Chúng ta đã hoàn tất việc phân tích độ phân tán của dữ liệu Tuy nhiên, cần lưu ý rằng trong công thức đã sử dụng dấu giá trị tuyệt đối Việc sử dụng dấu giá trị tuyệt đối có thể gây ra những hiểu lầm nhất định.
Trong thống kê học, đặc biệt là trong M D, người ta thường tránh sử dụng giá trị tuyệt đối Nguyên nhân là do việc tính toán giá trị âm và dương có thể làm thay đổi kết quả phép toán, gây ra sự phức tạp không cần thiết.
Để tránh rắc rối với giá trị âm, bạn có thể thực hiện lũy thừa bậc 2 (bình phương), giúp chuyển đổi giá trị âm thành giá trị dương mà không cần sử dụng dấu giá trị tuyệt đối.
Phân tán và độ lệch chuẩn
Phân tán (variance) -các tài liệu khác gọi nó là phương sai, là bình phương độ lệch (thiên sai).
Việc loại bỏ dấu giá trị tuyệt đối là một điều tích cực, nhưng khi bình phương giá trị, nó sẽ dẫn đến sự sai lệch khỏi thang giá trị ban đầu Chẳng hạn, nếu trọng lượng trung bình là 10kg với độ lệch 2kg, khi bình phương độ lệch này, ta sẽ có 4kg, điều này khiến cho việc giải thích giá trị trở nên khó khăn hơn.
Lấy căn bậc hai của phân tán (phương sai) để phù hợp với tỷ lệ là một ý tưởng tuyệt vời Căn bậc hai của phương sai chính là độ lệch chuẩn (standard deviation), thường được viết tắt là s Việc sử dụng độ lệch chuẩn giúp chúng ta hiểu rõ hơn về sự phân tán của dữ liệu.
Sử dụng Python để tính toán phân tán và độ lệch chuẩn
σ (sigma) cho độ lệch chuẩn của dữ liệu tổng thể và s cho độ lệch chuẩn của mẫu dữ liệu nhỏ hơn.) s v u u t
Độ lệch chuẩn và phương sai là hai khái niệm quan trọng trong thống kê học, giúp đánh giá mức độ phân tán của dữ liệu Việc hiểu rõ về chúng sẽ cung cấp cơ sở lý luận vững chắc cho các phân tích thống kê.
5.3 Sử dụng Python để tính toán phân tán và độ lệch chuẩn
Chúng ta có thể sử dụng hàm std() trong thư viện NumPy để tính độ lệch chuẩn, trong khi hàm var() được dùng để tính độ phân tán Dưới đây là quy trình từng bước để tính toán độ phân tán.
7 # Luy t h u a bac 2 doi voi t h i e n sai
9 # T i n h t o n g cac luy t h u a bac 2 cua t h i e n sai
11 # Lay t o n g luy t h u a bac 2 cua t h i e n sai c h i a cho so l u o n g du l i e u ( do p h a n tan )
Mặc dù có vẻ dài, nhưng việc này không khó chút nào Hãy kiểm tra từng dòng code để xác nhận Nếu bạn cảm thấy lo lắng, hãy sử dụng JupyterLab để chạy từng dòng và kiểm tra kết quả.
Nào bây giờ ta hãy xác nhận kết quả:
2 # T i n h do p h a n tan b a n g ham tu tao :
Như vậy kết quả là giống nhau, bây giờ ta hãy cùng nhau tính toán độ lệch chuẩn.
3 # T i n h do l e c h c h u a n t h o n g qua ham co san t r o n g N u m P y
26 BÀI 5 NHẤT ĐỊNH HIỂU VỀ PHÂN TÁN VÀ ĐỘ LỆCH CHUẨN
Kết quả cho thấy rằng các phép tính độ lệch chuẩn và độ phân tán bằng SciPy tương tự như dự đoán ban đầu Để tính toán, chúng ta sử dụng các hàm scipy.stats.tvar() và scipy.stats.tstd() của thư viện SciPy, với "t" trong tên hàm biểu thị cho trimmed, cho phép xác định phạm vi giá trị và xử lý các giá trị ngoại lệ.
Khi so sánh kết quả giữa NumPy và SciPy, chúng ta nhận thấy sự khác biệt trong các chỉ số thống kê Cụ thể, NumPy cho ra độ phân tán là 11.5 và độ lệch chuẩn là 3.4, trong khi SciPy cho kết quả cao hơn với độ phân tán là 12.7 và độ lệch chuẩn là 3.6 Điều này cho thấy sự khác biệt nhỏ nhưng đáng lưu ý giữa hai thư viện trong việc tính toán các chỉ số này.
Phân tán và Phân tán bất thiên
Giá trị phân tán bất thiên được tính toán bằng hàm tvar() và tstd trong Module stats của thư viện SciPy Phân tán bất thiên là khái niệm quan trọng mà chúng ta sẽ tìm hiểu sâu hơn trong bài viết sau Công thức tính phân tán bất thiên khác với phân tán thông thường, cụ thể là phép tính này chia cho n−1 thay vì n.
Nhiều người có thể cảm thấy bối rối khi nhìn vào công thức mới này, nhưng điều đó là bình thường Việc từ bỏ công thức cũ để làm quen với công thức mới có thể là một thách thức Trong bài học tiếp theo, tôi sẽ giải thích rõ hơn về điều này Chức năng scipy.stats.tvar() và scipy.stats.tstd() cho kết quả lớn hơn np.var() và np.std() vì chúng chia cho n−1 thay vì n Tương tự, Pandas cũng tính toán để cho ra kết quả phân tán không thiên lệch Hãy tham khảo đoạn mã dưới đây.
Tổng kết
Kết quả này tương tự như khi sử dụng scipy.stats Sự khác biệt giữa scipy.stats và Pandas trong việc chia cho n−1 để tính phân tán bất thiên, trong khi NumPy chia cho n để tính độ phân tán, tạo ra hai loại phân tán khác nhau Chúng ta sẽ làm rõ vấn đề này trong bài học tiếp theo.
Trong bài học này, tôi đã giới thiệu về độ phân tán, bao gồm trung bình thiên sai, phân tán và độ lệch chuẩn Khác với IQR và QD, hai chỉ số này sử dụng tất cả dữ liệu để tính toán, mang lại sự chính xác cao hơn Phân tán và độ lệch chuẩn là những khái niệm quan trọng trong lý thuyết thống kê, vì vậy hãy ghi nhớ chúng.
Độ lệch trung bình (MD) là giá trị trung bình của các giá trị tuyệt đối của độ lệch (|xi−x|) Việc xử lý dấu của giá trị tuyệt đối là một vấn đề cần được giải quyết.
• Phân tán còn gọi là phương sai (s 2 ) : Trung bình lũy thừa bậc 2 của độ lệch (xi−x)¯ 2
• Độ lệc chuẩn (s): Căn bậc hai của phân tán.
• np.var() và np.std() tính độ phân tán và độ lệch chuẩn.
• scipy.stats.tvar() vàscipy.stats.tstd() có thể tính toán độ phân tán và độ lệch chuẩn nhưng kết quả tính toán là phân tán bất thiên.
• Phân tán bất thiên sử dụng công thức phân tán nhưng không chia cho n mà chia cho n−1.
Bài học này tuy dài nhưng chứa đựng nội dung quan trọng Các bạn nên chú ý theo dõi câu chuyện từ Phạm vi, IQR/QD, MD, đến Phân tán và cuối cùng là Độ lệch chuẩn.
28 BÀI 5 NHẤT ĐỊNH HIỂU VỀ PHÂN TÁN VÀ ĐỘ LỆCH CHUẨN
Phân tán bất thiên là gì? Tại sao phân tán từ dữ liệu tiêu bản lại nhỏ hơn phân tán từ dữ liệu cha?
Trong bài viết trước, chúng ta đã thảo luận về các chỉ số quan trọng như phân tán s² và độ lệch chuẩn s, là những chỉ số thể hiện mức độ phân tán hay phân bố Để tính toán các giá trị này, chúng ta có thể sử dụng các thư viện như NumPy, scipy.stats và Pandas Tuy nhiên, cần lưu ý rằng kết quả tính toán từ scipy.stats và Pandas có thể khác với NumPy, do chúng tính toán phân tán theo phương pháp phân tán bất thiên.
Phân tán bất thiên có nghĩa là sử dụng công thức phân tán nhưng không chia cho n mà chia cho n−1.
Trong bài học lần này chúng ta sẽ làm rõ rút cuộc phân tán bất thiên là gì?
• Phân tán bất thiên là chỉ số được sử dụng để ước tính độ phân tán của dữ liệu tiêu bản (dữ liệu mẫu) từ dữ liệu cha.
NumPy không sử dụng phân tán bất thiên vì thực tế nó chỉ tính toán các chỉ số mô tả phân tán của dữ liệu được cung cấp như đối số.
Scipy.stats và Pandas là hai thư viện quan trọng trong thống kê và khoa học dữ liệu, nổi bật với khả năng trả về độ phân tán bất thiên.
Phân tán bất thiên là công cụ dễ sử dụng hơn so với phân tán thông thường trong việc phát triển lý thuyết thống kê Chính vì vậy, nhiều thư viện và công cụ hiện nay đã tích hợp phân tán bất thiên như một tùy chọn mặc định.
30BÀI 6 PHÂN TÁN BẤT THIÊN LÀ GÌ? TẠI SAO PHÂN TÁN TỪ DỮ LIỆU TIÊU BẢN LẠI NHỎ HƠN PHÂN TÁN TỪ DỮ LIỆU CHA?
Ước lượng phân tán của dữ liệu cha như thế nào thì tốt?
Thống kê học tập trung vào việc xác định các đặc điểm của dữ liệu cha thông qua việc phân tích mẫu dữ liệu có giới hạn, được gọi là dữ liệu tiêu bản Quá trình này được gọi là suy luận thống kê.
Từ những bài học trước, chúng ta đã tìm hiểu về thống kê mô tả, một phương pháp dùng để mô tả đặc điểm của dữ liệu mà chúng ta đang sở hữu Thống kê mô tả giúp tóm tắt và phân tích các đặc tính quan trọng của dữ liệu, mang lại cái nhìn rõ ràng hơn về thông tin hiện có.
Hãy tách biệt một cách rõ ràng sự khác biệt này khi các bạn học thống kê.
Chúng ta sẽ phân tích sâu hơn về cách sử dụng chỉ số từ dữ liệu tiêu bản để suy ra chỉ số dân số Cụ thể, giá trị trung bình của dữ liệu tiêu bản có thể giúp chúng ta ước lượng giá trị trung bình cho toàn bộ tập hợp dữ liệu cha.
Chi tiết sẽ được giải thích lại ngay trong khóa học này.
Ngay cả khi bạn sử dụng thuật ngữ "trung bình," ý nghĩa của nó có thể thay đổi tùy thuộc vào ngữ cảnh, cụ thể là trong thống kê mô tả và thống kê suy luận.
Giá trị của dữ liệu tiêu bản được sử dụng để ước tính giá trị đặc trưng của dữ liệu cha, và quá trình thống kê nhằm thực hiện ước tính này được gọi là ước lượng.
Trong quá trình học thống kê, việc nắm vững các thuật ngữ là rất quan trọng, dù trong công việc thực tế không phải lúc nào cũng cần phân biệt rõ ràng Tôi sẽ giới thiệu và sử dụng những từ ngữ này trong cuốn sách để giúp bạn hiểu rõ hơn về chúng.
Giá trị trung bình được tính từ dữ liệu mẫu và được sử dụng để ước lượng giá trị trung bình của dữ liệu cha Khi ước tính độ phân tán của dữ liệu cha, việc sử dụng ước lượng là hoàn toàn khả thi.
Độ phân tán của dữ liệu tiêu bản thường nhỏ hơn độ phân tán của dữ liệu cha do các yếu tố như quy trình chọn mẫu, biến thể trong dữ liệu gốc và sự ổn định của các yếu tố ảnh hưởng Điều này có thể giải thích rằng dữ liệu tiêu bản phản ánh một phần nhỏ hơn và có tính chất đồng nhất hơn so với dữ liệu cha, dẫn đến mức độ phân tán thấp hơn Việc hiểu rõ nguyên nhân này giúp cải thiện quy trình phân tích và dự đoán trong nghiên cứu dữ liệu.
Độ phân tán của dữ liệu tiêu bản thường thấp hơn một chút so với độ phân tán của dữ liệu cha, điều này có thể được lý giải bằng cảm giác trực quan.
6.2 [Lý giải bằng hình ảnh]Tại sao độ phân tán của dữ liệu tiêu bản lại nhỏ hơn độ phân tán của dữ liệu cha?
Đến thời điểm hiện tại, câu hỏi này vẫn đang khiến nhiều người băn khoăn Tuy nhiên, nếu chúng ta suy nghĩ kỹ, sẽ nhận ra rằng điều này hoàn toàn hợp lý.
Khi lấy ngẫu nhiên từ dữ liệu cha để tạo ra dữ liệu mẫu, dữ liệu mẫu thực chất là một phần của dữ liệu cha Do không có giá trị nào nằm ngoài phạm vi của dữ liệu cha, nên độ phân tán của dữ liệu mẫu thường nhỏ hơn độ phân tán của dữ liệu cha Điều này là điều hiển nhiên trong quá trình lấy mẫu.
Sau đây chúng ta hãy cùng thực hiện đoạn code dưới đây:
Bằng np.var() ta sẽ tính độ phân bố của population với tư cách là dữ liệu cha
([1,5,10,11,14,15,15,16,18,18,19,20,25,30])và tính độ phân bố củasample với tư cách là dữ liệu mẫu hay dữ liệu tiêu bản.
Khi thực hiện mã nhiều lần trong các trường hợp khác nhau, có phải sự phân tán của dữ liệu mẫu luôn nhỏ hơn sự phân tán của dữ liệu cha với giá trị là 51.39 hay không?
Khi lấy mẫu ngẫu nhiên từ dữ liệu cha, độ phân tán của dữ liệu mẫu thường thấp hơn so với độ phân tán của dữ liệu cha, trừ khi có sự kết hợp đặc biệt ở các đầu mút như [1,5,30] hoặc [1,25,30] Điều này dẫn đến việc phân bố của dữ liệu mẫu thường có giá trị lệch so với phân bố của dữ liệu cha Hơn nữa, xác suất để một giá trị nằm ngoài phân bố thường thấp, cho thấy rằng độ phân tán của dữ liệu mẫu có xu hướng nhỏ hơn độ phân tán của dữ liệu cha.
Nhân tiện hình này có thể được vẽ như sau:
32BÀI 6 PHÂN TÁN BẤT THIÊN LÀ GÌ? TẠI SAO PHÂN TÁN TỪ DỮ LIỆU TIÊU BẢN LẠI NHỎ HƠN PHÂN TÁN TỪ DỮ LIỆU CHA?
Thư viện Seaborn trong Python, đặc biệt với hàm displot, là công cụ hữu ích trong khoa học dữ liệu và đã được giới thiệu trong khóa học nhập môn Python cho Data Science tại diễn đàn tuhocvba.net Tham gia khóa học này để nâng cao kiến thức của bạn Một điểm quan trọng là phương sai của dữ liệu mẫu thường nhỏ hơn phương sai của dữ liệu cha Khi kích thước mẫu (n) giảm, xác suất các giá trị lệch khỏi phân bố cũng giảm, dẫn đến độ phân tán của dữ liệu mẫu trở nên nhỏ hơn.
6.3 [Lý giải bằng Số Học]Tại sao độ phân tán của dữ liệu tiêu bản lại nhỏ hơn độ phân tán của dữ liệu cha?
Trong bài viết này, chúng ta sẽ giải thích các khái niệm toán học liên quan đến dữ liệu cha Giá trị trung bình của dữ liệu cha được ký hiệu là à, trong khi độ phân tán được ký hiệu là σ² Độ phân tán của dữ liệu cha là σ² và của dữ liệu mẫu là s², được tính theo công thức cụ thể Nếu bạn chưa hiểu rõ về các ký hiệu và công thức này, hãy xem lại bài học trước để nắm bắt tốt hơn.
Phân tán bất thiên (Phương sai không chệch) có thể được sử dụng làm công cụ ước tính cho phương sai tổng thể (phân tán của dữ liệu cha)
Để sử dụng giá trị trung bình của dữ liệu cha, chúng ta cần ước lượng giá trị trung bình x¯ của dữ liệu mẫu, vì không thể trực tiếp áp dụng giá trị từ dữ liệu cha.
Giá trị trung bình cộng là giá trị mà tổng bình phương độ sai khác giữa các điểm dữ liệu và giá trị này đạt mức nhỏ nhất.
Chẳng hạn ta có giá trị X bất kỳ Tổng bình phương độ sai khác từ các điểm dữ liệu trong dữ liệu mẫu tới X là: n
Giá trị trung bình cộng của dữ liệu mẫu là x, và tổng giá trị đạt nhỏ nhất khi X bằng x Độ lệch chuẩn của dữ liệu mẫu sẽ đạt giá trị tối thiểu của tổng này, với công thức tính là s² = 1/n * n.
Nếu như X là một giá trị khác thì tổng trên sẽ có giá trị lớn hơn Như vậy:
Để giải quyết vấn đề, chúng ta cần lưu ý rằng giá trị trung bình của dữ liệu tổng thể thường không được biết, do đó chúng ta thường ước lượng bằng cách sử dụng giá trị trung bình của một mẫu dữ liệu nhỏ hơn, ký hiệu là x Việc này dẫn đến độ phân tán khi tính toán với giá trị trung bình x¯ sẽ cho ra kết quả độ phân tán nhỏ hơn một chút.
Phân tán bất thiên (phương sai không chệch) là công cụ ước tính phương sai tổng thể (σ²) từ dữ liệu mẫu (s²) Thông thường, độ phân tán của dữ liệu mẫu nhỏ hơn độ phân tán của dữ liệu cha Tuy nhiên, phân tán bất thiên có thể lớn hơn hoặc nhỏ hơn một chút so với độ phân tán của dữ liệu mẫu Tóm lại, phân tán bất thiên là giá trị ước lượng cho độ phân tán của dữ liệu cha.
Chúng ta không sử dụng scipy.stats hoặc Pandas để tính toán độ phân tán một cách nhanh chóng Thay vào đó, chúng ta áp dụng lý luận thống kê để tính toán độ phân tán bất thiên.
Trong thống kê học, độ phân tán bất thiên thường dễ xử lý hơn so với độ phân tán thông thường Do đó, nhiều công cụ thống kê thường mặc định cung cấp giá trị độ phân tán bất thiên khi thực hiện các phép tính liên quan đến độ phân tán.
34BÀI 6 PHÂN TÁN BẤT THIÊN LÀ GÌ? TẠI SAO PHÂN TÁN TỪ DỮ LIỆU TIÊU BẢN LẠI NHỎ HƠN PHÂN TÁN TỪ DỮ LIỆU CHA?
Nhiều người có thể không quan tâm đến việc sử dụng độ phân tán thông thường hay độ phân tán bất thiên trong thống kê mô tả như một công cụ ước tính Tuy nhiên, khi lựa chọn công cụ hoặc thư viện tính toán độ phân tán, điều quan trọng là kiểm tra kích thước mẫu n Nếu n lớn, sự khác biệt giữa các phương pháp này là rất nhỏ, do đó không cần phải lo lắng quá nhiều, đặc biệt là với các mẫu dữ liệu lớn.
Tại sao lại là n − 1, bất thiên là gì?
Độ phân tán của dữ liệu mẫu thường nhỏ hơn độ phân tán của dữ liệu cha, nhưng câu hỏi đặt ra là tại sao lại chia cho n−1 thay vì n−2 hoặc n−3 Để hiểu rõ vấn đề này, chúng ta cần làm rõ khái niệm "Tính Bất Thiên" Thuật ngữ "bất thiên" liên quan đến độ phân tán bất thiên, và việc giải thích sẽ cần thời gian Tuy nhiên, đối với những người mới bắt đầu, hãy tập trung vào những khái niệm dễ hiểu trước để tránh cảm giác quá tải với kiến thức.
Tổng kết
Trong bài học này, tôi đã giải thích về độ phân tán bất thiên, một khái niệm quan trọng trong thống kê Độ phân tán bất thiên là gì và tại sao chúng ta không sử dụng cách tính thông thường khi tính toán độ phân tán của dữ liệu mẫu? Chúng ta đã thấy rằng giá trị của nó thường nhỏ hơn độ phân tán của dữ liệu cha Nếu bạn vẫn chưa hiểu rõ, hãy đọc lại bài học và tra cứu thêm thông tin trên Google Dưới đây là tóm tắt nội dung bài học.
• Độ phân tán bất thiên là đại lượng được để ước lượng độ phân tán của dữ liệu cha.
Khi tính toán độ phân tán của dữ liệu mẫu, phương pháp thông thường thường dẫn đến giá trị nhỏ hơn so với độ phân tán của dữ liệu cha.
Độ phân tán của dữ liệu mẫu thường nhỏ hơn độ phân tán của dữ liệu cha, vì khi tính toán độ phân tán, chúng ta sử dụng giá trị trung bình của dữ liệu mẫu thay vì giá trị trung bình của dữ liệu cha.
Vẫn còn một điểm chưa được làm rõ về lý do chia cho n−1, nhưng tôi tin rằng các bạn đã hiểu được khái niệm về độ phân tán bất thiên.
Trong bài học tới tôi sẽ trình bày về tính bất thiên cũng như lý do chia cho n−1.
Độ phân tán bất thiên được tính bằng cách chia cho n - 1, giúp ước lượng độ phân tán của dữ liệu cha Tính bất thiên trong thống kê có nghĩa là độ phân tán của dữ liệu mẫu s² thường nhỏ hơn độ phân tán của dữ liệu cha σ².
Trong bài học này, chúng ta sẽ giải thích khái niệm tính bất thiên và lý do tại sao công thức sử dụng chia cho n−1 thay vì n Đây là một thắc mắc phổ biến của những người mới bắt đầu học thống kê, vì vậy việc làm rõ vấn đề này là rất cần thiết.
Nhìn riêng về mặt ngôn ngữ ta có thể thấy:
Độ phân tán bất thiên là công cụ quan trọng để ước tính độ phân tán tổng thể của dữ liệu cha một cách không thiên vị Từ "bất thiên" được sử dụng để nhấn mạnh tính chính xác trong việc đo lường độ phân tán này.
Giá trị ước lượng trung bình sẽ trùng với tham số của dữ liệu mẫu, cho thấy rằng công cụ ước tính này không thiên sai Do đó, công cụ ước tính này được gọi là công cụ ước tính bất thiên.
• Tuy nhiên tại sao không phải là n−2 hay n−3 mà lại làn−1thì đây là điều cần phải chứng minh làm rõ.
Nhiều bạn có thể cảm thấy bối rối với những gì đã được nói đến Tuy nhiên, hãy kiên nhẫn, chúng ta sẽ bắt đầu ngay bây giờ.