Phương pháp Fisher có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thể bằng nhau nên có nhiều hạn chế khi áp dụng cho các dữ
Trang 1THUYẾT MINH ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ
(do sinh viên thực hiện)
1 TÊN ĐỀ TÀI
Phân loại mật độ xác suất và áp dụng cho dữ liệu ảnh
2 MÃ SỐ ĐỀ TÀI
TSV2024-… Lĩnh vực ưu tiên (đánh dấu X)
X 1 Khoa học cơ bản
2 Công nghệ cao trong nông nghiệp, thủy sản và phát triển bền vững
3 Môi trường, tài nguyên thiên nhiên và biến đổi khí hậu
4 Công nghê, công nghệ thông tin và chuyển đổi số
5 Khoa học giáo dục, luật và xã hội nhân văn
6 Phát triển kinh tế, thị trường và nông thôn
7 Công nghệ sinh học và thực phẩm
Không thuộc 7 Lĩnh vực ưu tiên
3 LĨNH VỰC NGHIÊN CỨU (đánh dấu X)
X Khoa học Tự nhiên
Khoa học Kỹ thuật và Công nghệ
Khoa học Y, dược
Khoa học Nông nghiệp
Khoa học Xã hội
Khoa học Nhân văn
4 LOẠI HÌNH NGHIÊN CỨU (đánh dấu X)
X Cơ bản
Ứng dụng
Triển khai
5 THỜI GIAN THỰC HIỆN 06 tháng
Từ tháng 3 năm 2024 đến tháng 8 năm 2024
Trang 26 ĐƠN VỊ CỦA CHỦ NHIỆM ĐỀ TÀI
Tên đơn vị: Khoa Khoa học Tự nhiên
Điện thoại: (0292) 3832 062
E-mail: kkhtn@ctu.edu.vn
Địa chỉ: Đại học Cần Thơ, Khu II, đường 3/2, P Xuân Khánh, Q Ninh Kiều, TP Cần Thơ
Họ và tên thủ trưởng đơn vị: PGS TS Ngô Thanh PhongTên đơn vị:
7 CHỦ NHIỆM ĐỀ TÀI
Họ và tên: Trần Nguyễn Kim Ngân
Ngày tháng năm sinh: 29/02/2004
Điện thoại di động: 0911792669
E-mail: nganb2203769@student.ctu.edu.vn
MSSV: B2203769 Lớp: KH22D3A1 Khóa: 48
8 NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
TT Họ và tên MSSV, Lớp, Khóa Nội dung nghiên cứu
cụ thể được giao
Chữ ký
1
Trần Nguyễn Kim
Ngân
MSSV: B2203769 Lớp: KH22D3A1
Khóa: 48
Chủ nhiệm đề tài, thực hiện Nội dung 1,
2 và viết báo cáo
phân tích
2 Lê Đông Phương MSSV: B2203777
Lớp: KH22D3A1 Khóa: 48
Thực hiện Nội dung
1 và Nội dung 2
3 Nguyễn Thị Anh
Thư
MSSV: B2203786 Lớp: KH22D3A1 Khóa: 48
Thực hiện Nội dung
3 và Nội dung 4
Lê Thanh Tâm MSSV: B2203834
Lớp: KH22D3A2 Khóa: 48
Thực hiện Nội dung
3 và Nội dung 4
Cán bộ hướng dẫn sinh viên thực hiện đề tài
Trang 3Họ và tên, MSVC Đơn vị công tác và lĩnh
vực chuyên môn
PGS.TS Võ Văn Tài,
MSCB: 0007
Khoa Khoa học Tự nhiên Thống kê và khoa học dữ
liệu
Hướng dẫn nội dung khoa học và Hướng dẫn lập dự toán kinh phí đề tài
9 ĐƠN VỊ PHỐI HỢP CHÍNH
Tên đơn vị
trong và ngoài nước
Nội dung phối hợp nghiên cứu Họ và tên người đại
diện đơn vị Không
Trang 410 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CỦA ĐỀ TÀI Ở TRONG
VÀ NGOÀI NƯỚC
10.1 Ngoài nước
Nhận dạng cho các phần tử gồm có ba thuật toán chính: nhận dạng không được giám sát (un-supervised recoginition), nhận dạng được giám sát (supervised recoginition) và nhận dạng bán giám sát (semi-supervised recoginition) Nhận dạng được giám sát là việc việc phân loại một phần tử vào trong các tổng thể đã biết một cách thích hợp nhất dựa vào các biến quan sát của nó Do đó, nó thường được gọi là bài toán phân loại (Pham-Gia et al., 2007; Nhu et al., 2020) Phân loại là một hướng phát triển quan trọng của thống kê nhiều chiều và khoa học dữ liệu Nó cũng là nền tảng trong xử lý dữ liệu lớn và trí tuệ nhân tạo ngày nay, nên được rất nhiều nhà thống kê và công nghệ thông tin quan tâm Tuy nhiên có thể khẳng định rằng cho đến nay bài toán phân loại vẫn chưa có lời giải cuối cùng
Bài toán phân loại được phát triển theo hai hướng chính: Theo hướng thống kê và theo hướng học máy, học sâu Có nhiều phương pháp phân loại theo hướng thống kê được sử dụng phổ biến ngày nay Theo thống kê, các phương pháp được sử dụng phổ biến ngày nay là Fisher (Fisher, 1938), Hồi quy logistic (Kung, 2010), Naive Bayes, Bayes cải tiến (Pham-Gia et al., 2008; Nhu et al 2020) Phương pháp Fisher có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp phương sai của các tổng thể bằng nhau nên có nhiều hạn chế khi áp dụng cho các dữ liệu thực tế Phương pháp hồi qui logistic được sử dụng rất phổ biến, nhưng chỉ hiệu quả khi dữ liệu có sự tách rời tốt của các nhóm và biến phụ thuộc là nhị phân (Jan et al 2010) Phương pháp Naive Bayes đơn giản
về lý thuyết nhưng khó thực hiện trong thực tế vì phải giả sử các biến cố độc lập Phương pháp Bayes cải tiến không đòi hỏi điều kiện dữ liệu, có thể phân loại cho nhiều tổng thể nên có nhiều ưu điểm về lý thuyết Phương pháp Bayes được đánh giá có nhiều tiềm năng trong mở rộng lý thuyết và ứng dụng, vì vậy nó đang được sự quan tâm của các nhà thống kê và công nghệ thông tin Trong phân loại bằng phương pháp Bayes, hai vấn đề quyết định đến kết quả phân loại là xác suất tiên nghiệm và hàm mật
Trang 5độ xác suất Xác suất tiên nghiệm thường được xác định dựa vào kinh nghiệm, sự hiểu biết của người thực hiện, hoặc cập nhật một kết luận thống kê trước đó về đối tượng được quan sát Một số xác suất tiên nghiệm đề xuất dựa vào thống kê đã được xem xét và áp dụng như phân phối đều, tỉ lệ mẫu, phương pháp Laplace Tuy nhiên chúng chỉ phù hợp cho từng bộ dữ liệu mà không tốt nhất cho tất cả (Pham-Gia et al 2006, Miller et al 2001) Bên cạnh xác suất tiên nghiệm, khi thực hiện bài toán phân loại bằng phương pháp Bayes, chúng ta phải ước lượng hàm mật độ xác suất đại diện cho mỗi tổng thể Mặc dù có nhiều cải tiến trong những năm gần đây, nhưng cho đến nay nó vẫn còn nhiều hạn chế Ngoài hai vấn đề trên, những phức tạp trong tính toán như tìm hàm cực đại, tính tích phân trong không gian nhiều chiều cũng là cản trở chính trong áp dụng thực tế của phương pháp này
Bên cạnh các phương pháp thống kê trên, chúng ta cũng có nhiều phương pháp phân loại dựa trên học máy và học sâu như multi-Supported vector machine (Multi-SVM), Random Forest, k-NN, XGBoost, Convolutional Neural Network (CNN), (Chen et al., 2009; Cristianini et al., 2009; Pham et al., 2016; Huang et al., 2018; Zhao et al., 2019) và transformer (learning Yang et al., 2022) Các phương pháp có nhiều lợi thế trong sự phát triển mạnh của công nghệ thông tin ngày nay Tuy nhiên việc xây dựng mô hình dựa trên quá trình huấn luyện nên đòi hỏi dữ liệu lớn và chi phí thời gian Kết quả của chúng cũng phụ thuộc nhiều vào tính chất riêng của dữ liệu Tất cả các phương pháp được đề xuất ở trên đều thực hiện cho dữ liệu rời rạc Theo sự hiểu biết của chúng tôi, mô hình phân loại cho hàm mật độ xác suất chưa được quan tâm và đề xuất từ các nhà nghiên cứu
Phân loại ảnh là việc xác định nhãn cho ảnh từ mô hình phân loại được xây dựng dựa vào tập huấn luyện Việc xác định nhãn của ảnh từ mô hình huấn luyện thường được thực hiện qua hai bước: trích xuất đặc trưng ảnh và xây dựng mô hình phân loại cụ thể từ các đặc trưng được trích xuất này Trích xuất ảnh là bước đầu tiên rất quan trọng để thực hiện bài toán phân loại Việc trích xuất ảnh được xem
là tối ưu nếu nó đặc trưng được cho ảnh, dễ nhận dạng và giảm chi phí tính toán Một ảnh thông thường được trích xuất dựa vào đặc trưng màu sắc, kết cấu, hình dạng (Vijaya et al., 2016) Mặc dù có nhiều thảo luận về vấn đề này nhưng cho đến nay chưa một đặc trưng nào được xem là tối ưu cho tất cả các trường hợp Khi các đặc trưng được trích xuất, để áp dụng vào bài toán phân loại chúng ta phải
Trang 6chọn lựa phần tử đại diện cho ảnh Việc chọn lựa này rất quan trọng bởi vì nhận dạng ảnh chính là nhận dạng các phần tử đại diện này Hiện nay các đối tượng chính được sử dụng để đại diện cho ảnh là các phần tử rời rạc, hàm mật độ xác suất và khoảng (Haraclick, 1979; Erbug and Adil, 2000; Hiremath
et al., 2007; Tan et al 2011; Park et al 2014) Các tác giả Garg et al (2021) đã kết hợp ma trận đồng hiện mức xám (GLCM) nhằm giảm chiều và trích xuất đặc trưng kết cấu để tạo dữ liệu rời rạc cho bài toán phân loại ảnh Ha và cộng sự (2020) đã sử dụng hàm cực đại của các hàm mật độ xác suất được xây dựng từ trích xuất đặc trưng ảnh cho bài toán nhận diện gương mặt Mỗi loại trích xuất này đều có những ưu điểm riêng cho những trường hợp cụ thể, chưa có kiểu trích xuất nào được xem là tối ưu cho mọi trường hợp (Zhang et al., 2018) Mặc dù việc trích xuất ảnh thành hàm mật độ xác suất để thực hiện bài toán phân tích chùm đã được một số nghiên cứu gần đây thực hiện [], tuy nhiên sử dụng cho bài toán phân loại vẫn chưa được xem xét
Tài liệu tham khảo
1 Erbug C., Adil A (2000) Clustering of texture features for content-based image retrieval Lecture Notes in Computer Science, 1909, 216-225
2 Cristianini N (2000) An introduction to support vector machines and other kernel-based learning methods, Cambridge University press
3 Fisher, R A (1938) The statistical utilization of multiple measurements, Annals of Eugenics, 8, 376–386
4 Garg M and Gaurav D (2021) A novel content-based image retrieval approach for classification using GLCM features, and texture fused LBP variants Neural Computing and Applications, 33, 1311-1328
5 Ha C N., Thao N T., Tran N B., Trung N T., Tai V V (2020) A new approach for face detection using the maximum function of probability density functions Annals of Operations Research, https://doi.org/10.1007/s10479-020-03823-1
6 Huang, S., N Cai, P P Pacheco, S Narrandes, Y Wang, W Xu (2018) Applications of
Trang 7support vector machine (SVM) learning in cancer geometrics Cancer Genomics-Proteomics,
15, 41–51
7 Haraclick R M (1979) Statistical and structural approaches to texture Proceedings of the IEEE, 67, 786–804
8 Kung, J Y., Wu C Hsu C., Lee S Y S., Yang C W (2010) Application of logistic regression analysis of home mortgage loan prepayment and default risk ICIC Express Letters, 4, 325–331
9 Miller G., Inkret W., Little T., Martz H., Schillaci M (2001) Bayesian prior probability distributions for internal dosimetry Radiation Protection Dosimetry, 94, 347–352
10 Nhu V H., Zandi D., Shahabi H., Chapi K., Shirzadi A., Al-Ansari N., Singh S K., Dou J., Nguyen, H (2020) Comparison of support vector machine, Bayesian logistic regression, and alternating decision tree algorithms for shallow landslide susceptibility mapping along a mountainous road in the west of Iran Applied Sciences, 10, 5047
11 Pham-Gia T., Turkkan N., Bekker A (2007) Bounds for the Bayes error in classification: a bayesian approach using discriminant analysis Statistical Methods and Applications, 16, 7–26
12 Pham B.T., Pradhan B., Bui D T., Prakash I., Dholakia M (2016) A comparative study of different machine learning methods for land- slide susceptibility assessment: A case study of uttarakhand area (India) Environmental Modelling & Software, 84, 240–250
13 Pham-Gia T., Turkkan N., Vovan T (2008) Statistical discrimination analysis using the maximum function Communications in Statistics – Simulation and Computation, 37, 320–336
14 Tan, W R., Chan, C S., Yogarajah, P., Condell, J (2011) A fusion approach for efficient human skin detection, IEEE Transactions on Industrial Infor- matics, 8, 138 – 147
15 Zhao, D., Liu, H., Zheng, Y., He, Y., Lu, D., Lyu, C (2019) A reliable method for colorectal cancer prediction based on feature selection and support vector machine Medical & Biological Engineering & Computing, 57, 901–912
16 Zhang, N., Ruan, S., Lebonvallet, S., Liao, Q., Zhu, Y (2018) Kernel feature selection to fuse multi-spectral MRI images for brain tumor segmentation Computer Vision and Image
Trang 8Understanding, 155, 256–269
17 Chen J, Shan S, He C et al (2009) Wld: Arobust local image descriptor IEEE transactions on pattern analysis and machine intelligence 32(9): 1705–1720
18 Hiremath P, Pujari J (2007) Content based image retrieval based on color, texture and shape features using image and its complement Int J of Computer Science and Security 1(4): 25–35
19 Park S., Lee J W., Kim S K (2014) Content-based image classification using a neural network Pattern Recognition Letters, 25.3: 287-300
20 Vijaya L Balasub R., Mohan V (2016) Kernel-based PSO and FRVM: An automatic plant leaf type detection using texture, shape, and color features Computers and Electronics in Agriculture, 125: 99-112
21 Yang, B., Hu, S., Guo, Q., Hong, D (2022) Multisource domain transfer learning based on spectral projections for hyperspectral image classification IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 15: 3730-3739
10.1 Trong nước
Về lý thuyết, bài toán phân loại chủ yếu được phát triển bởi phương pháp Bayes dựa trên việc cải tiến xác suất tiên nghiệm và ước lượng hàm mật độ xác suất với các công trình tiêu biểu là (Tai, 2017; Tai et al., 2018; Tai, 2019; Thao and Tai, 2017; Tai et al., 2021) Một số nghiên cứu cũng đề cập đến việc trích xuất ảnh thành dữ liệu rời rạc hoặc khoảng dựa trên màu sắc hoặc ma trận đồng hiện mức xám để thực hiện bài toán phân tích chùm (Dinh et al., 2021; Ngoc et al., 2021)
Về ứng dụng, có nhiều ứng dụng cụ thể được thực hiện dựa trên các phương pháp phân loại phổ biến và các phần mềm có sẵn để thực hiện Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Tai (2017) đã áp dụng bài toán phân loại trong kinh tế Một số tác giả khác cũng đã áp dụng bài toán phân loại trong y học, trong ngân hàng và trong nhận dạng ảnh (Nghi, 2015; Tai 2017) Chúng tôi cũng chưa tìm thấy ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất được trích xuất
Tài liệu tham khảo
Trang 91 Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp thống kê xây dựng mô hình định mức tín nhiệm khách hàng thế nhân, Tạp chí ứng dụng toán học 4(2): 1-16
2 Dinh P T., Khanh N H., Tai V V (2021) Fuzzy clustering algorithm for outlier-interval data
based on the robust exponent distance Applied Intelligence https://doi.org/10.1007/s10489-
021-02773-3 Đổng Yến Nghi (2015) Một số ứng dụng của bài toán phân loại trong y học Đề tài cấp cơ sở Trường Đại học Cần Thơ
4 Ngoc L T K., Tuan, L H., Tai V V (2021) Automatic clustering algorithm for interval data based on overlap distance Communications in Statistics - Simulation and Computation https:// doi.org//10.1080/03610918.2021.1900248
5 Tai, V.V (2017) L1 – distance and classification problem by Bayesian method Journal of Applied Statistics, 44, 385–401
6 Tai V.V., Loc, T.P., Ha, C.N (2018) Classifying two populations by Bayesian method and applications Communications in Mathematics and Statistics, 7, 141 – 161
7 Tai, V.V (2019) Some results of classification problem by Bayesian method and application in credit operation Statistical Theory and Related Fields, 2, 150 – 157
8 Tai V V., Ha C N., Thao N T (2021) A New Strategy for Short-Term Stock Investment Using Bayesian Approach Computational Economics, 1-25
9 Thao, N T., Tai, V V (2017) A new approach for determining the prior probabilities in the classification problem by Bayesian method Advances in Data Analysis and Classification, 11, 629–643
10 Võ Văn Tài (2017) Phân loại bằng phương pháp Bayes và bài toán đánh giá khả năng trả nợ vay ngân hàng Tạp chí Ứng dụng toán học, 10(2): 25-43
11 Võ Văn Tài, Nguyễn Trang Thảo, Chế Ngọc Hà (2017) Nhận dạng kết cấu bề mặt của các hình ảnh bằng phương pháp phân loại Bayes Tạp chí Ứng dụng toán học 10(2): 85-97
10.3 Danh mục các công trình đã công bố thuộc lĩnh vực của đề tài của chủ nhiệm và những thành
Trang 10viên tham gia nghiên cứu
a) Của chủ nhiệm đề tài
Không
b) Của các thành viên tham gia nghiên cứu Không