Phạm vi nghiên cứu của luận văn bao gồm việc tham gia vào quá trình xâydựng bộ dữ liệu hình ảnh CT lồng ngực mang tên KCLUNG, đóng góp vào thựchiện các nghiên cứu phát hiện ung thư phổi
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
——————– * ———————
Phùng Thế Ngọc
PHÁT TRIỂN PHƯƠNG PHÁP HỌC SÂU PHÂN VÙNG TỔN THƯƠNG NHỎ TRÊN ẢNH CT ỨNG DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN UNG
THƯ PHỔI
LUẬN VĂN TỐT NGHIỆP THẠC SĨ Ngành: Khoa học máy tính
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phùng Thế Ngọc
PHÁT TRIỂN PHƯƠNG PHÁP HỌC SÂU PHÂN VÙNG TỔN THƯƠNG NHỎ TRÊN ẢNH CT ỨNG
DỤNG TRONG HỖ TRỢ CHẨN ĐOÁN
UNG THƯ PHỔI
LUẬN VĂN TỐT NGHIỆP THẠC SĨ HỆ CHÍNH QUY
Ngành: Khoa học máy tính Chuyên Ngành: Khoa học máy tính
Mã số: 8480101.01
Cán bộ hướng dẫn: TS Phạm Huy Hiệu
Cán bộ đồng hướng dẫn: TS Trần Quốc Long
HÀ NỘI - 2024
Trang 3VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Phung The Ngoc
DEVELOPING A DEEP LEARNING METHOD FOR SEGMENTING SMALL LESIONS IN
CT IMAGES FOR LUNG CANCER
DIAGNOSIS SUPPORT
MASTER’S THESIS Major: Computer Science
Supervisor: Dr Pham Huy Hieu
Co-supervisor: Dr Tran Quoc Long
Trang 4LỜI CAM ĐOAN
Tôi tên là Phùng Thế Ngọc, học viên cao học chuyên ngành Khoahọc máy tính Tôi xin cam đoan rằng các phương pháp học sâu phânvùng tổn thương trên ảnh CT ứng dụng trong hỗ trợ chẩn đoán ungthư phổi đều do tôi thực hiện dưới sự hướng dẫn của TS Phạm HuyHiệu và TS Trần Quốc Long Trong luận văn, tất cả mọi tham khảo
từ các công trình nghiên cứu khác đều được trích dẫn một cách đầy
đủ và rõ ràng
Hà Nội, ngày 29 tháng 09 năm 2024
Học viên
Phùng Thế Ngọc
Trang 5LỜI CẢM ƠN
Lời đầu tiên, em muốn gửi lời cảm ơn sâu sắc đến tất cả những người đã
hỗ trợ em trong quá trình học tập và nghiên cứu khoa học Sự hỗ trợ quý giá này
đã giúp em thực hiện và hoàn thành luận văn tốt nghiệp
Em chân thành cảm ơn thầy Phạm Huy Hiệu và thầy Trần Quốc Long,những người đã hết lòng hướng dẫn, cung cấp tài liệu và thông tin khoa học cầnthiết cho việc viết luận văn Em muốn gửi đến hai thầy lời cảm ơn tận tình vàsâu sắc nhất
Tiếp theo, em xin gửi lời cảm ơn đến các thầy cô trong bộ môn Khoa họcmáy tính, Trường Đại học Công Nghệ đã nhiệt tình giảng dạy, trang bị nhữngkiến thức quan trọng cho em trong quá trình học tập Em cũng muốn gửi lời cảm
ơn đến thầy cô và các bạn sinh viên trong viện trí tuệ nhân tạo đã cùng em thảoluận, đóng góp ý kiến và hỗ trợ em trong quá trình hoàn thành luận văn
Em cũng cảm ơn các thầy cô, cán bộ trong đề tài: “Nghiên cứu ứng dụng trítuệ nhân tạo trong chẩn đoán ung thư phổi qua phân tích ảnh CT lồng ngực, ảnhnội soi phế quản ống mềm và ảnh mô bệnh học”, mã số: 40/2022/HĐ-ĐTCT-KC-4.0/19-25 Em cũng bày tỏ lòng biết ơn sâu sắc đến các cán bộ, y bác sĩ củabệnh viện Bạch Mai đã phối hợp và hỗ trợ tận tình trong nghiên cứu luận vănnày
Cuối cùng, em muốn nói lời cảm ơn với gia đình, người thân và bạn bè Sựủng hộ, động viên không ngừng từ mọi người đã giúp em vượt qua nhiều tháchthức trong quá trình thực hiện luận văn này
Em xin chân thành cảm ơn!
Trang 6TÓM TẮT
Ung thư phổi là một căn bệnh cực kỳ nguy hiểm, không chỉ có tỷ lệ tử vong cao
mà còn là loại ung thư phổ biến nhất trong những năm gần đây Ở giai đoạn đầu,các triệu chứng của ung thư phổi thường không rõ ràng, khiến nhiều trường hợpchỉ được phát hiện khi bệnh đã tiến triển nặng và thậm chí đã di căn Điều nàycho thấy việc phát hiện sớm ung thư phổi là yếu tố then chốt trong việc giảm tỷ
lệ tử vong do căn bệnh này Trong những phương pháp, chẩn đoán ung thư phổibằng ảnh chụp CT thường được sử dụng nhờ khả năng phát hiện ung thư thôngqua việc phân tích hình ảnh Từ đó, các bác sĩ có thể đưa ra những quyết địnhchẩn đoán và điều trị dựa trên thông tin cụ thể từ hình ảnh
Tuy nhiên, việc phân tích hình ảnh CT không tránh khỏi nhiều khó khăn vàthách thức, đồng thời đòi hỏi rất nhiều thời gian và công sức từ các chuyên gia
y tế Vì vậy, việc đẩy nhanh khâu chẩn đoán sử dụng mô hình Học sâu để hỗ trợcác bác sĩ xác định vùng tổn thương đã trở thành một nhu cầu cấp thiết Từ vùngtổn thương đã được phân đoạn, các bác sĩ có thể chẩn đoán khối u hoặc các nốtphổi trong vùng là lành tính (không phải ung thư) hoặc ác tính (ung thư) Ngoài
ra, việc chẩn đoán sớm ung thư phổi cũng gặp phải những thách thức riêng dokhối u thường rất nhỏ và khó nhận biết Chính vì thế, việc phát triển một môhình phân vùng các tổn thương nhỏ có ý nghĩa đặc biệt quan trọng trong việcphân tích hình ảnh CT lồng ngực
Phạm vi nghiên cứu của luận văn bao gồm việc tham gia vào quá trình xâydựng bộ dữ liệu hình ảnh CT lồng ngực mang tên KCLUNG, đóng góp vào thựchiện các nghiên cứu phát hiện ung thư phổi sử dụng mô hình học sâu Bộ dữliệu KCLUNG được xây dựng với sự hợp tác chặt chẽ với các bác sĩ tại bệnhviện Bạch Mai, đảm bảo tính khách quan cao và tiềm năng ứng dụng lớn trong
cả nghiên cứu và thực tiễn Tiếp theo, luận văn đề xuất phương pháp MSRFNet, một phương pháp mới để phân vùng tổn thương nhỏ trên ảnh CTlồng ngực, tận dụng những tiến bộ gần đây trong lĩnh vực học sâu Mô hìnhphân đoạn tổn thương này được đánh giá trên hai tập dữ liệu LIDC-IDRI vàKCLUNG, đồng thời so sánh với các mô hình cơ sở để xác định hiệu quả củaphương pháp đề xuất Kết quả đánh giá thông qua các độ đo cho thấy tiềm năngcủa phương pháp trong việc phân đoạn chính xác các vùng tổn thương nhỏ haycác nốt phổi trên ảnh CT
ESFP-Từ Khóa : ảnh CT, ung thư phổi, phân đoạn ảnh y tế, phân đoạn vật thể
nhỏ.
Trang 7Lung cancer is an extremely dangerous disease, not only with a high mortalityrate but also being the most common type of cancer in recent years In the earlystages, the symptoms of lung cancer are often unclear, leading to many casesbeing detected only when the disease has advanced and even metastasized Thishighlights the importance of early detection of lung cancer as a crucial factor
in reducing the mortality rate from this disease Among the various methods,diagnosing lung cancer through CT scans is commonly used due to its ability todetect cancer through image analysis From there, doctors can make diagnosticand treatment decisions based on specific information from the images
However, analyzing CT images is not without its difficulties and challenges,and it requires a significant amount of time and effort from medical professionals.Therefore, accelerating the diagnostic process using deep learning models toassist doctors in identifying the lesion areas has become a pressing need Fromthe segmented lesion areas, doctors can diagnose whether a tumor or nodulewithin the region is benign (non-cancerous) or malignant (cancerous) Furthermore,early diagnosis of lung cancer also faces unique challenges because tumorsare often very small and difficult to detect Thus, the development of a modelcapable of segmenting small lesions is particularly important in analyzing chest
CT images
The scope of this thesis includes participating in the construction of thechest CT image dataset named KCLUNG, contributing to studies on lung cancerdetection using deep learning models The KCLUNG dataset was developed inclose collaboration with doctors at Bach Mai Hospital, ensuring high objectivityand great potential for both research and practical applications Furthermore, thethesis proposes the ESFP-MSRFNet method, a novel approach for segmentingsmall lesions in chest CT images, leveraging recent advances in deep learning.This lesion segmentation model is evaluated on two datasets, LIDC-IDRI andKCLUNG, and compared with baseline models to determine the effectiveness
of the proposed method Evaluation results through various metrics demonstratethe potential of the method in accurately segmenting small lesions or lungnodules in CT images
Trang 8Mục lục
1.1 Tổng quan về chẩn đoán ung thư phổi bằng hình ảnh CT 1
1.1.1 Bệnh ung thư phổi 1
1.1.2 Đặc điểm của hình ảnh CT lồng ngực 2
1.1.3 Chẩn đoán ung thư phổi bằng phân tích ảnh CT 4
1.1.4 Những thách thức trong chẩn đoán ung thư phổi 5
1.2 Bài toán 5
1.3 Đóng góp 6
1.4 Cấu trúc luận văn 7
2 Kiến thức nền tảng và các nghiên cứu liên quan 8 2.1 Mô hình học sâu trong phân đoạn hình ảnh 8
2.1.1 Mạng nơ-ron tích chập 9
2.1.2 Kiến trúc mã hoá - giải mã 10
2.1.3 Cơ chế tự chú ý và kiến trúc Transformer 11
2.2 Dữ liệu ảnh CT lồng ngực 11
2.3 Phân vùng tổn thương trên ảnh CT lồng ngực 13
2.4 Phương pháp phân vùng tổn thương nhỏ 14
2.4.1 Mô hình cơ sở kiến trúc CaraNet 17
2.4.2 Mô hình cơ sở kiến trúc ESFPNet 22
2.5 Phương pháp học chuyển giao 24
2.6 Độ đo đánh giá 25
2.6.1 Ma trận nhầm lẫn 26
2.6.2 Độ đo IoU 26
2.6.3 Độ đo DICE 27
2.6.4 Độ nhạy 27
3 Phương pháp đề xuất 28 3.1 Bộ dữ liệu KCLUNG 28
3.1.1 Quy trình trích xuất dữ liệu 30
3.1.2 Tiền xử lý dữ liệu 31
3.2 Phương pháp đề xuất 32
3.2.1 Bộ mã hóa Transformer phân cấp 34
3.2.2 Khối Dual-Scale Dense Fusion (DSDF) 35
3.2.3 Mạng MSRF-Subnetwork 37
3.2.4 Bộ giải mã ESFPN 38
3.2.5 Hàm mất mát 39
Trang 94 Thực nghiệm 41
4.1 Bộ dữ liệu thực nghiệm 41
4.1.1 LIDC-IDRI 41
4.1.2 KCLUNG 42
4.2 Thiết lập thực nghiệm 44
4.3 Kết quả thực nghiệm 45
4.3.1 So sánh trên bộ dữ liệu LIDC-IDRI 45
4.3.2 So sánh trên bộ dữ liệu KCLUNG 46
4.3.3 Đánh giá thực nghiệm 48
Trang 10Danh sách bảng
2.1 Một số bộ dữ liệu ảnh CT được công bố 13 2.2 Ma trận nhầm lẫn cho bài toán phân vùng 26 3.1 Danh mục nhãn cho tổn thương và đánh dấu thông tin hình ảnh 29 3.2 Thống kê về số lượng của từng nhãn được gán liên quan đến vùng tổn thương ung thư phổi 30 4.1 Thống kê của bộ dữ liệu LIDC-IDRI 42 4.2 Thống kê bộ dữ liệu ung thư phổi KCLUNG cho phân đoạn vùng tổn thương 43 4.3 Các siêu tham số được lựa chọn để huấn luyện mô hình 44 4.4 Mô tả hai bộ dữ liệu được sử dụng để huấn luyện mô hình đề xuất ESFP- MSRFNet và các mô hình cơ sở 45 4.5 Bảng so sánh kết quả mô hình đề xuất với các mô hình cơ sở trên bộ dữ liệu LIDC-IDRI dựa trên các chỉ số DICE, IoU, và Sensitivity 46 4.6 Đánh giá kết quả của mô hình đề xuất so với các mô hình cơ sở trên bộ dữ liệu KCLUNG Kết quả so sánh sử dụng độ đo DICE, IoU và Sensitivity, các độ đo được đo dựa trên mặt nạ dự đoán và mặt nạ thực tế của các nốt phổi trong ảnh chụp CT lồng ngực 47
Trang 11Danh sách hình vẽ
1.1 Ảnh phổi a - CT, b - MRI, c - PET [1] 2
1.2 Các loại hình ảnh CT dựa trên liều phóng xạ 3
1.3 Quy trình phát hiện và phân vùng tổn thương trên ảnh CT hỗ trợ chẩn đoán ung thư phổi 4
2.1 Kiến trúc của mạng nơ-ron tích chập 9
2.2 Kiến trúc mã hóa - giải mã của mô hình Unet 10
2.3 Kiến trúc mô hình Unet++ [59] 11
2.4 Kiến trúc Transformer [46] 12
2.5 Các kiến trúc học sâu trích xuất đặc trưng đa tỷ lệ trong bài toán phân vùng [16] 15 2.6 Mạng kim tự tháp đặc trưng (FPN) kết hợp đặc trưng độ phân giải cao và đặc trưng độ phân giải thấp theo thứ tự từ trên xuống để làm phong phú thêm các đặc điểm ngữ nghĩa ở mọi cấp độ [16] 16
2.7 So sánh hiệu quả mô hình CaraNet và SFA trên bộ dữ liệu ETIS [42] tương ứng với từng tỷ lệ vật thể [33] 18
2.8 Kiến trúc tổng quan của mô hình CaraNet [33] 19
2.9 Mô-đun Channel-wise Feature Pyramid (CFP) [33] 20
2.10 Kiến trúc tổng quan của mô hình ESFPNet [8] 23
3.1 Quy trình thực hiện xây dựng bộ dữ liệu KCLUNG 28
3.2 Biểu đồ tỷ lệ giữa kích thước vùng tổn thương và kích thước hình ảnh trên KCLUNG 32
3.3 Kiến trúc của mô hình ESFP-MSRFNet cho phân vùng tổn thương trong ảnh CT phổi 33
3.4 Khối DSDF (Dual-Scale Dense Fusion) được đề xuất . 36
3.5 Mạng MSRF-Subnetwork trong phương pháp đề xuất. 38
4.1 Kết quả tiền xử lý dữ liệu LIDC-IDRI tham khảo [23] 42
4.2 Hình dữ liệu ảnh CT, hình ảnh phân vùng phổi và mặt nạ vùng tổn thương thực tế trong bộ dữ liệu KCLUNG 43
4.3 Hiệu suất của ESFP-MSRFNet đối với phân vùng tổn thương nhỏ (có kích thước < 4%) Với mỗi biểu đồ, trục x là tỷ lệ kích thước (%) của vùng tổn thương và trục y là giá trị độ đo tương ứng 48
4.4 Biểu diễn kết quả của các mô hình trên bộ dữ liệu KCLUNG 49 4.5 Kết quả phân tích mặt nạ dự đoán so với mặt nạ thực tế Phần màu đỏ biểu diễn phân vùng sai (False Positive) và phần màu xanh biểu diễn vùng tổn thương bị
Trang 12Chương 1
Giới thiệu
1.1 Tổng quan về chẩn đoán ung thư phổi bằng hình
ảnh CT
1.1.1 Bệnh ung thư phổi
Trên toàn cầu, ung thư phổi được coi là một trong những loại ung thư có sốlượng chẩn đoán cao nhất trong vài thập kỷ qua Về tỷ lệ tử vong, ung thư phổiđứng đầu trong các nguyên nhân gây tử vong liên quan đến phổi ở nam giới vàđứng thứ hai ở nữ giới [43] [6] Theo báo cáo thống kê năm 2018, có tới 2,1 triệu
ca ung thư phổi được chẩn đoán, chiếm 12% tổng số ca ung thư trên toàn thế giới.Đồng thời, ước tính có gần 1,8 triệu ca tử vong do ung thư phổi (trong đó 1,2 triệu
ca là nam giới và hơn 576 nghìn ca là nữ giới), chiếm 20% tổng số ca tử vong liênquan đến ung thư trên toàn cầu trong cùng năm
Việc điều trị ung thư phổi gặp nhiều thách thức do các triệu chứng của bệnh
ở giai đoạn đầu thường không rõ ràng [27] Trong giai đoạn này, nếu không tiếnhành kiểm tra sức khỏe tại bệnh viện, tình trạng của bệnh nhân rất khó được pháthiện Thông thường, khi ung thư phổi được chẩn đoán, bệnh đã tiến triển đến giaiđoạn nặng và thậm chí đã di căn Theo thống kê, nếu bệnh nhân ở giai đoạn I và IIcủa ung thư phổi được sàng lọc và điều trị kịp thời, tỷ lệ sống sót sau 5 năm có thểđạt từ 60% đến 90% [41] Tuy nhiên, đối với những bệnh nhân ở giai đoạn III và
IV, tỷ lệ sống sót sau 5 năm giảm đáng kể, thậm chí dưới 8% dù họ có được phẫuthuật kịp thời, do đã bỏ lỡ thời điểm điều trị hiệu quả nhất
Trong những thập kỷ qua, nhiều phương thức mới đã xuất hiện như chụp cắtlớp vi tính (CT), chiếu xạ positron (PET) và hình ảnh cộng hưởng từ (MRI), giúp
hỗ trợ bác sĩ trong việc chẩn đoán ung thư phổi Hình 1.1 minh họa các nốt phổi, làbiểu hiện phổ biến nhất của ung thư phổi, có thể được phát hiện bằng các phươngthức chụp ảnh này Trong số đó, chụp cắt lớp vi tính (CT) nổi bật với khả năngphát hiện ung thư phổi ở giai đoạn đầu nhờ độ phân giải không gian cao và tính
Trang 13chất không xâm lấn, cho phép phát hiện các nốt hoặc tổn thương nhỏ ở phổi, từ đó
có thể dẫn đến điều trị hiệu quả hơn và giảm tỷ lệ tử vong
Hình 1.1: Ảnh phổi a - CT, b - MRI, c - PET [1]
Trong thực tế, các nốt phổi hay tổn thương thường được xác định dựa trên cácđặc điểm như hình dạng, cấu trúc, cường độ, v.v Tuy nhiên, việc khoanh vùng cácnốt phổi một cách thủ công bởi các bác sĩ X quang là một quá trình phức tạp, đặcbiệt khi phải xử lý một số lượng lớn các trường hợp Quá trình này cũng có nguy
cơ cao dẫn đến sai sót trong việc phân loại nốt phổi là ác tính hoặc lành tính Điềunày đã thúc đẩy các nghiên cứu nhằm hỗ trợ và đẩy nhanh quá trình chẩn đoán ungthư phổi
Mặc dù tỷ lệ sống sót của bệnh nhân ung thư phổi chỉ có dấu hiệu cải thiệnnhẹ, nhưng nhờ vào khả năng sàng lọc định kỳ và phát hiện sớm thông qua phântích ảnh chụp cắt lớp CT liều thấp, kết hợp với các phương pháp điều trị mới, tỷ lệ
tử vong có thể được giảm thiểu và khả năng sống sót của bệnh nhân trong tươnglai sẽ tăng lên [39] Phát hiện sớm và điều trị kịp thời ung thư được coi là chìakhóa quan trọng để kiểm soát tỷ lệ tử vong do ung thư phổi Hơn nữa, việc sànglọc ung thư phổi định kỳ đóng vai trò cực kỳ quan trọng trong việc phát hiện sớmcăn bệnh này [31] Để đạt được mục tiêu này, các phương pháp sàng lọc và chẩnđoán cần được cải tiến liên tục để tăng cường độ chính xác và hiệu quả Sự pháttriển của mô hình Học sâu trong phân tích hình ảnh CT đã mở ra những cơ hộimới cho việc phát hiện tổn thương phổi một cách chính xác hơn
1.1.2 Đặc điểm của hình ảnh CT lồng ngực
Trong nghiên cứu và đánh giá các đặc điểm và đặc trưng của ảnh khối u phổitrên hình ảnh y tế, các công cụ và kỹ thuật như chụp X-quang, CT scan, MRI vàPET scan được sử dụng Đặc biệt, Computer Tomography, hay còn gọi là ảnh chụpcắt lớp, là một công cụ chẩn đoán quan trọng, cung cấp hình ảnh chi tiết của các
Trang 14Ảnh chụp cắt lớp vi tính (CT) lồng ngực cung cấp hình ảnh chi tiết về cấutrúc nội tạng, kích thước, hình dạng và vị trí của các cơ quan trong ngực Công cụnày rất hữu ích trong việc phát hiện các vết thương, khối u, và bất thường trongphổi, đồng thời giúp đánh giá sự mở rộng hoặc co bóp của mạch máu, cũng nhưcác bệnh lý liên quan đến tim và màng phổi.
Quá trình thực hiện chụp ảnh CT lồng ngực bắt đầu với việc bệnh nhân nằmtrên bàn quét, sau đó được đưa vào máy quét CT Trong quá trình quét, máy quét
sẽ xoay quanh cơ thể bệnh nhân, thu thập hàng ngàn hình ảnh lát cắt mỏng Dữliệu hình ảnh này sau đó được xử lý bởi máy tính để tạo ra các hình ảnh 2D và3D chi tiết về phần ngực của bệnh nhân Các hình ảnh này giúp bác sĩ quan sát vàphân tích các cấu trúc bên trong một cách rõ ràng và chính xác, hỗ trợ trong việcchẩn đoán và lập kế hoạch điều trị
(a) CT liều thấp (b) CT tiêu chuẩn (c) CT liều cao
Hình 1.2: Các loại hình ảnh CT dựa trên liều phóng xạ
Ảnh CT với mức liều khác nhau được mô tả trên Hình 1.2 bao gồm:
• CT liều thấp (Low-dose CT): Đây là loại CT được thiết kế để sử dụng mộtliều tia X thấp hơn so với CT thông thường Nó được sử dụng để giảm ảnhhưởng của tia X đối với bệnh nhân, đặc biệt là khi chụp các khu vực nhạy cảmnhư phổi CT liều thấp được sử dụng phổ biến trong chẩn đoán ung thư phổi
• CT tiêu chuẩn (Standard-dose CT): Đây là loại CT sử dụng một liều tia
X tiêu chuẩn, không điều chỉnh Nó được sử dụng trong các trường hợp cầnđánh giá chi tiết các cấu trúc nội tạng và mô mềm, và không có yêu cầu đặcbiệt về giảm liều tia X
• CT mật độ cao (High-dose CT): Đây là loại CT sử dụng một liều tia X caohơn so với CT tiêu chuẩn Thường được áp dụng trong các tình huống cầnđạt được độ phân giải cao và chi tiết hình ảnh, như trong chẩn đoán bệnh timmạch phức tạp hoặc chẩn đoán và theo dõi các bệnh lý mạch máu
Các loại máy chụp cắt lớp vi tính (CT) với các mức liều khác nhau được lựa chọndựa trên mục đích chẩn đoán cụ thể, khu vực cần quét và các yêu cầu bảo vệ sứckhỏe của bệnh nhân Trong số đó, chế độ CT với liều thấp thường được ưu tiên
Trang 15hơn vì nó giúp giảm liều tia X và hạn chế nguy cơ tiềm ẩn đối với sức khỏe củabệnh nhân.
1.1.3 Chẩn đoán ung thư phổi bằng phân tích ảnh CT
Quy trình chẩn đoán ung thư phổi thông qua phân tích hình ảnh CT bao gồmnhiều giai đoạn phức tạp, và có thể được tổng quan hóa như trong Hình 1.3 Từhình ảnh CT, các nốt phổi hay vùng tổn thương sẽ được phân vùng và xác định vịtrí Sau đó, các bác sĩ sẽ sử dụng hình ảnh của những vùng tổn thương này để chẩnđoán tính chất của khối u là lành tính hay ác tính
Hình 1.3: Quy trình phát hiện và phân vùng tổn thương trên ảnh CT hỗ trợ chẩnđoán ung thư phổi
Như đã đề cập ở trên, việc phân tích hình ảnh chụp cắt lớp lồng ngực đóngvai trò quan trọng trong việc hỗ trợ chẩn đoán và điều trị ung thư phổi Mục tiêucủa việc phân tích bao gồm:
• Phát hiện sớm ung thư phổi:Phân tích hình ảnh chụp cắt lớp lồng ngực giúpphát hiện sớm các dấu hiệu và biểu hiện của ung thư phổi, bao gồm việc xácđịnh vị trí khối u, cấu trúc bất thường và những thay đổi trong cấu trúc phổi
• Đánh giá tính chất khối u: Phân tích hình ảnh cung cấp thông tin về kíchthước, hình dạng, vị trí và đặc điểm của khối u Những yếu tố này giúp xácđịnh liệu khối u là ác tính hay lành tính
• Đánh giá sự lan tỏa của khối u:Hình ảnh chụp cắt lớp lồng ngực cung cấpthông tin về mức độ lan tỏa của ung thư phổi, bao gồm việc xác định sự xâmlấn vào các mô lân cận, lan rộng đến các mạch máu chính, và sự tồn tại củacác khối u thứ phát
• Định vị và lập kế hoạch điều trị: Phân tích hình ảnh cắt lớp giúp xác địnhchính xác vị trí và hình dạng của khối u trong phổi, từ đó hỗ trợ việc định vị
Trang 16sót cho bệnh nhân Đối với những bệnh nhân đã được chẩn đoán mắc bệnh, thôngtin chi tiết về khối u và mức độ lan tỏa của nó giúp họ nhận được các phương phápđiều trị phù hợp, đồng thời hỗ trợ dự báo tình hình bệnh và xác định giai đoạnbệnh một cách chính xác hơn Từ đó, bệnh nhân có thể được hưởng lợi từ các liệupháp điều trị tiên tiến, như phẫu thuật, xạ trị hoặc hóa trị, tùy thuộc vào giai đoạn
và tính chất của khối u Việc xác định chính xác giai đoạn bệnh không chỉ giúpbác sĩ đưa ra những quyết định điều trị kịp thời mà còn tối ưu hóa cơ hội chữa khỏibệnh hoặc kéo dài thời gian sống của bệnh nhân
1.1.4 Những thách thức trong chẩn đoán ung thư phổi
Việc chẩn đoán sớm ung thư phổi đóng vai trò vô cùng quan trọng trong việcxây dựng kế hoạch điều trị hiệu quả và giảm tỷ lệ tử vong do bệnh gây ra Mặc dù
có nhiều tiến bộ trong công nghệ chẩn đoán, vẫn còn nhiều thách thức trong việcphát hiện và chẩn đoán ung thư phổi Các thách thức này bao gồm:
• Yêu cầu nhiều thời gian: Quy trình chẩn đoán ung thư phổi thường yêu cầucác bước phân tích phức tạp như xác định vị trí, kích thước của các vùng tổnthương và phân loại tổn thương theo mức độ nghiêm trọng Những bước nàyđòi hỏi không chỉ kiến thức chuyên môn sâu rộng mà còn cần nhiều thời gian
và công sức từ các chuyên gia y tế
• Khó khăn trong việc phát hiện vùng tổn thương nhỏ:Trong thực tế, chẩnđoán sớm ung thư phổi có thể gặp nhiều khó khăn, đặc biệt khi phải đối mặtvới những tổn thương nhỏ, thường có đặc trưng không rõ ràng và cấu trúcphức tạp dẫn đến khó phát hiện
Từ những thách thức nêu trên, việc hỗ trợ các bác sĩ thông qua các công cụphân tích hình ảnh, đặc biệt là các mô hình học sâu, trở nên vô cùng cần thiết Cáccông cụ này có khả năng tự động gợi ý khoanh vùng tổn thương, giúp bác sĩ tiếtkiệm thời gian và công sức trong quá trình chẩn đoán Đồng thời, việc ứng dụngnhững thành tựu của mô hình học sâu cũng có tiềm năng lớn trong việc phân vùngchính xác và đẩy nhanh quá trình chẩn đoán, từ đó góp phần nâng cao chất lượngđiều trị cho bệnh nhân ung thư phổi
1.2 Bài toán
Như đã đề cập ở trên, việc sử dụng các mô hình học sâu có thể hỗ trợ các bác
sĩ tiết kiệm được thời gian và công sức trong khi vẫn bảo đảm về tính xác thực.Tuy nhiên, trong thực tế tồn tại các thách thức về sự đa dạng kích thước của cácnốt phổi hay khối u, đặc biệt là các tổn thương nhỏ Bằng việc tận dụng tiềm năngcủa các mô hình học sâu, luận văn tập trung vào giải quyết các vấn đề bằng cách
đề xuất mô hình phân vùng tổn thương nhỏ hỗ trợ các bác sĩ chẩn đoán ung thưphổi Cụ thể, bài toán sẽ được biểu diễn như sau:
Trang 17Y = F(X ) (1.1)Trong đó:
• Đầu vào xi là một ảnh chụp CT có kích thước W × H, đầu vào X là một cachụp ảnh gồm nhiều ảnh xi:
và xây dựng hàm F cụ thể hơn
Nhận thấy tầm quan trọng của việc chẩn đoán sớm và tiềm năng ứng dụngcủa các mô hình học sâu trong việc hỗ trợ chẩn đoán ung thư phổi qua phân tíchhình ảnh CT lồng ngực, nhằm giảm bớt gánh nặng cho các bác sĩ và chuyên giachẩn đoán Sau quá trình nghiên cứu và thực nghiệm đánh giá mô hình đề xuất,luận văn mang tới những đóng góp sau:
• Tham gia vào quá trình xây dựng bộ dữ liệu hình ảnh ung thư phổi KCLUNGvới việc trích xuất thông tin nhãn tổn thương và tiền xử lý bộ dữ liệu cho pháttriển các mô hình học sâu Bộ dữ liệu này có tính khách quan cao nhờ vàokiến thức và kinh nghiệm của các bác sĩ và được xây dựng theo định dạng tiêuchuẩn của bộ dữ liệu hình ảnh CT lồng ngực Đóng góp vào nghiên cứu lĩnhvực chẩn đoán ung thư phổi thông qua hình ảnh CT lồng ngực
• Đề xuất một phương pháp tiếp cận mới cho phân vùng tổn thương nhằm giảiquyết những thách thức về kích thước của các nốt phổi trong những giai đoạnđầu Mô hình có khả năng phân đoạn mặt nạ các vùng tổn thương nhỏ trongảnh CT Luận văn cũng thực hiện so sánh phương pháp đề xuất với các môhình cơ sở trên hai bộ dữ liệu: LIDC-IDRI [3] và KCLUNG nhằm đánh giáhiệu quả của mô hình mới Việc so sánh này giúp làm rõ những cải thiện vềhiệu suất của mô hình đề xuất trong việc phân vùng các tổn thương với cácphương pháp cơ sở
Trang 181.4 Cấu trúc luận văn
Để có thể nắm bắt được những nội dung chính sẽ được trình bày trong luậnvăn, dưới đây là phần cấu trúc chi tiết của luận văn Mỗi chương sẽ tập trung vàomột khía cạnh quan trọng của nghiên cứu, phân tích sâu và xây dựng chi tiết chotừng khía cạnh này Luận văn bao gồm năm phần được sắp xếp như sau:
• Chương 1 - Giới thiệu: Chương đầu tiên nhằm mục đích giới thiệu tổngquan về việc chẩn đoán ung thư phổi bằng ảnh CT, đồng thời nêu rõ nhữngkhó khăn và thách thức chính trong lĩnh vực này Từ đó, đề xuất phương pháp
hỗ trợ các bác sĩ trong quy trình chẩn đoán thông qua việc phân vùng tổnthương trên ảnh CT lồng ngực Cuối cùng, chương sẽ tổng hợp các đóng gópcủa luận văn
• Chương 2 - Kiến thức nền tảng và các nghiên cứu liên quan:Chương thứhai sẽ cung cấp các kiến thức nền tảng về mô hình học sâu, đồng thời tóm tắtcác nghiên cứu phát triển liên quan đến bài toán phân vùng tổn thương trongảnh CT lồng ngực Ngoài ra, phần này cũng trình bày về các mô hình cơ sởđóng vai trò quan trọng trong nghiên cứu này Cuối cùng, chương sẽ mô tả cáctiêu chí và phương pháp đánh giá độ tin cậy của các mô hình được sử dụngtrong luận văn
• Chương 3 - Phương pháp đề xuất: Chương thứ ba sẽ mô tả về bộ dữ liệuhình ảnh CT lồng ngực KCLUNG Sau đó, chương này sẽ phân tích về kiếntrúc của mô hình đề xuất ESFP-MSRFNet giải quyết vấn đề phân vùng tổnthương nhỏ trong ảnh CT lồng ngực
• Chương 4 - Thực nghiệm: Chương thứ tư sẽ trình bày tổng quát về cácthiết lập cần thiết cho việc thực nghiệm huấn luyện, bao gồm bộ dữ liệu thựcnghiệm và cấu hình tham số Dựa trên các thiết lập này, chương sẽ cung cấpkết quả thực nghiệm so sánh giữa mô hình đề xuất và các mô hình cơ sở,nhằm đánh giá hiệu quả của mô hình mới
• Chương 5 - Kết luận: Chương cuối cùng sẽ tổng kết quá trình nghiên cứucủa luận văn, bao gồm những phần đã giải quyết được và định hướng nhữngcông việc nghiên cứu trong tương lai
Trang 19Chương 2
Kiến thức nền tảng và các
nghiên cứu liên quan
Chương thứ hai giới thiệu các kiến thức nền tảng phục vụ cho nghiên cứu
và các nghiên cứu liên quan đến phân vùng tổn thương trong ảnh CT lồng ngực.Đầu tiên, trình bày các kiến thức nền tảng đóng vai trò quan trọng trong phát triểnnghiên cứu Tiếp theo, liệt kê những nghiên cứu đột phá trong lĩnh vực phân vùngtổn thương trên ảnh CT và các cách tiếp cận phân vùng tổn thương nhỏ Nhữngnghiên cứu trên cung cấp một góc nhìn tổng quan và nền tảng cho nghiên cứu củaluận văn Cuối cùng, chương này sẽ tổng hợp các tiêu chí đánh giá và độ đo được
sử dụng để đánh giá hiệu quả của các mô hình phân vùng tổn thương
2.1 Mô hình học sâu trong phân đoạn hình ảnh
Phân đoạn hình ảnh là một trong những nhiệm vụ quan trọng nhất trong lĩnhvực xử lý ảnh y tế, đóng vai trò thiết yếu trong việc hỗ trợ chẩn đoán và điềutrị Trước khi các mô hình học sâu ra đời, các phương pháp phân đoạn chủ yếudựa trên việc trích xuất đặc trưng bằng các kỹ thuật thủ công truyền thống Tuynhiên, trong những năm gần đây, sự phát triển của học sâu đã mang lại nhữngbước tiến đáng kể, cải thiện hiệu suất vượt trội so với các phương pháp phân đoạntruyền thống Dựa trên các kiến trúc mô hình được nghiên cứu, các phương phápphân đoạn học sâu hiện nay có thể được phân thành ba nhóm chính: mạng nơ-rontích chập (CNN), kiến trúc mã hóa - giải mã (Encoder - Decoder), và kiến trúcTransformer
Trang 202.1.1 Mạng nơ-ron tích chập
Mạng nơ-ron tích chập (CNN) [37] là một loại mạng nơ-ron học sâu đã chứngminh được tính hữu ích đặc biệt trong việc phân tích hình ảnh CNN được sử dụngcho các tác vụ phân loại và nhận dạng hình ảnh nhờ vào độ chính xác cao Ngoài
ra, CNNs còn được ứng dụng trong các lĩnh vực khác như xử lý ngôn ngữ tự nhiên
và nhận dạng giọng nói CNNs được lấy cảm hứng từ các quá trình sinh học diễn
ra khi não bộ cố gắng nhận thức hình ảnh CNNs sử dụng một biến thể của cáchtiếp cận này bằng cách kết nối các nơ-ron trong một lớp chỉ với một vùng nhỏ củalớp trước đó, kiến trúc này cho phép CNNs sử dụng ít tham số hơn và làm choquá trình lan truyền tiến trình hiệu quả hơn CNNs bao gồm các nơ-ron có trọng
số (weight) và độ lệch (bias) có khả năng học từ dữ liệu huấn luyện Mỗi nơ-ronnhận một số đầu vào, thực hiện các phép tính toán và có thể thực hiện cùng vớimột hàm phi tuyến Toàn bộ mạng vẫn biểu diễn một hàm số phân biệt duy nhất:
từ các điểm ảnh thô trên trong ảnh đầu vào đến các điểm số lớp ở đầu ra Và mạng
có một hàm mất mát (ví dụ: SVM/Softmax) trên lớp cuối cùng (fully-connected).Trong những năm gần đây, có rất nhiều nghiên cứu sử dụng học sâu cho bàitoán phân đoạn hình ảnh y tế và đã thu được nhiều kết quả khả quan Đặc biệt,các mô hình mạng thần kinh tích chập cho thấy hiệu quả cao trên nhiều loại ảnh
y tế khác nhau như ảnh chụp X-quang (X-ray), ảnh cộng hưởng từ (MRI), ảnhPET và ảnh chụp cắt lớp (CT) Hơn nữa, các mô hình này còn đạt được kết quảtốt trên nhiều bộ dữ liệu ảnh y tế đã được công bố như BraTS [5], KiT19 [24], vàCOVID19-20 [33], thể hiện tiềm năng phát triển của các mô hình mạng này Sựphát triển của các mô hình gồm hai yếu tố chính:
Feature
Feature
Feature
Prediction
Hình 2.1: Kiến trúc của mạng nơ-ron tích chập
• Sự xuất hiện của các kiến trúc mô hình mới: Qua các khía cạnh như độsâu, độ rộng và cấu trúc kết nối[33] Sự tiến bộ theo độ sâu - như mô hìnhResNet [19], theo độ rộng - như mô hình ResNeXt [54], và tính liên kết trong
mô hình - đại diện bởi DenseNet [22] và GoogleNet [45] Những cấu trúc nàyphức tạp hơn và đã nâng cao hiệu suất của mô hình so với trước Tuy nhiên,chúng cũng mang đến nhược điểm là mô hình trở nên lớn hơn, có nhiều tham
số hơn, dẫn đến chi phí huấn luyện cao hơn và tốn nhiều thời gian hơn Hơn
Trang 21nữa, một trong những hạn chế của các mạng này là khả năng học thông tintổng quát không cao.
• Sự xuất hiện của các cấu trúc và kỹ thuật mới: Có thể thấy, các mô hìnhphân vùng mới đang tích hợp các thành phần để giải quyết những hạn chế củacác mô hình trước đó Ví dụ, cấu trúc kim tự tháp (Pyramid) [30] giúp cảithiện khả năng học các đặc trưng ở nhiều mức độ thu phóng khác nhau Hoặcnhư sự ra đời của lớp tích chập giãn nở (Dilated) [56] và lớp tích chập Atrous[9] Mặc dù đã cải thiện được hiệu suất tổng thể của mô hình, những thànhphần này vẫn có thể không hiệu quả đối với việc phân vùng các vật thể nhỏ
2.1.2 Kiến trúc mã hoá - giải mã
Hình 2.2: Kiến trúc mã hóa - giải mã của mô hình Unet
Trước đây, phát triển mô hình học sâu chủ yếu tập trung vào các bài toánnhận diện đối tượng dựa trên hộp giới hạn Chỉ đến khi mô hình FCN [32] ra đời,các bài toán phân đoạn hình ảnh mới thực sự bắt đầu phát triển Trong đó, kiếntrúc mã hoá - giải mã kết hợp với kết nối bỏ qua, như U-Net [38], đã đặt nền móngvững chắc cho sự tiến bộ của các biến thể như Unet++ [59], Resunet++ [25], vàPranet [17] Các mô hình này đã đạt được hiệu quả cao và nhận được sự quan tâmlớn Tuy nhiên, điểm hạn chế của chúng là tập trung quá nhiều vào việc phân vùngtoàn bộ vật thể mà ít quan tâm đến sự tương phản giữa viền của vật thể và vùngnền
Trang 22Hình 2.3: Kiến trúc mô hình Unet++ [59].
2.1.3 Cơ chế tự chú ý và kiến trúc Transformer
Một hướng tiếp cận khác đang thu hút sự quan tâm là sự bùng nổ của cơ chế
tự chú ý và các mô hình Transformer [47] trong những năm gần đây Ban đầu đượcphát triển mạnh mẽ trong xử lý ngôn ngữ tự nhiên, các mô hình như GPT-3 [7] vàBERT [13] đã chứng minh khả năng học được thông tin từ các chuỗi dữ liệu dài
Sự thành công này đã khuyến khích áp dụng cơ chế tự chú ý và Transformer vàocác bài toán phân đoạn hình ảnh y tế
Nghiên cứu đã chỉ ra rằng cơ chế tự chú ý và kiến trúc Transformer được mô
tả như trên Hình 2.4 có thể mang lại hiệu quả cao hơn so với các phương phápmạng thần kinh tích chập trong các bài toán này Sự ra đời của Vision Transformer[14] đã làm rõ hơn tính hiệu quả của phương pháp này đối với việc phân đoạn hìnhảnh Các nghiên cứu gần đây cũng đã chỉ ra rằng cấu trúc kim tự tháp (Pyramid)trong Transformer mang lại lợi ích đặc biệt trong việc trích xuất các bản đồ đặctrưng phục vụ các nhiệm vụ tiếp theo
2.2 Dữ liệu ảnh CT lồng ngực
Một số bộ dữ liệu được công bố và sử dụng rộng rãi trong nghiên cứu về ảnh
CT lồng ngực được mô tả trong Bảng 2.1 LIDC- IDRI [3] dữ liệu từ 1010 bệnhnhân được thu thập và gán nhãn trong hai giai đoạn bởi bốn bác sĩ chuyên khoa cókinh nghiệm Các ảnh CT có sẵn dưới định dạng DICOM Trong giai đoạn đầu,các bác sĩ độc lập phát hiện và thực hiện gán nhãn (nốt ≤3 mm, nốt < 3 mm,
Trang 23Hình 2.4: Kiến trúc Transformer [46].
không phải nốt ≤3 mm) với các thông tin rõ ràng như cấu trúc bên trong, hìnhdạng, phân vùng, mức độ rõ ràng và khả năng ác tính của các nốt phổi Trong giaiđoạn thứ hai, mỗi bác sĩ độc lập xem xét các chú thích của mình và của ba bác
sĩ khác và đưa ra đánh giá cuối cùng Quá trình chú thích hai giai đoạn này đảmbảo độ chính xác và tính chính thống của các kết quả chú thích Bộ dữ liệu LUNA
16 [40] là một phần được lấy từ bộ dữ liệu LIDC-IDRI nhằm phát triển các thuậttoán phát hiện nốt phổi và giảm số lượng mẫu dương tính giả Để chuẩn hóa việcđánh giá các mô hình và thuật toán, dữ liệu LUNA16 bao gồm những quy tắc mới
để chọn dữ liệu và cấu trúc lại các ảnh CT, chú thích nốt phổi và thông tin bổ trợ
Bộ dữ liệu không sử dụng định dạng DICOM vì tiêu chuẩn DICOM chủ yếu đượcthiết kế cho mục đích lâm sàng Vì vậy, bộ dữ liệu cung cấp định hạng MHD -
Trang 24biến khác NLST [55] cung cấp ảnh chụp phổi của khoảng 54.000 người tham gia,tuy nhiên NLST không có thông tin chú thích về tọa độ của các nốt phổi trên ảnh
CT Dữ liệu NELSON [58] NELSON bao gồm các ảnh quét cơ bản và theo dõicủa hơn 7557 bệnh nhân, vị trí nốt phổi và các chú thích liên quan được gán nhãnbởi các bác sĩ Ảnh CT và chú thích được trình bày dưới dạng định dạng DICOM
và hình ảnh ghi lại
Bảng 2.1: Một số bộ dữ liệu ảnh CT được công bố
Tổng số 1010 bệnh
nhân
888 lần chụpCT
54,000 ngườitham gia
7557 ngườitham giaĐịnh dạng
2.3 Phân vùng tổn thương trên ảnh CT lồng ngực
Trong những năm gần đây, nhiều phương pháp học sâu đã được đề xuất và ápdụng vào việc phân vùng nốt phổi, giúp các bác sĩ chẩn đoán và điều trị bệnh nhânung thư phổi một cách chính xác hơn bằng cách học từ một lượng lớn dữ liệu ảnh ykhoa và trích xuất các đặc trưng của nốt từ những dữ liệu đó, nhằm đạt được phânvùng nốt tự động đồng thời cải thiện hiệu quả và độ chính xác trong lâm sàng.Dựa trên kích thước khác nhau của dữ liệu y sinh, việc phân vùng nốt phổidựa trên học sâu có thể được chia thành phân vùng 2D cho các lát cắt nốt phổi
và phân vùng 3D cho dung tích y sinh 3D Đối với phân vùng 2D, những nghiêncứu trước đề xuất mạng kết nối đầy đủ (FCN), một mô hình mạng cho phép xử lýđầu vào hình ảnh với các kích thước khác nhau, đồng thời cải thiện đáng kể tốc
độ phân vùng, mở ra một hướng đi mới cho phân vùng nốt phổi Năm 2015, mạngUNet [38] ra đời, dựa trên cấu trúc mã hoá - giải mã áp dụng vào các nhiệm vụphân vùng dữ liệu hình ảnh y sinh Ngoài ra, kiến trúc sử dụng phương pháp mớigọi là kết nối bỏ qua để kết hợp thông tin ngữ nghĩa cấp thấp được trích xuất từmỗi lớp của bộ mã hóa với thông tin ngữ nghĩa trừu tượng của bộ giải mã, giúp cảithiện độ chính xác của phân vùng, Công trình này đã được chứng minh là cải thiệnđáng kể độ chính xác trong việc phát hiện và phân vùng nhiều hình ảnh y sinhhọc, bao gồm cả phân vùng nốt phổi Năm 2020, một cải tiến của mạng UNet, kếthợp kết nối đa chiều, mô-dun đặc trưng có trọng số (Bi-FPN) và hàm kích hoạtcải tiến [26] Sau đó, với sự phát triển mạnh mẽ của kiến trúc mã hóa-giải mã dựa
Trang 25trên Transformer, mô hình Cross-Transformer và mô-đun trích xuất đặc trưng haichiều được giới thiệu và đạt được hiệu quả phân vùng chính xác hơn [28] Đếnnăm 2021, mô hình mạng SquExUNet [15], tích hợp cơ chế chú ý dựa trên U-Net,cho việc phân vùng nốt phổi và đạt được hệ số tương đồng Dice (DSC) là 80.00%trên bộ dữ liệu LIDC, LNDb và bộ dữ liệu lâm sàng ILCID với độ nhạy là 90.01%.Tiếp tục với mô hình cơ sở U-Net, năm 2023 MSR-Unet [21] dựa trên U-Net tíchhợp cơ chế tự chú ý, đặc trưng đa tỷ lệ và cấu trúc mạng dư (Residual network) đãđạt được hệ số Dice tốt là 91.87% và IoU 86.8% trên bộ dữ liệu LIDC- IDRI [3].Mặc dù các nghiên cứu gần đây đã cải thiện hiệu quả tổng thể của các môhình phân vùng, nhưng vẫn tồn tại thách thức đối với việc xử lý các vật thể nhỏ.Trong lĩnh vực chẩn đoán y tế, những vật thể nhỏ đóng vai trò cực kỳ quan trọngtrong việc phát hiện sớm ung thư phổi và các bệnh lý khác Thêm vào đó, nhữngthông tin quan trọng trong hình ảnh y tế thường nằm trong những vùng nhỏ, chitiết [33] Do đó, trong luận văn này, mô hình phân vùng sẽ tập trung vào giải quyếtvấn đề các vật thể nhỏ hay các vùng tổn thương nhỏ, đồng thời mang lại hiệu quảcao trong phân đoạn hình ảnh y tế Để đạt được điều này, cần kết hợp những ưuđiểm của mạng thần kinh tích chập và khả năng học các chuỗi dữ liệu dài của cơchế chú ý.
Trong những nghiên cứu phát hiện đối tượng nhỏ, những nghiên cứu trướctập trung vào việc trích xuất đặc trưng từ các vùng có kích thước nhỏ Mạng kim
tự tháp đặc trưng (FPN) truyền thống [30] đạt được tiềm năng lớn trong việc tríchxuất các đặc trưng đa tỷ lệ thông qua một kiến trúc nhiều tầng với tỷ lệ bản đồ đặctrưng khác nhau Tuy nhiên, phép toán tăng kích thước được sử dụng bởi FPN làmmất thông tin vị trí của các đối tượng nhỏ Gần đây, mô hình Transformer với cơchế tự chú ý phổ biến [14] có thể nắm bắt các vùng đối tượng hiệu quả dựa trêncác cơ chế mã hóa - giải mã và tự chú ý Hơn nữa, nghiên cứu mới phân tách đầuvào thành hai nhánh độc lập cho phân loại và định vị Phương pháp ghép nối đặctrưng có thể cải thiện hiệu suất phát hiện đối tượng nhỏ một cách hiệu quả Haiđặc điểm quan tâm chính của các nghiên cứu phân tích hình ảnh y tế là khu vựckhối u nhỏ và vùng biên của các đối tượng bị mờ Do đó, để giải quyết vấn đề nàycần phải thiết kế một phương pháp hiệu quả để làm phong phú các đặc trưng độphân giải cao và chú ý cục bộ với thông tin ngữ nghĩa từ các bản đồ đặc trưng đa
tỷ lệ Các kiến trúc học sâu đa tỷ lệ được phân loại rộng rãi thành hai nhóm chính:học đặc trưng đa tỷ lệ (Multi-scale feature learning) và hợp nhất đặc trưng đa tỷ lệ(Multi-scale feature fusion)
Trang 26trưng từ nhiều mô hình tại lớp kết nối đầy đủ Học đặc trưng đa tỷ lệ có thể đượcđịnh nghĩa là quá trình suy luận các bản đồ đặc trưng bằng cách phân tích với cáccửa sổ trượt ở nhiều tỷ lệ khác nhau để nắm bắt một dải rộng hơn các đặc trưngliên quan và ước lượng ánh xạ không gian liên kết với các hình ảnh đầu vào.Đối với một bản đồ đặc trưng CNN cụ thể, tỷ lệ không gian của hình ảnh đầuvào là kích thước, tính bằng điểm ảnh, của hình chữ nhật trong hình ảnh đầu vàoảnh hưởng đến giá trị của đăng ký bản đồ đặc trưng tương ứng Các vùng nhậnthức đa tỷ lệ trên các bản đồ đặc trưng sâu nhằm nắm bắt thông tin đối tượng ngữnghĩa và ngữ cảnh, như được minh họa trong Hình 2.5 Các bộ lọc tích chập màu
đỏ, vàng và xanh lá cây biểu thị ba kích thước bộ lọc khác nhau được sử dụng đểthu thập các đặc trưng tiềm ẩn
Tiếp theo, phương pháp SPP (Spatial Pyramid Pooling) [20] được giới thiệubao gồm các lớp tích chập được chia thành các khối có kích thước khác nhau đểtrích xuất các đặc trưng với các kích thước cụ thể từ mỗi khối, sau đó được hợpnhất ngay sau khi bản đồ đặc trưng của mỗi luồng được điều chỉnh kích thướctương tự nhau Một nghiên cứu khác về học kết hợp các đặc trưng đã đề xuất mộtcấu trúc kim tự tháp bằng cách sử dụng các kích thước khác nhau của lớp tổng hợp
để kết hợp các đặc trưng ngữ nghĩa ở các tỷ lệ khác nhau ngay sau một mạng giải
mã tiêu chuẩn [57] Mô-đun này cho phép mạng phân đoạn hình ảnh của họ hiểu
rõ hơn ngữ cảnh của đối tượng và khắc phục điểm yếu của mạng tích chập hoàntoàn (FCN) [30] trong việc xử lý thông tin toàn cục và thông tin chung ở nhiềuquy mô khác nhau Cấu trúc kim tự tháp thu thập thông tin vùng nền từ các khuvực khác nhau và giảm thiểu tối thiểu sự méo dạng của đối tượng, điều này giúpmạng tốt hơn trong việc trích xuất thông tin toàn cục
Hình 2.5: Các kiến trúc học sâu trích xuất đặc trưng đa tỷ lệ trong bài toán phânvùng [16]
Trang 27Kết hợp các đặc trưng đa tỷ lệ
Mục tiêu của mô hình phân vùng ngữ nghĩa là dự đoán lớp ngữ nghĩa củatừng điểm ảnh riêng lẻ Do yêu cầu dự đoán dày đặc này, việc duy trì các đặctrưng độ phân giải cao là điều cần thiết để có được phân loại theo điểm ảnh tốthơn Tuy nhiên, việc đạt được các vùng nhận thức lớn trong các đặc trưng độ phângiải cao bằng cách sử dụng tích chập là rất khó khăn Hợp nhất đặc trưng đa tỷ lệdựa trên việc sử dụng nhiều đặc trưng với các độ phân giải khác nhau để nắm bắt
cả các mẫu ngắn hạn và dài hạn, mà không cần một mạng rất sâu Phương pháphợp nhất đặc trưng đa tỷ lệ là một cách hiệu quả để thu được các đặc trưng chấtlượng cao, có thể được chia thành hợp nhất ở mức hình ảnh và hợp nhất ở mức đặctrưng [50] Hợp nhất ở mức hình ảnh là quá trình kết hợp thông tin quan trọng từnhiều hình ảnh vào một hình ảnh duy nhất để tạo ra các biểu diễn toàn diện và hữuích hơn so với các đầu vào gốc Do đó, bằng cách sử dụng các thuật toán hợp nhấthình ảnh, chất lượng của bản đồ đặc trưng có thể được cải thiện
Độ phân giải của bản đồ đặc trưng ở phần trên của mạng thường kém hơn sovới lớp dưới, đặc biệt là xung quanh rìa của hình ảnh, mặc dù có thông tin ngữnghĩa phong phú Trong khi đó, các bản đồ đặc trưng ở lớp dưới trích xuất các đặctrưng ngữ nghĩa cấp thấp với độ phân giải cao hơn Các nghiên cứu trước sử dụngcác mạng tích chập CNN [4] [10], lặp đi lặp lại các lớp tổng hợp để trích xuất cácngữ nghĩa sâu hơn, thông tin của các đối tượng nhỏ có thể bị mất trong quá trìnhgiảm mẫu Phương pháp hợp nhất ở mức đặc trưng được sử dụng để kết hợp cácđặc trưng độ phân giải cao với thông tin ngữ nghĩa hạn chế và các đặc trưng độphân giải thấp với thông tin ngữ nghĩa phong phú Từ đó, duy trì thông tin đặctrưng cục bộ, được chứng minh có vai trò quan trọng trong việc phân vùng các tổnthương nhỏ
Trang 28Một trong những phương pháp thường được sử dụng cho hợp nhất mức đặctrưng là mạng kim tự tháp đặc trưng (FPN) [30] Các đặc trưng từ hai nhánhgiảm kích thước không gian và tăng kích thước không gian được kết hợp thôngqua phép cộng từng phần tử được mô tả như trên Hình 2.6 Hàm tăng kích thước(Upsampling) được sử dụng để có thể kết hợp thông tin ngữ nghĩa ở mức cao vớithông tin không gian ở mức thấp, từ đó tăng cường các đặc trưng của ở mức độkhác nhau.
2.4.1 Mô hình cơ sở kiến trúc CaraNet
Mô hình CaraNet [33] sử dụng giám sát sâu để tăng cường việc sử dụng cácđặc trưng tổng hợp Tuy nhiên, trái ngược với các mạng con phức tạp của Unet++[59], CaraNet bao gồm cơ chế tự chú ý (self-attention) ưu việt và sử dụng kỹ thuậtchú ý ngược theo trục ngữ cảnh trên nền tảng Res2Net [18] đã được tiền huấnluyện Do đó, CaraNet đã cho thấy khả năng xử lý nhanh hơn và hiệu suất phânvùng tốt hơn so với Unet++ khi được thử nghiệm trên nhiều bộ dữ liệu y tế côngkhai
Dựa trên nghiên cứu của [33], có thể đưa ra định nghĩa về vật thể nhỏ (khối
u, tế bào) kích thước nhỏ trong dữ liệu ảnh y tế Định nghĩa này sẽ được diễn giảisau đây bao gồm hai phần: tỷ lệ vật thể và vật thể nhỏ đối với một bộ dữ liệu cụthể Với bộ dữ liệu ETIS [42] và hiệu quả của mô hình CaraNet như thể hiện ởHình 2.7 với công thức tỷ lệ vật thể như sau:
size_ratio = m
Trong đó:
• m là tổng số điểm ảnh của vật thể (tổn thương)
• N là tổng số điểm ảnh của bức ảnh đầu vào của mô hình
Sau khi xác định được tỷ lệ vật thể, tiến hành đánh giá hiệu quả của mô hình tươngứng với từng tỷ lệ vật thể khác nhau Trong nghiên cứu về mô hình CaraNet [33],
sự tập trung chủ yếu là vào những vật thể có tỷ lệ kích thước nhỏ hơn 5%.
Trang 29Hình 2.7: So sánh hiệu quả mô hình CaraNet và SFA trên bộ dữ liệu ETIS [42]tương ứng với từng tỷ lệ vật thể [33].
Trong đó, trục hoành biểu thị tỷ lệ vật thể theo đơn vị (%) và trục tung biểuthị giá trị trung bình của độ đo DICE tương ứng với tất cả các vật thể thuộc tỷ lệvật thể đó Quan sát đồ thị, ta thấy tồn tại một điểm mà tại đó hiệu quả của môhình gần như tăng hoặc thay đổi chậm hơn và ổn định hơn khi tỷ lệ vật thể vượtquá ngưỡng này, ngược lại sẽ trở nên hỗn loạn hơn khi tỷ lệ vật thể thấp hơn Trên
đồ thị này, vật thể nhỏ được định nghĩa có tỷ lệ là 9.8% Theo [33], định nghĩa vềvật thể có thể thay đổi tùy theo bộ dữ liệu, phân vùng và hình dáng của vật thể.Tuy nhiên, khi các điều kiện này được giữ cố định, sẽ có thể so sánh công bằnghơn Đồng thời, khi loại bỏ những trường hợp vật thể nhỏ theo định nghĩa này,hiệu quả tổng thể của mô hình sẽ được cải thiện
Bộ mã hoá Res2Net
Kiến trúc tổng quan của Context Axial Reverse Attention Network (CaraNet)được thể hiện rõ ở Hình 2.8 Kiến trúc này bao gồm các thành phần chính: ảnhđầu vào, mô hình huấn luyện sẵn làm xương sống, bộ giải mã bộ phận (PartialDecoder), mô-đun kim tự tháp đặc trưng theo kênh (CFP) và mô-đun Axial-reverseAttention (A-RA)
Trang 30Hình 2.8: Kiến trúc tổng quan của mô hình CaraNet [33].
CaraNet sử dụng Res2Net [18] là xương sống (backbone), với Res2Net đượchuấn luyện sẵn trên tập ImageNet [12] Nhờ vào cấu trúc mạng dư (residual) vàthiết kế phân cấp, Res2Net có khả năng biểu diễn thông tin ở nhiều kích thước(multi-scale) rất tốt Việc học chuyển giao với Res2Net đem đến hiệu quả do tậpImageNet được cho là có phân bố hình ảnh trực quan rất tốt [33] Như vậy, CaraNetkhông chỉ có một bộ mã hóa (Encoder) mạnh mẽ trong việc trích xuất các đặctrưng, mà còn được tăng cường khả năng biểu diễn các đặc trưng ở nhiều độ phângiải khác nhau, từ đặc trưng cấp thấp (cục bộ) đến đặc trưng cấp cao (toàn cục)
Bộ giải mã bộ phận (Partial Decoder)
Bộ giải mã bộ phận (Partial Decoder) hay PD [52] được nối trực tiếp với cáclớp của Res2Net bằng các kết nối bỏ qua Nếu Res2Net có 5 tầng kết nối, thì PDchỉ kết nối với 3 lớp sâu nhất, hay 3 lớp biểu diễn thông tin cấp cao nhất PD tậptrung vào 3 lớp này vì hai lý do:
• Những đặc trưng cấp cao có lợi cho việc xác định vị trí và hình dáng của vậtthể mục tiêu Những đặc trưng này rất hữu ích cho việc phân vùng các vật thểnhỏ
• Những đặc trưng cấp thấp (ở các lớp nông hơn) có kích thước không gian lớn,khiến việc tính toán các đặc trưng này rất tốn kém mà hiệu quả lại không cao[17]
Vì vậy, như trong Hình 2.8, PD bỏ qua thông tin f1 và f2, chỉ tập trung vào
3 thông tin cấp cao hơn là f3, f4 và f5 Mục đích chính của PD là kết hợp thôngtin từ các lớp này để biểu diễn một thông tin cấp cao đủ tốt, giúp việc phân vùng
Trang 31vật thể nhỏ hiệu quả hơn Đầu ra của PD chính là một bản đồ toàn cầu (globalmap) Sg= PD( f3, f4, f5) Để tạo ra Sg, PD sử dụng các nút kết hợp (AggregationNodes) Các nút này kết hợp thông tin f3, f4 và f5 bằng cách nối và sử dụng cácmạng tích chập Những thông tin này cũng được kết nối với nhau bằng các liênkết song song Do sự khác biệt về kích thước không gian của mỗi tầng, thông tin
ở tầng sâu hơn sẽ cần được tăng kích thước trước khi đưa vào nút kết hợp
Mô-đun kim tự tháp đặc trưng theo kênh (CFP)
Ngoài việc kết nối PD trực tiếp với ba thông tin cấp cao của Res2Net, mỗithông tin này còn được kết hợp với một mô-đun CFP, còn gọi là CFP [35] [34].Nhìn vào cấu trúc của CFP trong Hình 2.9, ta có thể thấy rằng sau khi tiếp nhận,thông tin đầu vào được chia đều thành K kênh, mỗi kênh có một độ giãn nở rK
riêng biệt Nếu kích thước của đầu vào là M, thì mỗi kênh sẽ có kích thước làM/K Đối với CaraNet, giá trị tối ưu là K = 4 và rK = 1, 2, 4, 8
Hình 2.9: Mô-đun Channel-wise Feature Pyramid (CFP) [33]
Việc áp dụng CFP vào mô hình mang lại những ưu điểm sau:
• Xử lý thông tin đa kích thước: Thông tin cấp cao từ đầu vào của CFP được
Trang 32này lại với nhau Do đó, CFP được thiết kế để học biểu diễn thông tin ở nhiềukích thước khác nhau, giúp xử lý được thông tin từ cấp cao đến cấp thấp hơn.
• Tăng kích thước đầu vào hiệu quả:CFP cũng là một phương thức tăng kíchthước dữ liệu đầu vào, đồng thời vẫn giữ được các thông tin cấp cao hơn nhờ
hệ thống kết hợp thông tin phân bậc - Hierarchical Feature Fusion (HFF) [36].Khác với các phương thức tăng kích thước khác, HFF không thực hiện trựctiếp mà từ từ kết hợp thông tin theo từng kênh và từng bậc Điều này giúpgiảm thiểu các lỗi khi kết hợp thông tin có kích thước khác nhau
Đối với mỗi kênh kim tự tháp đặc trưng (FP), có thể coi đây như một kim tự thápcon Tại đầu ra của mỗi kênh FP, có một liên kết bỏ qua từ kênh này đến các kênhtiếp theo, cho phép các kênh kết hợp thông tin từ các kích thước khác nhau Nếugọi leveli là giá trị đầu ra của từng liên kết bỏ qua, thì các giá trị tương ứng lầnlượt sẽ là:
(2.2)
Lớp cuối cùng của FP sẽ được tính bằng công thức ∑ileveli Như vậy, CFP
đã thực hiện tăng kích thước thông tin đầu vào đồng thời sử dụng hệ số giãn nở đểkết hợp các thông tin đó lại Mỗi thông tin đóng góp cho từng cấp của kim tự tháp.Với sự khác biệt về kích thước, từ 3 × 3 đến 55 × 55, CFP có thể đối phó hiệu quảvới vấn đề đa dạng kích thước của vật thể
Mô-đun Axial - Reverse Attention
Mô-đun cuối cùng, Axial-reverse Attention hay A-RA nhận đầu vào gồm:
• f’ là thông tin đa kích thước đến từ CFP tương ứng;
• Si với i = 1 (A-RA ở ngoài cùng) là bản đồ toàn cầu, còn i = 2 là đầu ra củaA-RA ngay trước đó
Sau khi nhận hai đầu vào này, A-RA sử dụng Axial Attention để phân tíchcác thông tin hữu ích cho việc phân vùng vật thể từ đầu vào f′ Axial Attentionđược chọn thay thế cho Self Attention do Self Attention yêu cầu tài nguyên tínhtoán quá lớn [48], nên việc sử dụng Axial Attention giúp giảm khối lượng tínhtoán Đối với Si, toán tử đảo ngược [11] được áp dụng để phát hiện các thông tinhữu ích thông qua công thức Ri = 1 − Sigmoid(Si) Hai giá trị này sau đó đượcnhân với nhau theo công thức:
(*) Trong đó:
• AAi là giá trị sau khi áp dụng Axial Attention với f′ ở lớp thứ i;
Trang 33• Ri là giá trị sau khi áp dụng đảo toán tử đảo ngược Si ở lớp thứ i;
• Phép toán ⊙ thực hiện nhân ma trận cùng số chiều
Vậy mục đích chính của A-RA là được thiết kế để tận dụng hai thông tin đa kíchthước ( f′ và Si) một cách tối ưu nhất Đồng thời, áp dụng cơ chế chú ý với đảongược để làm rõ những thông tin quan trọng của vùng được gán nhãn Điều nàygiúp tạo ra lợi thế hơn trong việc phân vùng các vật thể nhỏ
2.4.2 Mô hình cơ sở kiến trúc ESFPNet
Như được mô tả trong phần 2.4.1, CaraNet cũng sử dụng kỹ thuật giám sátsâu để tăng cường việc sử dụng các đặc trưng tổng hợp Tuy nhiên, trái ngượcvới các mạng con phức tạp của Unet++ [59], CaraNet tích hợp cơ chế tự chú ý(self-attention) tiên tiến và sử dụng kỹ thuật reverse attention trên nền mô hìnhRes2Net đã được huấn luyện trước Do đó, Caranet đã được chứng minh là có thờigian xử lý nhanh hơn và hiệu suất phân vùng tốt hơn Unet++ khi được kiểm tratrên nhiều bộ dữ liệu y tế công khai Tuy nhiên, thiết kế của cơ chế tự chú ý trongCaraNet lại phức tạp Mặt khác, Segformer đã cho thấy nhiều thành công tronglĩnh vực phân đoạn ngữ nghĩa [53] Segformer cung cấp một bố cục đơn giản vàhiệu quả sử dụng kỹ thuật chú ý được gọi là “bộ mã hóa Mix Transformer (MiT).”Trong một phát triển sau đó, kiến trúc SSFormer trích xuất các đặc trưng cục bộ
và toàn cục từ các bộ mã hóa MiT đã được tiền huấn luyện để dự đoán các vùngbất thường [49] Trong nghiên cứu thử nghiệm trên các bộ dữ liệu CVC-ColonDB
và Kvasir-SEG cho thấy tính tổng quát và hiệu suất vượt trội của SSFormer (vàviệc sử dụng các bộ mã hóa MiT) so với CaraNet trong các ứng dụng hình ảnh yhọc [8] Tuy nhiên, pyramid đặc trưng được sử dụng bởi SSFormer có thể đượclàm cho hiệu quả hơn, từ đó giảm thời gian xử lý và phức tạp của mạng
Từ sự hiệu quả của bộ mã hoá MiT, mô hình ESFPNet ra đời Đề xuất mộtkiến trúc học sâu hiệu quả hơn cho phép phân vùng và phát hiện thời gian thựctrong ảnh y tế [8] Kiến trúc bao gồm hai phần chính:
• Bộ mã hoá Mix Transformer (MiT): được huấn luyện trước trên các bộ dữ
liệu lớn làm xương sống;
• Bộ giải mã ESFP: kết hợp các kim tự tháp đặc trưng (Feature Pyramid) hiệu
quả theo từng giai đoạn để nâng cao hiệu quả phân vùng chính xác các tổnthương;
Được biểu diễn rõ ràng trong Hình 2.10, kiến trúc tổng quan của ESFPNetbao gồm những thành phần: ảnh đầu vào, bộ mã hoá Mix Transformer, bộ giải mã(ESFP)
Trang 34Hình 2.10: Kiến trúc tổng quan của mô hình ESFPNet [8].
Bộ mã hoá Mix Transformer
Các bộ mã hóa dựa trên CNN như Unet và SegNet, đã đạt được nhiều thànhcông trong các nhiệm vụ phân đoạn hình ảnh Một bộ mã hóa dựa trên CNN, đượcphát triển dựa trên ý tưởng rằng mỗi điểm ảnh trong hình ảnh phụ thuộc vào cácđiểm ảnh lân cận, sử dụng các bộ lọc trên một đoạn hình ảnh để trích xuất cácđặc trưng cục bộ liên quan Tuy nhiên, nếu một mô hình xử lý sử dụng toàn bộ dữliệu hình ảnh thay vì chỉ các đoạn hình ảnh thì hiệu suất xử lý được kỳ vọng sẽ cảithiện Khái niệm này giúp các mô hình Vision Transformers (ViT) [2] hoạt độnghiệu quả hơn so với hầu hết các mô hình CNN
Trong kiến trúc mô hình cơ sở ESFPNet sử dụng bộ mã hoá Mix Transformer
Bộ mã hóa Mix Transformer (MiT) là một mô-đun tận dụng ý tưởng của mạngVision Transformer (ViT) [2] và sử dụng bốn mô-đun gộp đường dẫn chồng lấn
và cơ chế dự đoán tự chú ý (self-attention) trong bốn giai đoạn [53] Các giai đoạnnày không chỉ cung cấp các đặc trưng thô có độ phân giải cao, mà còn cung cấpcác đặc trưng chi tiết có độ phân giải thấp Ngoài ra, các đặc trưng có độ phân giảicao và thấp thường được sử dụng để nâng cao hiệu suất của phân vùng ngữ nghĩa.Mặt khác, những hạn chế của việc sử dụng transformers làm bộ mã hóa cũng
là những yếu tố quan trọng Các lớp tự chú ý được sử dụng bởi transformers thiếuđịnh kiến quy nạp tính địa phương (khái niệm rằng các điểm ảnh trong hình ảnh
có tương quan cục bộ và các bản đồ tương quan này là bất biến theo phép dịchchuyển) và dẫn đến vấn đề cần nhiều dữ liệu Để giảm bớt thách thức của việc cầnnhiều dữ liệu cho các ứng dụng bị giới hạn bởi các bộ dữ liệu nhỏ, người ta có thểkhai thác khái niệm học chuyển giao (Transfer Learning), khái niệm đã được sử