1. Trang chủ
  2. » Công Nghệ Thông Tin

Đồ án deeplearning hc

25 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 813,01 KB

Nội dung

• Mạng nơ ron nhân tạo được ứng dụng cho rất nhiều lĩnh vực như: tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trì sản phẩm. Neural Network còn được sử dụng khá rộng rãi cho những hoạt động kinh doanh khác như: dự báo thời tiết, và tìm kiếm các giải pháp nhằm nghiên cứu tiếp thị, dự đoán âm thanh, hình ảnh, nhận diện …

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN MÔN HỌC ĐỒ ÁN DEEPLEARNING Giảng viên giảng dạy Sinh viên thực MSSV Lớp Chun ngành Mơn học Khóa : : : : : : : HỒ KHÔI VÕ QUỐC ĐỨC 2000005949 20DTH1D Khoa Học Dữ Liệu Đồ Án Deeplearning 2021 – 2022 Tp.HCM, Tháng 12 Năm 2022 Trường Đại học Nguyễn Tất Thành Khoa Công Nghệ Thông Tin 🙜🙜🙜🙜 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc 🙜🙜🙜🙜 NHIỆM VỤ ĐỒ ÁN CƠ SỞ (Sinh viên phải đóng tờ vào báo cáo) Họ tên: VÕ QUỐC ĐỨC MSSV: 2000005949 Email: behaiii0610@gmail.com SĐT: 0909689203 Chuyên ngành: Khoa học liệu Lớp: 20DTH1D Tên đề tài: Mơ Hình Dự Đốn Chi Phí Dựa Trên Quãng Đường Đi Giáo viên hướng dẫn: Hồ Khôi ` Thời gian thực hiện: 14/ 10 /2022 đến 21/12/2022 Nhiệm vụ/nội dung (mô tả chi tiết nội dung, yêu cầu, phương pháp… ): NỘI DUNG VÀ PHƯƠNG PHÁP: Mạng nơ ron nhân tạo ứng dụng cho nhiều lĩnh vực như: tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp bảo trì sản phẩm Neural Network cịn sử dụng rộng rãi cho hoạt động kinh doanh khác như: dự báo thời tiết, tìm kiếm giải pháp nhằm nghiên cứu tiếp thị, dự đoán âm thanh, hình ảnh, nhận diện … YÊU CẦU:   Tìm hiểu mạng ANN, áp dụng ANN để ứng dụng giải nhận diện khuôn mặt người Nội dung yêu cầu thông qua Bộ môn TP.HCM, ngày 27 tháng 06 năm 2021 TRƯỞNG BỘ MÔN (Ký ghi rõ họ tên) ThS Vương Xuân Chí GIÁO VIÊN HƯỚNG DẪN (Ký ghi rõ họ tên) ThS Hồ Khơi LỜI CẢM ƠN Lời nói em xin gửi lời cám ơn đến thầy Hồ Khôi hướng dẫn giúp đỡ em suốt học kỳ với môn Khoa học liệu, thầy truyền đạt cho em nhiều kiến thức mạng Noron kiến thức bổ ích Khoa học liệu Song với thầy tạo cho em nguồn cảm hứng, tìm tịi học hỏi môn Khoa học liệu Đặc biệt lúc giảng bài, thầy ln tích cực giảng rõ chi tiết, vui tươi, thoải mái để tạo cho chúng em bầu khơng khí dễ chịu dễ tiếp thu học Vì ngày hôm em thực hiểu rõ có thêm kiến thức hay cho ngành mà em theo đuổi Cám ơn thầy tận tình hướng dẫn giải đáp tất khúc mắc em gặp khó khăn q trình học làm Cảm ơn thầy ! Em xin cám ơn giảng viên khoa Công Nghệ Thông Tin Trường Đại Học Nguyễn Tất Thành tạo điều kiện giúp đỡ em trình học tập Và em gửi lời cảm ơn đến tập thể lớp 20DTH1D đồng hành với em học kỳ nói chung mơn nói riêng Sinh viên thực Võ Quốc Đức LỜI MỞ ĐẦU Công nghệ thông tin ngành học đào tạo để sử dụng máy tính phần mềm máy tính để phân phối xử lý liệu thông tin, đồng thời dùng để trao đổi, lưu trữ chuyển đổi liệu thông tin nhiều hình thức khác Sau đào tạo, sinh viên học ngành trang bị kiến thức tảng chuyên sâu lĩnh vực công nghệ thông tin để nâng cao tay nghề nhằm phát triển khả sửa chữa, xây dựng, cài đặt, bảo trì phần cứng máy tính nghiên cứu phát triển ứng dụng phần mềm Ngoài trang bị kiến thức an toàn bảo mật thông tin mạng, lĩnh vực quan trọng quan tâm hàng đầu giới Hiện nay, Công nghệ thông tin (CNTT) giai đoạn phát triển vũ báo lĩnh vực hoạt động khắp nơi giới.Điều làm cho nghành công nghệ thông tin ngày nhiều người quan tâm đặc biệt giới trẻ nay, tư tưởng thích mới, thích tìm tịi sáng tạo yếu tố quan trọng hấp dẫn bạn trẻ đến nghành nghề Toàn cầu hóa năm 1990 làm xuất khuynh hướng xã hội quan trọng, chuyển trạng thái từ xã hội công nghiệp sang xã hội kiến thức thơng tin giữ vai trị trọng yếu Sự phát triển ứng dụng CNTT ngày báo trước thời kỳ với thay đổi xã hội lớn lao CNTT công nghệ chung xâm nhập vào lĩnh vực kinh tế xã hội Là ngành tổng thể bao gồm nhiều nhánh nhỏ mạng lưới bưu viễn thơng, truyền thơng đa phương tiện, internet , khẳng định Việt Nam xây dựng cấu hạ tầng có đồng bộ, đầy đủ hệ thống ngành cơng nghệ thơng tin Ở kể tới dấu mốc đáng nhớ phát triển ngành CNTT vào năm 1997, nước ta biến “giấc mơ Internet” thành thực việc tham gia kết nối vào mạng toàn cầu tính thời điểm này, Việt nam trở thành quốc gia có tỷ lệ tăng trưởng Internet nhanh khu vực NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN Điểm đồ án: TPHCM, Ngày …… tháng …… năm Giáo viên hướng dẫn Hồ Khôi MỤC LỤC CHƯƠNG I GIỚI THIỆU .8 GIỚI THIỆU ĐỀ TÀI LÝ DO CHỌN ĐỀ TÀI .8 MỤC TIÊU CỦA ĐỀ TÀI .8 PHƯƠNG PHÁP ĐỀ TÀI ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU CHƯƠNG II : ỨNG DỤNG THUẬT TOÁN 1.MƠ TẢ BÀI TỐN XÂY DỰNG BỘ DỮ LIỆU .9 ÁP DỤNG THUẬT TOÁN VÀO BÀI TOÁN 10 3.1 Mơ hình Hồi quy tuyến tính (Linear Regression Model) .10 3.2 Hàm mát (Loss Function) .11 3.3 Thuật toán tối ưu Loss Function (Optimization Algorithms) .13 3.4 Một số biểu đồ thường gặp : .15 THỰC NGHIỆM VỚI THƯ VIỆN PYPTHON 18 CHƯƠNG III–XÂY DỰNG ỨNG DỤNG BẰNG NGÔN NGỮ PYTHON 18 CÁC ĐOẠN CODE VÀ GIẢI THÍCH .18 2.DỰ ĐOÁN 19 3.TỈ LỆ CHÍNH XÁC CỦA ƯỚC LƯỢNG 21 KẾT LUẬN 23 KẾT QUẢ ĐẠT ĐƯỢC 23 HƯỚNG PHÁT TRIỂN ĐỀ TÀI 23 TÀI LIỆU THAM KHẢO .23 DANH MỤC CÁC BẢNG HÌNH Hình mơ liệu 10 Hình cơng thức tốn Linear Regression 11 Hình Cơng thức tổng qt: .11 Hình cơng thức hàm mát 12 Hình ví dụ 12 Hình ví dụ 12 Hình ví dụ 12 Hình ví dụ 13 Hình cơng thức tốn học 14 Hình 10 Gradient Descent cho hàm biến : 14 Hình 11 ví dụ 15 Hình 12 ví dụ 15 Hình 13 biểu đồ plot 16 Hình 14 biểu đồ Bar Chart 16 Hình 15 biểu đồ Histogram Plot 17 Hình 16 biểu đồ Box Plot 17 Hình 17 Biểu đồ Scatter Plot .18 Hình 18 khai báo thư viện đọc file csv 19 Hình 19 hàm load_data 19 Hình 20 hàm mát 20 Hình 21 kết 20 Hình 22 Gradient_Descent 20 Hình 23 in kết 21 Hình 24 kết 21 Hình 25 đọc file khai báo thư viện 21 Hình 26 tạo lấy liệu 21 Hình 27 vẽ giá trị in chúng 22 Hình 28 kết 22 CHƯƠNG I GIỚI THIỆU Giới thiệu đề tài Hiện nay, lối sống ngày nhu cầu người ngày cao , việc lại vận chuyển vật dụng khơng cịn khó khăn Với việc cần có điện thoại nhấc máy lên đặt cuốc xe kiếm cho tài xế xe ơm uy tín , chất lượng Do có mơ hình gọi “ Xe ơm cơng nghệ” đời, mơ hình giúp cho người dễ dàng thuận tiện muốn tham gia giao thơng mà khơng có đủ điều kiện để tham gia giao thơng, để sử dụng mơ hình này, đơn giản bạn cần tải ứng dụng máy bạn ( có nhiều ứng dụng khác tương ứng với hãng khác nhau).Ví dụ : Bee, Grab, Gojeck… sau bạn đăng nhập ứng dụng chọn điểm bắt đầu điểm đến, ứng dụng tự động đề xuất cho bạn tài xế gần nhất, quãng đường tốt số tiền cần phải trả tương ứng với quãng đường mà bạn Vì vậy, dựa nhu cầu phát triển công nghệ định xây dựng toán dự đoán cố ứng dụng bị lỗi tốn tiền lúc Tơi dựa liệu có sẵn dùng thuật tốn để giải vấn đề Sau tơi có kết mong muốn Lý chọn đề tài Do việc sử dụng “ xe ôm công nghệ” phổ biến nên lượng người truy cập vào ứng dụng lớn truy cập lúc, việc làm cho ứng dụng xuất lỗi không đề xuất tài xế gần nhất, quãng đường tốt nhất, không hiển thị số tiền cần trả,…và việc gặp phải nên chúng Mục tiêu đề tài Khi ứng dụng xuất lỗi không thị số tiền cần phải trả tương ứng với quãng đường đi, dựa vào liệu “ lịch sử” lần trước ( số km số tiền chi trả) để tính số tiền cần trả Phương pháp đề tài Tôi sử dụng kiến thức học, thuật toán Linear Regression, Logistic Regression,…đã tiếp thu trình nghe giảng kiến thức học, trau dồi ngày Song với liệu tơi thu thập để nghiên cứu, dự đoán số tiền cần trả tương ứng với quãng đường Đối tượng phạm vi nghiên cứu • Đối tượng: người gặp phải lỗi truy cập ứng dụng sử dụng ứng dụng “Xe ôm công nghệ” • Phạm vi nghiên cứu: áp dụng trường hợp xảy lỗi “không hiển thị số tiền cần chi trả” CHƯƠNG II : ỨNG DỤNG THUẬT TỐN 1.Mơ tả tốn Một hôm , đặt chuyến Garb từ nhà đến quận dài 10km xui thay ứng dụng bị khả tính tốn thành tiền bác xe ơm khơng thể biết số tiền xác mà tơi cần trả May thay , tơi cịn truy cập vào lịch sử chuyến bảng … bên , liệu dựa thơng tin tơi tính số tiền cần trả cho 10km ngày hôm ? Giả sử số Km số tiền cần phải trả Garb phụ thuộc tuyến tính vào nhau, tức số KM tăng số tiền cần phải trả Grab tăng số Km giảm số tiền cần trả Grab giảm, tơi tìm hàm biểu thị mối quan hệ đại lượng khơng ? Câu trả lời Có Tại tơi phải tìm hàm ? Vì tìm nó, việc tơi cần làm thay số Km tơi ngày hơm vào hàm tìm số tiền cần trả Xây dựng liệu Đầu tiên , truy cập vào lịch sử ứng dụng để thấy hết liệu mà tơi Ta có bảng liệu sau : 10 Hình mơ liệu Trong : Distance quãng đường với đơn vị Kilomet (Km) Cost chi phí cần phải trả tương ứng với quãng đường với đơn vị VND Rain thời tiết ngày hơm có mưa hay khơng Giá trị cho biết có khơng có mưa Peltroleum giá xăng mặc định mà người xe ôm phải trả công việc minh Áp dụng thuật tốn vào tốn 3.1 Mơ hình Hồi quy tuyến tính (Linear Regression Model) Định nghĩa : Trong thống kê, hồi quy tuyến tính phương pháp dùng để mơ hình hóa mối quan hệ đại lượng vô hướng với nhiều biến độc lập Các dạng mơ hình hồi quy tuyến tính: 11 Hình cơng thức tốn Linear Regression Hình Công thức tổng quát: Ý nghĩa hồi quy tuyến tính : Đối với mục đích chúng ta, thuật ngữ tuyến tính (linear)trong mơ hình hồi quy tuyến tính nghĩa tuyến tính hệ số hồi quy (linearity in the regression coefficients), Bs, tuyến tính biến Y X [Diễn giải: Nghĩa Y X dạng phi tuyến (nonlinear)] Ví dụ, biến Y X dạng logarít tự nhiên ln(X2) Ví dụ: tham khảo Gary Koop, Bayesian Econometrics, John Wiley & Sons, West Sussex, England, 2003 (natural logarithm)5 , dạng tỷ lệ nghịch 1/X (reciprocal), dạng bình phương X22 (square), lập phương X23 (cube), hay dạng khác Tuyến tính hệ số Bs, nghĩa Bs khơng dạng bình phương B 22 , tỷ lệ B2/ B3, hay ln(B4) Có trường hợp phải xem xét mơ hình hồi quy khơng tuyến tính hệ số hồi quy6 3.2 Hàm mát (Loss Function) Định nghĩa : Hàm mát trả số không âm thể mức độ chênh lệch giá trị mà model dự đoán giá trị thực tế Ordinary Least Squares : 12 Mức độ chênh lệch nhắc bên tất đường màu xanh biểu diễn Ta có hàm thể trung bình tổng đại lượng sai lệch Hình cơng thức hàm mát Vậy để hàm F xấp xỉ data hàm inline largeJ (theta) phải đạt giá trị nhỏ theo ** inline largeJ (theta) ** * Cách xây dựng Loss Function Vì loss function đo đạc chênh lệch , nên khơng lạ ta nghĩ đến việc lấy hiệu chúng: Hình ví dụ Tuy nhiên hàm lại khơng thỏa mãn tính chất khơng âm loss function Ta sửa lại chút để thỏa mãn tính chất Ví dụ lấy giá trị tuyệt đối hiệu: Hình ví dụ Loss function khơng âm lại khơng thuận tiện việc cực tiểu hóa, đạo hàm khơng liên tục (nhớ đạo hàm bị đứt quãng ) thường phương pháp cực tiểu hóa hàm số thơng dụng địi hỏi phải tính đạo hàm Một cách khác lấy bình phương hiệu: Hình ví dụ Khi tính đạo hàm theo , ta Các bạn thấy số thêm vào công thức đạo hàm đẹp hơn, số phụ Loss function 13 gọi square loss Square loss sử dụng cho regression classification, thực tế thường dùng cho regression Đối với binary classification, ta có cách tiếp cận khác để xây dựng loss function Nhắc lại dạng này, model trả tức thích đáp án -1 hơn, trả tức thích đáp án +1 Một cách tự nhiên, ta thấy loss function binary classification cần phải đạt số tiêu chí sau: o Ta cần phải phạt model nhiều dự đoán sai dự đoán Vì thế, tiêu chí ta model dự đoán sai ( khác dấu với ), loss function phải trả giá trị lớn so với model dự đoán ( dấu với ) o Nếu có hai đáp án dấu (hoặc khác dấu) với ta nên phạt đáp án nhiều hơn? Như nói, giá trị tuyệt đối thể "độ thích" model phương án Giá trị lớn model "thích" phương án Trong trường hợp dấu với , phương án thích phương án đúng, đó, model thích ta phải khuyến khích phạt Cũng với lập luận vậy, khác dấu với , phương án thích phương án sai nên model thích ta phải phạt nặng để model không tái phạm Một cách tổng quát, binary classification loss function thường có dạng sau: Hình Hình ví dụ hàm khơng âm khơng tăng 3.3 Thuật tốn tối ưu Loss Function (Optimization Algorithms) Gradient Descent Thay sử dụng cơng thức ăn liền Normal Equation, thực tế sử dụng thuật tốn Gradient Descent Giải thích cách đơn giản, cho Ө 14 tăng giảm khoảng định, cho giá trị hàm Loss function J(Ө) giảm dần đến giá trị cực tiểu Như bạn thấy hình: Lúc ban đầu hàm J(Ө) có giá trị lớn nên hàm ban đầu cần tìm dự đốn chưa xác liệu, hàm J(Ө) giảm dần, hàm ban đầu dự đốn xác nhiều Cơng thức tốn học Hình cơng thức tốn học Gradient Descent cho hàm biến : Hình 10 Gradient Descent cho hàm biến : Quay trở lại hình vẽ ban đầu vài quan sát nêu Giả sử x t điểm ta tìm sau vịng lặp thứ t Ta cần tìm thuật tốn để đưa xt gần x∗ tốt Trong hình đầu tiên, lại có thêm hai quan sát nữa: o Nếu đạo hàm hàm số xt : f′(xt) > xt nằm bên phải so với x∗ (và ngược lại) Để điểm xt+1gần với x∗ hơn, cần di chuyển xt phía bên trái, tức phía âm Nói khác, cần di chuyển ngược dấu với đạo hàm: 15 Hình 11 ví dụ Trong Δ đại lượng ngược dấu với đạo hàm f′(xt) o xt xa x∗ phía bên phải f′(xt) lớn (và ngược lại) Vậy, lượng di chuyển Δ, cách trực quan nhất, tỉ lệ thuận với −f′(xt) Hai nhận xét phía cho cách cập nhật đơn giản là: Hình 12 ví dụ Trong η (đọc eta) số dương gọi learning rate (tốc độ học) Dấu trừ thể việc phải ngược với đạo hàm (Đây lý phương pháp gọi Gradient Descent - descent nghĩa ngược) Các quan sát đơn giản phía trên, cho tất toán, tảng cho nhiều phương pháp tối ưu nói chung thuật tốn Machine Learning nói riêng Điểm mạnh : Tính tốn nhẹ nhàng nhiều so với phương pháp ban đầu Về sau tìm hiểu phương thức khác kết hợp với Gradient Descent để giảm nhẹ khối lượng tính tốn Điểm yếu : Kết thường khơng xác 100%, nhiều vấn đề liên quan xảy ví dụ giá trị hàm Loss giảm thêm mà bị mắc kẹt điểm local 3.4 Một số biểu đồ thường gặp :  Biểu đồ đường (Line Plot) o Line plot thường sử dụng để biểu diễn liệu có tính liên tục o Trục x đại diện cho khoảng thời gian quan sát liệu, trục y thể giá trị liệu 16 Hình 13 biểu đồ plot  Biểu đồ (Bar Chart) o Bar chart thường sử dụng để biểu diễn số lượng tương đối cho categories o Trục x đại diện cho categories o Trục y thể giá trị categories tương ứng Hình 14 biểu đồ Bar Chart  Biểu đồ dạng Histogram Plot o Histogram Plot thường sử dụng để biểu diễn phân bố mẫu liệu o Trục x thể tuần suất giá trị cụm giá trị mẫu liệu o Trục y thể cụm giá trị mẫu liệu 17 Hình 15 biểu đồ Histogram Plot  Biểu đồ dạng hộp (Box Plot) o Box Plot thường sử dụng để biểu diễn tóm tắt phân bố mẫu liệu o Trục x thể mẫu liệu có nhiều mẫu liệu đặt cạnh o Trục y thể giá trị cho mẫu liệu tương ứng, o Trong đó: hình hộp thể cho khoảng 50% giá trị mẫu, điểm 25% kết thúc điểm 75% Hình 16 biểu đồ Box Plot  Biểu đồ phân tán (Scatter Plot) o Scatter Plot thường sử dụng để biểu diễn tóm tắt phân bố nhiều cụm mẫu liệu 18 o Các điểm liệu kết hợp đặc trưng trục x - y o Trục x thể giá trị đặc trưng thứ o Trục y thể giá trị đặc trưng cịn lại Hình 17 Biểu đồ Scatter Plot Thực nghiệm với thư viện Pypthon Chúng sử dụng thư viện mà gần gũi với người dùng chẳng hạn thư viện numpy, thư viện pandas , thư viện matplotlib … Ở chúng tơi trình bày cụ thể mục đích sử dụng thư viện Đầu tiên với việc khai báo thư viện numpy :  Cách khai báo thư viện numpy o Import numpy as np Thư viện dùng để phân tích xử lí liệu thô Matplotlib, seaborn, yellowbrick: Các thư viện phục vụ việc trực quan hóa liệu: seaborn yellowbrick phát triển dựa matplotlib => dễ sử dụng nhiều Cài đặt thư viện thông qua lênh pip với cú pháp:  pip install tên_thư_viện 19 CHƯƠNG III–XÂY DỰNG ỨNG DỤNG BẰNG NGÔN NGỮ PYTHON Các đoạn code giải thích Cơng cụ mà chúng em sử dụng để viết lần Google Colab phổ biến dễ dàng sử dụng hầu hết người lập trình Dự đoán Đầu tiên khai báo thư viện cần thiết dùng để viết code, sau dùng biến tên “ data “ để đọc liệu từ file có “ csv “ từ google drive Hình 18 khai báo thư viện đọc file csv Tiếp theo chúng em viết hàm có tên “ load_data “ để điều chỉnh liều dạng ma trận để tính tốn Hình 19 hàm load_data Sau ta sử dụng hàm thư viện sklear để tìm nghiệm cho toán Linear Regression 20

Ngày đăng: 19/07/2023, 20:43

w