Xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống e banking tại NH TMCP công thương việt nam 758

KHÁI QUÁT VỀ NGÂN HÀNG V IETINBANK

Giới thiệu ngân hàng Vietinbank

Ngân hàng TMCP Công Thương Việt Nam (VietinBank) là một trong những ngân hàng thương mại Nhà nước lớn nhất tại Việt Nam, được thành lập vào ngày 26/3/1988 VietinBank được hình thành từ việc tách ra từ Ngân hàng Nhà nước Việt Nam theo Nghị định số 53/HĐBT của Hội đồng Bộ trưởng.

Vietinbank hiện là một trong bốn ngân hàng nhà nước thuộc nhóm "Big 4" tại Việt Nam Sau hơn 30 năm phát triển, ngân hàng đã khẳng định vị trí quan trọng trong ngành ngân hàng quốc gia Hệ thống mạng lưới của Vietinbank trải rộng trên toàn quốc, bao gồm một sở giao dịch chính tại Hà Nội, 151 chi nhánh và hơn 1000 phòng giao dịch.

Ngân hàng Vietinbank chuyên cung cấp các dịch vụ ngân hàng đa dạng, bao gồm huy động và nhận tiền gửi ngắn hạn, trung hạn và dài hạn từ cá nhân và tổ chức Ngân hàng cũng thực hiện cho vay ở các kỳ hạn khác nhau dựa trên khả năng nguồn vốn Ngoài ra, Vietinbank còn hỗ trợ thanh toán giữa các tổ chức và cá nhân, thực hiện giao dịch ngoại tệ, và cung cấp dịch vụ tài trợ thương mại quốc tế Các hoạt động khác bao gồm chiết khấu thương phiếu, trái phiếu và các giấy tờ có giá khác, tất cả đều được Ngân hàng Nhà nước Việt Nam cho phép.

Thông tin tổng quan về ngân hàng Vietinbank

- Tên đăng ký tiếng Việt: Ngân hàng thương mại cổ phần công thương Việt Nam

- Tên đăng ký tiếng Anh: VietNam Joint stock Commercial Bank for Industry and

- Địa chỉ hội sở chính: 108 Trần Hưng Đạo, Quận Hoàn Kiếm, Thành phố Hà

Giá trị cốt lõi và triết lý kinh doanh

Ngân hàng VietinBank xác định giá trị cốt lõi của mình dựa trên năm nguyên tắc chính Đầu tiên, khách hàng luôn là trung tâm, với mục tiêu phục vụ là đáp ứng nhu cầu của họ và đảm bảo an toàn cho cả khách hàng nội bộ và bên ngoài Thứ hai, đổi mới sáng tạo là yếu tố then chốt, với cam kết không ngừng cải tiến để mang lại giá trị tốt nhất cho hệ thống và khách hàng, đồng thời góp phần vào sự phát triển của đất nước Thứ ba, VietinBank luôn duy trì chính trực trong mọi hành động, bảo đảm sự tuân thủ, kỷ luật, và minh bạch Thứ tư, tôn trọng là yếu tố quan trọng, thể hiện qua việc lắng nghe và chia sẻ với khách hàng, đối tác và đồng nghiệp Cuối cùng, trách nhiệm là cam kết của từng cá nhân và bộ phận trong việc phục vụ khách hàng, đối tác, và cộng đồng, thể hiện vai trò và tự hào của VietinBank trong xã hội.

Triết lý kinh doanh của VietinBank tập trung vào ba yếu tố chính: an toàn, hiệu quả và bền vững Ngân hàng cam kết xây dựng một môi trường làm việc dựa trên sự trung thành, tận tuỵ, đoàn kết, đổi mới, trí tuệ và kỷ luật VietinBank tin rằng sự thành công của khách hàng chính là nền tảng cho sự thành công của chính mình.

Lịch sử hình thành và phát triển

Lịch sử hình thành ngân hàng Vietinbank được chia thành 4 giai đoạn:

Giai đoạn I từ tháng 7/1988 đến năm 2000 đánh dấu quá trình chuyển đổi từ hệ thống ngân hàng một cấp sang hệ thống ngân hàng hai cấp tại Việt Nam Trong giai đoạn này, Ngân hàng Công Thương được thành lập và chính thức hoạt động trên thị trường.

- Giai đoạn II: Từ năm 2001 - 2008

Vietinbank đã thành công trong việc tái cơ cấu hệ thống ngân hàng, bao gồm xử lý nợ, mô hình tổ chức, cơ chế chính sách và hoạt động kinh doanh Ngân hàng hiện hoạt động bài bản và chuyên nghiệp hơn, với quy mô ngày càng mở rộng.

- Giai đoạn III: Từ năm 2009 - 2013

Vietinbank thực hiện thành công cổ phần hóa, đổi mới mạnh mẽ, phát triển đột phá các mặt hoạt động ngân hàng [1].

Từ năm 2014 đến nay, ngân hàng đã đạt được nhiều thành tựu đáng kể, nhờ vào việc ứng dụng thành công các tiến bộ về khoa học và công nghệ trong ngành tài chính toàn cầu Ngân hàng tập trung vào xây dựng và thực thi quản trị theo chiến lược, đồng thời đột phá về công nghệ, dẫn đến sự đổi mới tích cực trong toàn bộ hoạt động Kết quả kinh doanh của ngân hàng đã tăng trưởng đáng tự hào, gắn liền với hiệu quả bền vững, mang lại nhiều thành công cho Vietinbank, củng cố uy tín và lòng tin của khách hàng.

Sơ đồ bộ máy tổ chức

ĐẠI HỘI ĐÓNG CÓ ĐÓNG

Khối Cỗng nghê thông tin

Hình 1.1 Sơ đồ bộ máy tổ chức ngân hàng Vietinbank

❖ Chức năng nhiệm vụ các phòng ban

Đại hội đồng cổ đông là cơ quan có thẩm quyền cao nhất của Vietinbank, chịu trách nhiệm thông qua các báo cáo quan trọng, quyết định tăng giảm vốn điều lệ, phương án phát hành trái phiếu, cũng như quyết định đầu tư và mua bán tài sản.

Hội đồng quản trị của Vietinbank là cơ quan quản lý có quyền quyết định và thực hiện các quyền lợi cũng như nghĩa vụ liên quan đến mục tiêu của ngân hàng, ngoại trừ các vấn đề thuộc thẩm quyền của Đại hội đồng cổ đông.

Ban kiểm soát có trách nhiệm giám sát hoạt động và tuân thủ quy định pháp luật đối với Hội đồng quản trị và Tổng giám đốc của Vietinbank Họ phải chịu trách nhiệm trước Đại hội đồng cổ đông về việc thực hiện quyền và nhiệm vụ được giao Các nhiệm vụ của ban kiểm soát bao gồm ban hành quy định nội bộ, thẩm định báo cáo tài chính hàng năm, đánh giá tính hợp lý và trung thực trong công tác quản lý, cũng như xem xét sổ kế toán và các tài liệu liên quan đến hoạt động kinh doanh.

Ban điều hành của Vietinbank, bao gồm tổng giám đốc, các phó giám đốc và kế toán trưởng, được Hội đồng quản trị bổ nhiệm Ban này có trách nhiệm tổ chức, quản trị và điều hành hoạt động của ngân hàng, lập kế hoạch chi tiết cho năm tài chính tiếp theo, cũng như xây dựng các báo cáo kiểm tra và kiểm soát nội bộ Họ còn đảm nhiệm việc tuyển dụng nhân sự, quyết định mức lương, và thiết lập, duy trì hệ thống kiểm tra, kiểm soát nội bộ hợp lý nhằm đảm bảo hoạt động hiệu quả.

Văn phòng hội đồng ban quản trị đóng vai trò quan trọng trong việc thực hiện các nhiệm vụ liên quan đến công việc và văn thư của HĐQT Nơi đây chịu trách nhiệm ghi chép biên bản và lưu trữ các nghị quyết, quyết định của Đại hội đồng cổ đông, đảm bảo tính minh bạch và tổ chức trong quản lý doanh nghiệp.

Tổng quan về bài toán

Trong bối cảnh hiện nay, các ngân hàng thương mại (NHTM) đã có sự phát triển mạnh mẽ, đóng góp tích cực vào sự tiến bộ của ngành Ngân hàng và nền kinh tế quốc gia Tuy nhiên, họ đang phải đối mặt với nhiều thách thức như yêu cầu phát triển kinh tế - xã hội cao, hội nhập quốc tế sâu rộng, và cạnh tranh khốc liệt từ các tổ chức phi ngân hàng cũng như tác động của đại dịch COVID-19 Để nâng cao năng lực cạnh tranh, các NHTM cần không chỉ cải thiện các nghiệp vụ truyền thống mà còn phải đổi mới công nghệ và đa dạng hóa sản phẩm, dịch vụ Ngành ngân hàng tài chính, với vai trò cung cấp dịch vụ tài chính cho đa số các chủ thể trong nền kinh tế, sở hữu lượng dữ liệu khổng lồ từ việc thu thập thông tin khách hàng và giao dịch Mỗi ngân hàng xây dựng một cơ sở dữ liệu lớn, bao gồm dữ liệu có cấu trúc như lịch sử giao dịch và hồ sơ khách hàng, cũng như dữ liệu phi cấu trúc từ hoạt động của khách hàng trên các nền tảng trực tuyến.

Với sự phát triển của công nghệ số, khả năng khai thác lợi nhuận từ dữ liệu của các ngân hàng thương mại (NHTM) đã gia tăng đáng kể, biến dữ liệu thành tài sản quý giá nhất trong doanh nghiệp Nhằm tối ưu hóa giá trị dữ liệu và nâng cao năng lực cạnh tranh, ngân hàng VietinBank đã triển khai Dự án kho dữ liệu doanh nghiệp (EDW) cùng với công ty ETC và Tech Mahindra Dự án này giúp ngân hàng sử dụng hiệu quả các nguồn dữ liệu để phục vụ quản trị điều hành, quản trị rủi ro, hỗ trợ ra quyết định và hoạch định chiến lược kinh doanh Kho dữ liệu doanh nghiệp của VietinBank thống nhất và nhất quán tất cả dữ liệu, cung cấp báo cáo với độ chính xác cao nhất Đây được xem là dự án kho dữ liệu lớn nhất trong ngành ngân hàng Việt Nam, với quy mô gần 40 terabyte, gấp 40 lần so với một hệ thống core banking thông thường, và tổng chi phí đầu tư lên tới 5,6 triệu USD (khoảng 122 tỷ đồng).

Dự án tích hợp gần 20 hệ thống nghiệp vụ ngân hàng tại VietinBank, bao gồm E-Banking, là một phần quan trọng trong việc quản lý thông tin khách hàng và lịch sử giao dịch E-Banking cho phép người dùng thực hiện các giao dịch ngân hàng trực tuyến một cách tiện lợi, tiết kiệm thời gian và chi phí Sự gia tăng người dùng internet và thiết bị di động đã thúc đẩy sự phát triển của E-Banking, khiến đây trở thành xu hướng tất yếu mà các ngân hàng phải theo đuổi để chiếm lĩnh thị trường Để đối phó với thách thức này, việc áp dụng kho dữ liệu doanh nghiệp EDW sẽ giúp khai thác dữ liệu E-Banking hiệu quả, cung cấp báo cáo phân tích và hỗ trợ ra quyết định, từ đó cải thiện chất lượng sản phẩm dịch vụ và phát triển các chiến lược mới theo xu hướng công nghệ.

Mục tiêu của bài khóa luận là xây dựng quy trình tích hợp dữ liệu ETL và xuất báo cáo cho hệ thống E-banking tại Ngân hàng TMCP Công Thương Việt Nam Nghiên cứu này tập trung vào quá trình trích xuất, chuyển đổi và tải dữ liệu từ hệ thống nguồn lên kho dữ liệu chủ đề DM, đồng thời xây dựng báo cáo phân tích cho hệ thống E-banking.

1.5.2 Thực trạng công tác quản lý dữ liệu trên hệ thống E-banking tại ngân hàng VietinBank

Vietinbank là ngân hàng hàng đầu tại Việt Nam trong lĩnh vực công nghệ thông tin và dịch vụ thanh toán trực tuyến Đội ngũ cán bộ IT của ngân hàng đã phát triển các dịch vụ ngân hàng điện tử nổi bật như Vietinbank iPay và SMS banking Các dịch vụ E-banking của Vietinbank bao gồm Vietinbank iPay, Vietinbank eFast, iPay mobile, SMS banking, Mobile banking và Bank Plus, mang đến sự tiện lợi và hiệu quả cho khách hàng.

VietinBank đã thành công trong việc triển khai dự án hiện đại hóa ngân hàng và hệ thống thanh toán (INCAS), đánh dấu lần đầu tiên dữ liệu được đưa trực tiếp vào hệ thống quản lý tập trung Điều này thay thế cho việc quản lý dữ liệu phân tán tại từng chi nhánh như trước đây, nâng cao hiệu quả quản lý và đảm bảo tính đồng nhất trong hoạt động ngân hàng.

- Dữ liệu được lưu trữ tập trung tại hệ thống máy chủ tại trụ sở chính.

- Các giao dịch được xử lý trực tuyến tại máy chủ.

- Hệ thống có mã Code phân biệt giữa các chi nhánh với nhau.

- Có sự liên kết, sử dụng thông tin chặt chẽ của từng chi nhánh.

- Mỗi cán bộ được cấp 01 User để truy cập vào hệ thống INCAS theo từng phân quyền theo nghiệp vụ của mình được phân công.

Khi khách hàng thực hiện giao dịch tại Vietinbank như gửi tiền tiết kiệm, mở tài khoản thanh toán hay làm thẻ ATM, mỗi khách hàng sẽ được cấp một mã số khách hàng (CIF) duy nhất Mọi thông tin và dữ liệu giao dịch của khách hàng sẽ được lưu trữ và tự động cập nhật vào cơ sở dữ liệu Tùy thuộc vào chức năng và nhiệm vụ, các cán bộ sẽ được phân quyền truy cập vào các Module tương ứng để quản lý thông tin và giao dịch của khách hàng.

Hệ thống E-banking hiện nay cung cấp nhiều dịch vụ đa dạng với lượng khách hàng lớn sử dụng các dịch vụ khác nhau Mỗi dịch vụ sẽ lưu trữ dữ liệu tại các hệ thống riêng biệt Để lập báo cáo cho E-banking, cần sử dụng dữ liệu từ bốn hệ thống thông tin khác nhau.

- Bank Admin: hệ thống lưu trữ dữ liệu từ dịch vụ thanh toán internet banking.

INCAS là hệ thống lõi ngân hàng, cho phép quản lý tập trung cơ sở dữ liệu của ngân hàng theo quan hệ và theo module Hệ thống này giúp tích hợp hiệu quả các hệ thống thông tin trong lĩnh vực ngân hàng, nâng cao khả năng quản lý và vận hành.

- ISAPP: hệ thống lưu trữ dữ liệu từ dịch vụ SMS Banking và Bank plus

- CENTRONICS: hệ thống lưu trữ dữ liệu liên quan đến thẻ ATM

Quá trình lập báo cáo tại ngân hàng Vietinbank hiện nay gặp khó khăn do thông tin được tổng hợp từ nhiều hệ thống khác nhau Sự thiếu hụt kho dữ liệu tổng thể dẫn đến những hạn chế trong việc báo cáo và phân tích, ảnh hưởng đến quyết định kinh doanh.

Thông tin khách hàng và dữ liệu giao dịch được lưu trữ trên nhiều hệ thống khác nhau, gây khó khăn trong việc tổng hợp báo cáo cho E-banking.

Dữ liệu tồn tại dưới nhiều định dạng và cấu trúc khác nhau, được lưu trữ trên nhiều hệ thống và tập tin do các nhà cung cấp khác nhau phát triển Điều này gây khó khăn trong việc tích hợp dữ liệu từ các nguồn khác nhau để xuất ra báo cáo.

Khối lượng dữ liệu trong các hệ thống ngày càng lớn và gia tăng nhanh chóng, dẫn đến hiệu suất truy vấn dữ liệu giảm sút Việc kết hợp thông tin từ nhiều bảng cũng làm tăng thời gian truy vấn, gây ảnh hưởng tiêu cực đến hiệu suất tổng thể.

Dữ liệu trong các hệ thống thường rất chi tiết và được cập nhật liên tục, nhưng điều này khiến cho việc phân tích lịch sử dữ liệu trở nên khó khăn Việc thiếu thông tin lịch sử hạn chế khả năng phân tích các giai đoạn và xu hướng khác nhau, từ đó ảnh hưởng đến khả năng đưa ra dự đoán chính xác cho tương lai.

1.5.3 Lý do lựa chọn bài toán

Trong quá trình thực tập tại Công ty Cổ phần hệ thống Công nghệ ETC, tôi đã nhận được sự hướng dẫn và đào tạo từ các anh chị, giúp tôi tiếp xúc với kiến thức thực tế Đặc biệt, tham gia vào dự án xây dựng hệ thống E-banking cho ngân hàng VietinBank với vai trò thiết kế và xây dựng quy trình ETL, tôi đã có cơ hội quý báu để áp dụng những kiến thức đã học tại học viện vào thực tế trong lĩnh vực ngân hàng.

1.5.4 Ý nghĩa thực tế của bài toán

Kết luận chương 1

Chương 1 đã giới thiệu tổng quan về Ngân hàng Vietinbank về sự hình thành và phát triển, giá trị cốt lỗi và chiết lý kinh doanh, sơ đồ bộ máy tổ chức và chức năng của mỗi phòng ban Bên cạnh đó, trong chương này cũng đã trình bày tổng quan về bài toán cần nghiên cứu Nêu lên được thực trạng của bài toán, ý nghĩa thực tiễn, những khó khăn, thách thức của doanh nghiệp cần giải quyết để tối ưu hoá hệ thống báo cáo phân tích bằng việc xây dựng kho dữ liệu cho hệ thống E-banking của công ty.

TỔNG QUAN VỀ KHO DỮ LIỆU

Định nghĩa kho dữ liệu

Kho dữ liệu đã xuất hiện từ những năm 1990, được khởi xướng bởi William H Inmon, người đã định nghĩa kho dữ liệu là một tập hợp dữ liệu được tổ chức theo hướng chủ đề.

Kho dữ liệu được định nghĩa là một hệ thống tích hợp, gắn liền với thời gian, ổn định và được thiết kế nhằm hỗ trợ quá trình ra quyết định của người quản lý Định nghĩa này bao gồm bốn đặc điểm chính, phản ánh tính chất quan trọng của kho dữ liệu trong việc cung cấp thông tin đáng tin cậy cho các quyết định chiến lược.

Theo Devlin, kho dữ liệu được định nghĩa là một kho lưu trữ toàn diện và thống nhất, chứa dữ liệu thu thập từ nhiều nguồn khác nhau Dữ liệu này được tổ chức để người dùng có thể dễ dàng hiểu và sử dụng trong bối cảnh kinh doanh.

Kho dữ liệu chứa thông tin quan trọng hỗ trợ ra quyết định, được thiết kế cho nhiều mục đích khác nhau Khác với cơ sở dữ liệu tác nghiệp, kho dữ liệu quản lý lượng thông tin lớn dưới dạng đa phương tiện, bao gồm thông tin có cấu trúc và không có cấu trúc từ nhiều nguồn khác nhau Điều này giúp cung cấp cái nhìn sâu sắc hơn về hiệu suất công ty thông qua việc so sánh dữ liệu hợp nhất từ các nguồn không đồng nhất, điều mà cơ sở dữ liệu tác nghiệp truyền thống khó thực hiện.

Quá trình ETL giúp chuyển đổi dữ liệu từ nhiều nguồn khác nhau về một cấu trúc đồng nhất và lưu trữ tại kho dữ liệu Tại đây, dữ liệu được sắp xếp, hợp nhất và tổng kết để dễ dàng điều phối và sử dụng Theo thời gian, kho dữ liệu sẽ ngày càng phong phú hơn khi có thêm nhiều nguồn dữ liệu được cập nhật.

Đặc điểm kho dữ liệu

Từ khái niệm trên nhận thấy 4 đặc điểm chính của kho dữ liệu như sau: appl

C appl attribute measurement pipeline—cm -

:., I—I _pipeline—cm pipeline—inches -ằ I I _ _ằ. pipeline—mcf -► O — ^ ——" ' pipeline—yds -*■ □ ■— ' appl

Dữ liệu được tổ chức theo hướng chủ đề, tập trung vào các lĩnh vực chính như khách hàng, sản phẩm và bán hàng Cách tiếp cận này mang lại cái nhìn rõ ràng và ngắn gọn về các vấn đề liên quan đến cùng một chủ đề, giúp người dùng dễ dàng nắm bắt thông tin cần thiết.

Hình 2.1 Tính hướng chủ đề củaDWH

Tính tích hợp trong kho dữ liệu là quá trình thu thập dữ liệu từ nhiều nguồn không đồng nhất, yêu cầu áp dụng các kỹ thuật làm sạch và tích hợp để tạo ra một định dạng và cấu trúc thống nhất Việc hợp nhất này nhằm tạo ra một tập hợp dữ liệu có ý nghĩa cho phân tích, mặc dù nó gặp khó khăn trong việc duy trì tính nhất quán Đôi khi, việc chấp nhận sự dư thừa dữ liệu là cần thiết để nâng cao hiệu quả của các truy vấn.

LZI apple key pi c ∙ 9 ≡∙ ->■ t key char< 12 >

Hình 2.2 Tính tích hợp trong DWH

Dữ liệu trong kho dữ liệu (DWH) có tính ổn định và không biến động, cho phép thực hiện hai thao tác cơ bản là nạp dữ liệu và truy cập vào các vùng trong DWH Tính chất này được thể hiện qua việc dữ liệu được lưu trữ lâu dài, với dữ liệu cũ không bị xóa khi có dữ liệu mới được thêm vào Nhờ đó, DWH cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình phân tích và dự báo, từ đó giúp đưa ra những quyết định hợp lý, phù hợp với quy luật tiến hóa tự nhiên.

Hình 2.3 Tính ổn định, không biến động củaDWH

Kho dữ liệu (DW) lưu trữ một khối lượng lớn dữ liệu lịch sử, với nhiều bản sao phản ánh giá trị dữ liệu tại các thời điểm khác nhau Điều này cho phép khôi phục và so sánh chính xác dữ liệu qua các giai đoạn khác nhau Yếu tố thời gian đóng vai trò quan trọng như một phần của khóa, đảm bảo tính duy nhất của mỗi bản ghi và cung cấp thông tin về thời gian cho dữ liệu.

Dữ liệu trong kho dữ liệu tác nghiệp cần phải chính xác tại thời điểm truy cập, trong khi dữ liệu trong kho dữ liệu (DW) chỉ cần có hiệu lực trong một khoảng thời gian nhất định, thường từ 5 đến 10 năm hoặc lâu hơn Sau một thời gian, dữ liệu của cơ sở dữ liệu tác nghiệp sẽ trở thành dữ liệu lịch sử và được chuyển vào kho dữ liệu, tạo thành những thông tin hợp lý về các chủ điểm cần lưu trữ.

- Chiều thời gian hiện thời tới 60 - 90 ngày

- Cập nhật hô sơ - Album ánh chụp dừ liệu

Câu trúc chính chúa / không chứa yêu - Câu trúc chính chúa yéu tổ thời gian tô thời gian

Kiến trúc Kho dữ liệu

Tùy thuộc vào tình trạng của tổ chức, kho dữ liệu có thể được thiết kế theo nhiều hình thức khác nhau Dưới đây là ba kiến trúc phổ biến trong kho dữ liệu.

2.3.1 Kiến trúc kho dữ liệu căn bản

Kiến trúc kho dữ liệu cơ bản không phải là phương pháp thiết kế phổ biến trong lĩnh vực kho dữ liệu Mục tiêu chủ yếu của kiến trúc này là xây dựng một tập dữ liệu nhỏ gọn, đồng thời giảm thiểu lượng dữ liệu được lưu trữ.

Hình 2.5 Kiến trúc kho dữ liệu cơ bản

Kiến trúc cơ bản của hệ thống Data Warehouse gồm 3 phần:

• Data Source: Là nơi dữ liệu từ nhiều nguồn khác nhau được thu thập.

• Warehouse: Đây là nơi lưu trữ dữ liệu đã được xử lý bao gồm Metadata, Raw Data và Summary Data.

Người dùng trong hệ thống phân tích và báo cáo bao gồm các công cụ data mining, cho phép truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua kho dữ liệu (data warehouse) Kiến trúc này đơn giản hơn khi phần ETL (extraction, transformation, and loading) đã được lược bỏ.

2.3.2 Kiến trúc kho dữ liệu với staging area

Hình 2.6 Kiến trúc kho dữ liệu với staging area

Trong kiến trúc Data Warehouse, hệ thống nguồn được tách biệt và bổ sung thêm vùng lưu trữ trung gian Staging Area Tại đây, dữ liệu từ nhiều nguồn khác nhau được tích hợp, chuyển đổi và lưu trữ trước khi được đưa vào Data Warehouse Người dùng cuối có thể truy xuất dữ liệu trực tiếp từ các hệ thống xử lý nghiệp vụ thông qua Data Warehouse Việc sử dụng Staging Area giúp đảm bảo rằng tất cả dữ liệu được tải vào kho đã được làm sạch và ở định dạng phù hợp.

2.3.3 Kiến trúc kho dữ liệu với staging area và data marts

Kiến trúc kho dữ liệu phổ biến nhất thường được sử dụng cho các hệ thống kho dữ liệu bao gồm khu vực staging và các data marts Kiến trúc này bổ sung thêm bước ETL, giúp phân chia kho dữ liệu thành các chủ đề nhỏ hơn, gọi là data marts.

Tại kiến trúc kho dữ liệu với staging area và data marts có 3 tầng chính như sau:

Tầng dưới của hệ thống chủ yếu tập trung vào việc trích xuất thông tin từ nhiều nguồn khác nhau Sau đó, các công cụ ETL được sử dụng để thực hiện các thao tác chuyển đổi, làm sạch, tải dữ liệu hoặc làm mới dữ liệu.

- Cung cấp góc nhìn dữ liệu theo chiều nhất quán trên các data mart( vì cùng từ một nguồn là data warehouse mà ra)

- Đây là mô hình được nhiều công ty lớn lựa chọn

- Báo cáo có thể được tạo dễ dàng vì

Data mart được tạo trước và việc tương tác với data mart là tương đối dễ dàng.

- Không tốt bằng Top-down nhưng kho dữ liệu có thể được mở

• Middler tier: Tầng giữa gồm máy chủ OLAP, chuyển đổi dữ liệu thành 1 cấu trúc phù hợp cho các phân tích và truy vấn phức tạp

• Top tier: Tầng trên cùng gồm các tool cho phân tích, thống kê, lập báo cáo ở phía client.

2.3.4 Cách tiếp cận kho dữ liệu

Ralph Kimball nhấn mạnh vai trò quan trọng của data mart, nơi lưu trữ dữ liệu theo các lĩnh vực kinh doanh cụ thể Kho dữ liệu là sự tổng hợp của nhiều data mart, giúp tối ưu hóa quy trình báo cáo và phân tích Thiết kế kho dữ liệu theo phương pháp "Bottom-up" của Kimball cho phép ETL tải dữ liệu vào data mart trước khi chuyển vào kho dữ liệu (DW), nơi thông tin được lưu trữ Cách tiếp cận này được gọi là Bottom-up.

Hình 2.8 Cách tiếp cận Bottom-up

Theo Bill Inmon, kho dữ liệu là nơi lưu trữ tập trung cho toàn bộ dữ liệu của doanh nghiệp Trong phương pháp này, tổ chức sẽ xây dựng một mô hình kho dữ liệu chuẩn hóa trước, sau đó tạo ra các kho dữ liệu chiều (dimensional data marts) dựa trên mô hình đã thiết lập.

DW, hay kho dữ liệu, sử dụng phương pháp tiếp cận từ trên xuống Trong phương pháp này, ETL sẽ tải trực tiếp thông tin vào DW trước khi chuyển dữ liệu vào data mart.

Hình 2.9 Cách tiếp cận Top-down

- Khác nhau giữa Top-down và Bottom-up

Thành phần của kho dữ liệu

Với các hệ thống kho dữ liệu khác nhau sẽ có cấu trúc khác nhau Nhưng một DW về cơ bản sẽ có 4 lớp sau:

Source Layer (Lớp dữ liệu nguồn):

Lớp dữ liệu nguồn bao gồm nhiều loại dữ liệu từ các nguồn khác nhau, chẳng hạn như dữ liệu hệ thống tác nghiệp liên quan đến bán hàng, nhân sự, sản phẩm, hàng tồn kho và tiếp thị Ngoài ra, còn có dữ liệu nhật ký máy chủ web ghi lại hoạt động duyệt web của người dùng, dữ liệu nghiên cứu thị trường nội bộ và dữ liệu từ bên thứ ba như điều tra dân số, nhân khẩu học và khảo sát.

Dữ liệu nguồn có thể đến từ nhiều hệ quản trị cơ sở dữ liệu khác nhau như MySQL, Oracle, MSSQL, DB2, hoặc từ các định dạng file như text, XML, và Excel.

Staging là khu vực lưu trữ dữ liệu tạm thời, nơi dữ liệu từ lớp nguồn (Source layer) được làm sạch và tải qua quá trình ETL Mục đích chính của khu vực này là lưu trữ dữ liệu nguồn tại STG, giúp quản lý và xử lý dữ liệu hiệu quả hơn.

Data mart (Kho dữ liệu chủ đề) là khu vực lưu trữ dữ liệu chuyên biệt về một lĩnh vực cụ thể Các data mart có thể được xây dựng trước khi tạo ra kho dữ liệu tổng thể (DWH) và sau đó được tích hợp lại, hoặc ngược lại, DWH có thể được xây dựng trước và sau đó phát triển các data mart.

Trong việc tổ chức kho dữ liệu, cả người dùng cuối và nhân viên quản trị đều cần truy cập thông tin đầy đủ về các đối tượng và thuộc tính trong bảng Họ cần biết vị trí tìm kiếm dữ liệu, các loại thông tin hiện có, dạng thức của dữ liệu, mối liên hệ giữa dữ liệu trong các cơ sở dữ liệu khác nhau, cũng như nguồn gốc và quản lý của dữ liệu đó.

Siêu dữ liệu được hình thành như một loại cơ sở dữ liệu khác, nhằm mục đích mô tả cấu trúc nội dung của cơ sở dữ liệu chính.

- OLAP: là một hệ thống được dùng để phân tích dữ liệu một cách hiệu quả.

OLAP cho phép người dùng phân tích dữ liệu bằng cách cắt lát (slice) theo nhiều khía cạnh, khoan xuống (Drill-Down) để có cái nhìn chi tiết hơn, hoặc cuộn lên (Roll-Up) để tổng hợp dữ liệu Cốt lõi của OLAP là dữ liệu được trích xuất từ kho dữ liệu, chuyển đổi thành mô hình đa chiều và lưu trữ trong kho dữ liệu đa chiều.

Data mining là quá trình phân tích dữ liệu nhằm phát hiện các quy luật và quy tắc để hỗ trợ quyết định kinh doanh Khác với việc sử dụng các câu truy vấn thông thường, data mining áp dụng các thuật toán đặc biệt, bao gồm mô hình thống kê và toán học, để thực hiện việc phân tích dữ liệu hiệu quả hơn.

Tổ chức dữ liệu logic trong DWH

2.5.1 Lược đồ kho dữ liệu

Lược đồ hình sao là một trong những lược đồ cơ bản và đơn giản nhất trong kho dữ liệu, thường được sử dụng để phát triển và xây dựng kho dữ liệu (DW) cũng như data mart Đây là một trường hợp cần thiết của lược đồ bông tuyết và rất hiệu quả trong việc xử lý các truy vấn cơ bản.

Hình 2.11 Lược đồ hình sao

Lược đồ hình sao bao gồm một bảng Fact (bảng sự kiện) ở trung tâm và các bảng Dimension (bảng chiều) xung quanh Dữ liệu trong lược đồ này không được chuẩn hóa, và các câu hỏi thường tập trung vào bảng Fact, được cấu trúc thông qua các bảng Dimension Ưu điểm của lược đồ hình sao là khả năng truy vấn dữ liệu nhanh chóng và hiệu quả.

Truy vấn dữ liệu trở nên đơn giản hơn khi thông tin đo lường và mô tả được tập trung trên bảng fact, giúp giảm thiểu sự cần thiết phải sử dụng nhiều câu lệnh join giữa các bảng khác nhau.

- Điểm bất lợi của lược đồ hình sao là tính toàn vẹn của dữ liệu, dữ liệu không được chuẩn hóa.

2.5.1.2 Lược đồ hình bông tuyết

Lược đồ hình bông tuyết là một phiên bản mở rộng của lược đồ hình sao, trong đó các bảng Dimension được chuẩn hoá Quá trình này chuyển đổi bảng Dimension ban đầu thành nhiều bảng Dimension có quan hệ phân cấp, giúp tối ưu hoá việc quản lý dữ liệu.

Hình 2.12 Lược đồ hình sao

Lược đồ hình bông tuyết giúp chuẩn hóa các bảng dimension trong lược đồ hình sao, từ đó cải thiện năng suất truy vấn và giảm không gian đĩa cần thiết để lưu trữ dữ liệu Phương pháp này cho phép kết hợp các bảng có kích thước nhỏ hơn, thay vì phải xử lý các bảng lớn không chuẩn hóa, mang lại hiệu quả cao hơn trong quản lý dữ liệu.

Lược đồ chòm sao là một tập hợp nhiều bảng fact cùng sử dụng chung một số bảng dimension Lược đồ là sự kết hợp của nhiều data mart

CMrrxUi-Wxifh-Nxnir CMvtKJjt-Morith-Nurnbvt CMctxJjt-CKJjrtiT Caiendat-Year Last Oay Of Month Calendar Month-Sort

ID Calendar Month ID-PIxrirarKI-Vrrvon I□Z Pr Odud-CMegory ID-Pnaf-Segment ID-Currency

ID Sales OrgarasaDon Revenue Quota SMet-Anxxxit-QuoCi t ID-Currency

Currency ISO Code Currency"Name Currency- SymboI-ID

IO Calendar Wxith ID-Currency ID-Produd ID-SxIrX-Chxnnri

VsZorgarawtXXI Discount Revenue Sales-Amount TrxmlK-Pnrr

Hình 2.13 Lược đồ chòm sao 2.5.2 Mô hình dữ liệu đa chiều

Dữ liệu trong kho dữ liệu (DWH) rất lớn và không cho phép sửa đổi hay tạo mới, vì vậy cần tối ưu hóa DWH để hỗ trợ phân tích và báo cáo hiệu quả Các thao tác với dữ liệu trong DWH dựa trên mô hình dữ liệu đa chiều, giúp cải thiện hiệu suất cho các truy vấn phức tạp và cho phép người dùng quan sát dữ liệu từ nhiều góc độ khác nhau Mô hình này được thể hiện dưới dạng khối đa chiều (cube), trong đó mỗi chiều đại diện cho một đặc trưng cụ thể của dữ liệu.

Hình 2.14 Hình ảnh cube 3 chiều thể hiện số lượng bán hàng theo 3 chiều

Cây phân cấp là phương pháp tổ chức dữ liệu theo các cấp độ tổng hợp khác nhau, giúp người dùng khám phá sâu hơn và xem xét dữ liệu chi tiết Các chiều (dimension) được phân cấp theo loại, chẳng hạn như phân cấp theo sản phẩm, vị trí và thời gian.

Dimensions: Product, Location, Time Hierarchicalsummarization paths

Chiều thời gian được chia thành các quý và mỗi quý có thể chia thành các tháng bằng cách cắt lớp chiều thời gian

Hình 2.16 Hình ảnh cắt lớp chiều time

Với mức độ phân cấp như ảnh người dùng có thể lựa chọn mức độ chi tiết của chiều dữ liệu

- Chiều hàng hoá (Product) có các mức: sản phẩm, loại sản phẩm, công nghiệp

- Chiều thị trường (Location) có các mức: khu vực, quốc gia, thành phố, địa điểm

- Chiều thời gian (Time) có các mức: năm, quý, tháng, tuần, ngày

Vì vậy, nếu mỗi bảng chiều chứa nhiều mức độ trừu tượng thì dữ liệu có thể được xem từ nhiều khung nhìn linh động khác nhau.

- Một số thao điển hình trên khối cube o Roll-up (Cuộn) thực hiện tính toán gộp theo một hoặc nhiều chiều dữ liệu.

Hình 2.17 minh họa thao tác Roll-up theo chiều locations, cho phép tổng hợp dữ liệu từ cấp thành phố đến cấp quốc gia Ngược lại, thao tác Drill-down cung cấp dữ liệu chi tiết theo các chiều dữ liệu, giúp người dùng hiểu rõ hơn về thông tin cần thiết.

Hình 2.18 minh họa thao tác drill down theo chiều thời gian, từ cấp độ quý xuống cấp độ chi tiết hơn là tháng Đồng thời, Slice (Cắt lát) cho phép "cắt" một "lát" dữ liệu theo một chiều cụ thể trong Data-cube.

Hình 2.19 Thao tác slice chiều time với tiêu chí là Quý 1 o Dice (Cắt khối) thực hiện “cắt” lấy một “khối con” dữ liệu của Data- cube.

Hình 2.20 minh họa thao tác dice, cho phép cắt cube thành các khối con dựa trên tiêu chí o Pivot (Xoay) Thao tác này giúp người dùng xoay Data-cube theo các chiều dữ liệu, từ đó cung cấp nhiều góc nhìn khác nhau vào dữ liệu.

Hinh 2.21 Thao tác pivot 2.5.3 Cấu trúc bảng fact

Bảng sự kiện (fact table) là bảng chứa các phép đo, số liệu và sự kiện liên quan đến quy trình kinh doanh Những giá trị định lượng này giúp xác định giá trị kinh doanh của doanh nghiệp và dự báo xu hướng phát triển trong tương lai.

Bảng Fact có những đặc điểm chính như sau: Thông thường, bảng Fact không có trường khóa chính riêng, mà thay vào đó là tập hợp các khóa ngoại từ các bảng Dimension liên quan Ngoài ra, bảng Fact thường chứa các trường lưu giá trị số liệu, được gọi là tiêu chí đo (Measurement) Cuối cùng, bảng Fact có thể có hoặc không có các dimension thoái hóa (Degenerate Dimension).

Có 3 loại bảng fact chính: bảng fact giao dịch, bảng fact snapshot và bảng fact tổng hợp:

Bảng fact giao dịch là loại bảng dữ liệu phổ biến nhất, với mỗi hàng đại diện cho một sự kiện cụ thể trong quy trình kinh doanh Bảng này chứa nhiều khóa ngoại hơn so với các loại bảng khác, do có mối quan hệ với tất cả các bảng dimension có thể có.

Bảng fact snapshot (Accumulating snapshot fact table) là loại bảng lưu trữ dữ liệu không có thời gian xác định, nơi mỗi bản ghi được cập nhật liên tục theo trạng thái của thực thể Các thông tin lưu trữ có thể bao gồm số dư tài khoản, cấp độ tài khoản, cũng như các phép đo như nhiệt độ và chiều cao.

Bảng fact tổng hợp (Periodic snapshot fact table) là một loại bảng lưu trữ thông tin về quy trình kinh doanh trong một khoảng thời gian nhất định, và nó sẽ được cập nhật lặp lại sau mỗi chu kỳ quy trình Những dạng bảng fact tổng hợp phổ biến bao gồm theo ngày, tháng và năm.

Cấu trúc bảng Dimension gồm các thành phần sau:

ETL TRONG DATAWAREHOUSE

ELT, viết tắt của Extract - Load - Transform (trích xuất - tải - biến đổi), là giải pháp tối ưu cho doanh nghiệp trong thời đại IoT, nơi khối lượng dữ liệu gia tăng nhanh chóng Phương pháp này không chỉ giúp lưu trữ dữ liệu hiệu quả mà còn cho phép khai thác triệt để các thông tin thu thập được, từ đó tối ưu hóa quy trình ra quyết định và nâng cao hiệu quả kinh doanh.

ETL, viết tắt của Extract, Transform, Load, là quy trình quan trọng trong việc sao chép dữ liệu từ nhiều nguồn khác nhau vào một hệ thống đích, thường được sử dụng trong kho dữ liệu Khái niệm ETL đã trở nên phổ biến từ những năm 1970 và đóng vai trò then chốt trong việc quản lý và phân tích dữ liệu.

ETL bao gồm 3 quá trình

Việc trích xuất dữ liệu là quá trình quan trọng nhằm xác định và lấy ra các thông tin cần thiết từ nhiều nguồn khác nhau như cơ sở dữ liệu, tệp tin, kho lưu trữ, hệ thống ERP và CRM.

- Load (Tải lên): Quy trình này sẽ bao gồm việc tải các dữ liệu được trích xuất sẽ được lên các database xác định.

Chuyển đổi dữ liệu là quá trình chuyển đổi thông tin từ dạng cũ trên hệ thống nguồn sang dạng mới, nhằm phục vụ cho việc phân tích dữ liệu hiệu quả hơn.

2.6.2 Cách thức hoạt động của ETL

2.6.2.1 Giai đoạn trích xuất dữ liệu

Trong giai đoạn này, dữ liệu được trích xuất từ hệ thống nguồn vào khu vực staging area, nơi các biến đổi được thực hiện nhằm nâng cao hiệu suất hệ thống Việc tải dữ liệu trực tiếp vào kho dữ liệu (DW) có thể gây khó khăn trong việc khôi phục nếu xảy ra sự cố dữ liệu hỏng Khu vực staging area cung cấp cơ hội để xác thực dữ liệu đã được trích xuất trước khi tiến hành tải vào kho dữ liệu.

Extract là bước đầu tiên trong quy trình ETL, chịu trách nhiệm trích xuất dữ liệu từ nhiều nguồn khác nhau Hầu hết các doanh nghiệp không chỉ sử dụng một loại dữ liệu để quản lý, do đó, cả dữ liệu có cấu trúc và không có cấu trúc đều được cập nhật vào kho dữ liệu theo nguyên tắc hợp nhất Dữ liệu thô có thể được trích xuất từ nhiều nguồn phong phú khác nhau.

- Ứng dụng phục vụ hoạt động bán hàng và tiếp thị.

- Nền tảng lưu trữ dữ liệu.

- Các ứng dụng và thiết bị di động.

- Hệ thống CRM (Quản lý khách hàng).

Có hai phương pháp trích xuất dữ liệu:

- Trích xuất toàn bộ (Full Extraction): Trích xuất tất cả dữ liệu vào khu vực dàn dựng mà không cần áp dụng điều kiện.

Trích xuất dữ liệu với thông báo cập nhật từ nguồn gửi, chỉ lấy những phần dữ liệu đã được sửa đổi để cập nhật vào khu vực tổ chức.

Trích xuất dữ liệu có điều kiện tải, như trong các bộ lập lịch hàng ngày, chỉ lấy dữ liệu trong ngày đó, trong khi phần dữ liệu mới sẽ được trích xuất vào ngày tương ứng Quan trọng là quá trình trích xuất không làm ảnh hưởng đến hiệu suất và thời gian phản hồi của hệ thống nguồn, vốn là cơ sở dữ liệu sản xuất trực tiếp Bất kỳ sự chậm trễ hoặc khóa nào đều có thể tác động tiêu cực đến lợi nhuận của công ty.

2.6.2.2 Giai đoạn chuyển đổi dữ liệu

Dữ liệu thô được trích xuất từ hệ thống nguồn thường có nhiều định dạng và cấu trúc khác nhau, vì vậy cần phải chuyển đổi để sử dụng hiệu quả Quá trình chuyển đổi này là bước quan trọng trong quy trình ETL, giúp thêm giá trị và biến đổi dữ liệu, từ đó tạo ra các báo cáo BI sâu sắc Trong giai đoạn này, một tập hợp các hàm sẽ được áp dụng lên dữ liệu đã được trích xuất, trong khi dữ liệu không yêu cầu chuyển đổi sẽ được gọi là di chuyển trực tiếp hoặc truyền qua dữ liệu.

Một số kỹ thuật được sử dụng trong giai đoạn này:

- Chuyển đổi bộ ký tự và xử lý mã hóa

- Chuyển đổi Đơn vị đo lường như Chuyển đổi ngày giờ, chuyển đổi tiền tệ,chuyển đổi số, chuyển đổi chuỗi thành ngày,v.v.

- Kiểm tra xác thực ngưỡng dữ liệu Ví dụ: tuổi không được nhiều hơn hai chữ số.

- Các trường bắt buộc không được để trống.

- Làm sạch (ví dụ: ánh xạ NULL thành 0 hoặc Giới tính Nam thành "M" và

- Tách một cột thành nhiều cột và hợp nhất nhiều cột thành một cột duy nhất.

- Chuyển đổi các hàng và cột,

- Sử dụng tra cứu để hợp nhất dữ liệu

2.6.2.3 Giai đoạn tải dữ liệu

Bước cuối cùng trong quy trình ETL là tải dữ liệu đã được chuyển đổi vào một đích mới Quá trình tải này có thể thực hiện theo hai cách: tải đầy đủ tất cả dữ liệu cùng một lúc hoặc tải tăng dần theo các khoảng thời gian đã được lên lịch.

Trong quá trình tải toàn bộ ETL, dữ liệu được ghi vào các bản ghi mới và duy nhất trong kho dữ liệu, điều này rất hữu ích cho nghiên cứu Tuy nhiên, phương pháp tải toàn bộ này có thể dẫn đến việc tạo ra các tập dữ liệu tăng theo cấp số nhân, gây khó khăn trong việc duy trì và quản lý.

Tải tăng dần là phương pháp quản lý dữ liệu hiệu quả, cho phép so sánh thông tin mới với dữ liệu đã có, chỉ tạo ra các bản ghi bổ sung khi phát hiện thông tin độc nhất Cách tiếp cận này giúp giảm chi phí và nâng cao khả năng quản lý trong kinh doanh.

Làm tươi toàn bộ - xóa hoàn toàn nội dung của 1 hoặc nhiều bảng và tải lại với dữ liệu mới ( Tải đầu tiên là một làm tươi toàn bộ) [3].

Một số kỹ thuật tải dữ liệu

- Create: Là quá trình tạo một bảng mới hoàn toàn và tải dữ liệu vào bảng vừa tạo [3].

Quá trình append trong tải dữ liệu yêu cầu bảng đã tồn tại, cho phép thêm dữ liệu mới vào mà không làm mất dữ liệu hiện có trong các bảng mục tiêu.

Nếu bảng mục tiêu đã tồn tại và chứa dữ liệu, quá trình thay thế sẽ xóa toàn bộ dữ liệu hiện có cùng với cấu trúc bảng, sau đó tải dữ liệu và cấu trúc bảng mới.

Kết luận chương 2

Chương 2 cung cấp cái nhìn tổng quan về kho dữ liệu (KDL), bao gồm khái niệm, đặc điểm, cách tiếp cận và kiến trúc của KDL, cũng như các tầng và tổ chức logic bên trong Bài viết cũng đề cập đến mô hình đa chiều OLAP, các loại bảng fact, cấu trúc bảng fact và dimension Ngoài ra, chương này còn trình bày tổng quan về quy trình ETL trong DWH, bao gồm các giai đoạn trích xuất, chuyển đổi và load dữ liệu.

XÂY DỰNG QUÁ TRÌNH ETL PHỤC VỤ CHO HỆ THỐNG E-BANKING

Kiến trúc ETL tổng thể của hệ thống E-banking

Hình 3.1 Kiến trúc ETL trong hệ thống E-banking

As illustrated in the current diagram, the source data flows through three distinct layers: from source systems to staging/ODS, then from staging/ODS to the data warehouse, and finally from the data warehouse to the data mart.

3.1.1 Quá trình tải dữ liệu từ Source system tới Staging and ODS

Hệ thống nguồn bao gồm dữ liệu từ nhiều nguồn khác nhau như Bank Admin, INCAS, ISAPP và G ENTRONICS Dữ liệu được trích xuất sẽ được tải vào khu vực lưu trữ tạm thời gọi là Staging area, nơi mà dữ liệu được mapping 1-1 vào các bảng Staging area đóng vai trò như một kho lưu trữ dự phòng cho dữ liệu hệ thống nguồn, giúp xử lý các lỗi có thể xảy ra trong quá trình ETL khi chuyển dữ liệu từ khu vực xử lý sang khu vực trình bày Điều này cho phép tái sử dụng dữ liệu từ hệ thống nguồn mà không lo lắng về sự thay đổi nào trên dữ liệu.

StagingArea Data Loading and Data Migration Process

Hinh 3.2 Minh họa quá trình load dữ liệu vào Staging area

Sau khi dữ liệu được tải vào vùng Staging area, nó sẽ được chuyển đến khu vực ODS (Kho dữ liệu hoạt động), nơi tích hợp và lưu trữ dữ liệu từ các hệ thống nguồn khác nhau để phục vụ cho báo cáo và ra quyết định của doanh nghiệp ODS được làm mới theo thời gian thực, làm cho nó trở thành lựa chọn phổ biến cho các hoạt động hàng ngày, chẳng hạn như lưu trữ hồ sơ nhân viên Thời gian lưu trữ dữ liệu cho các bảng STG và ODS được quy định cụ thể.

3.1.2 Quá trình tải dữ liệu từ ODS tớiDWH

Dữ liệu từ ODS được xử lý và liên tục tải lên lớp DWH, nơi các bản ghi mới được thêm vào và dữ liệu được tổng hợp theo lịch sử Khác với ODS, vốn cập nhật dữ liệu theo thời gian thực, DWH được thiết kế để thực hiện các truy vấn phức tạp trên tập dữ liệu lớn, trong khi ODS chỉ truy vấn trên tập dữ liệu nhỏ.

3.1.3 Quá trình tải dữ liệu từDWH tới DM

Mục tiêu chính của lớp data mart là hỗ trợ các yêu cầu báo cáo phục vụ quyết định kinh doanh Do đó, quá trình nạp dữ liệu vào data mart bao gồm việc chuyển đổi dữ liệu sang mô hình hình sao hoặc bông tuyết, nhằm tạo điều kiện thuận lợi cho việc truy vấn và phân tích dữ liệu hiệu quả.

Các quá trình sau sẽ được đưa vào quá trình tải dữ liệu của Data Mart:

1 Tạo surrogate key trong bảng chiều

2 Bảo toàn dữ liệu lịch sử cho dữ liệu

3 Xác định dữ liệu phân cấp để hỗ trợ xem chi tiết, tổng hợp và xem chi tiết thông qua các chức năng báo cáo

4 Tải dữ liệu Fact dưới dạng cấu trúc giao dịch không chuẩn hóa với tham chiếu dữ liệu chiều thông qua surrogate key để tạo mô hình sao / bông tuyết

5 Tải dữ liệu Tóm tắt tổng hợp từ dữ liệu thực tế có mức độ chi tiết thấp hơn để hỗ trợ báo cáo cấp cao và truy cập dữ liệu nhanh hơn

3.1.4 Quá trình chạy job và thông báo lỗi

Toàn bộ quá trình tải dữ liệu trên kho EDW được tổ chức thành một công việc duy nhất, chạy liên tục từ đầu đến cuối Mỗi tầng sẽ có một job riêng để phục vụ cho quy trình ETL tại tầng đó Các job tại mỗi tầng được liên kết trên Server job và chạy tuần tự; chỉ khi job tại tầng STG thành công, job tại tầng ODS mới được thực hiện, và quy trình tiếp tục cho đến khi job tại tầng DM hoàn thành Nếu có bất kỳ vấn đề nào xảy ra trong quá trình chạy, job sẽ ngay lập tức dừng lại và thông báo qua email.

Hình 3.3 Sơ đồ tải dữ liệu tại EDW

Quá trình bắt đầu với việc chạy job tại tầng STG, nơi dữ liệu từ hệ thống nguồn được tải vào khu vực Staging Nếu phát hiện lỗi, hệ thống sẽ gửi thông báo qua email và dừng quy trình.

Khi job tại tầng STG và ODS hoàn tất thành công, dữ liệu cần được tải vào DWH một cách chính xác, đảm bảo tuân thủ các tiêu chuẩn dữ liệu Dữ liệu IFS phải được chuyển đến các bảng đích trong DWH mà không bị mất mát Nếu phát hiện lỗi, hệ thống sẽ gửi thông báo qua email và tạm dừng quy trình.

Khi job tại tầng DWH chạy thành công, dữ liệu sẽ được tải lên tầng DM Trong trường hợp gặp phải vấn đề đối chiếu dữ liệu, hãy gửi thông báo lỗi qua Gmail Nếu job hoàn tất thành công, hãy gửi email thông báo về kết quả này.

3.1.5 Các kiểu xử lý load dữ liệu

Khác với ODS, DWH lưu trữ dữ liệu lịch sử và hiện tại, do đó, khi có sự thay đổi ở một bản ghi, DWH cần phải cập nhật thông tin đó Trong hệ thống E-banking, sẽ sử dụng hai loại SCD, bao gồm SCD type 1 và SCD type 2.

3.1.5.1 Quá trình xử lý SCD type 1

Sau khi trích xuất dữ liệu tại ODS, dữ liệu này sẽ được so sánh với dữ liệu tại DWH thông qua khóa natural key Nếu có bản ghi trùng khớp với natural key trong DWH, dữ liệu nguồn sẽ được cập nhật vào DWH Ngược lại, nếu không tìm thấy bản ghi tương ứng, dữ liệu sẽ được chèn mới vào DWH.

Hình 3.4 Sơ đồ xử lý SCD type 1 3.1.5.2 Quá trình xử lý SCD type 2

Dữ liệu từ ODS được so sánh với DWH thông qua khóa natural key, tương tự như SCD type 1 Nếu không có bản ghi nào trùng khớp, dữ liệu tại ODS sẽ được thêm vào DWH với effective start date là COB_DT và effective end date là '9999-12-31' Nếu bản ghi đã tồn tại trong DWH, có hai trường hợp xảy ra: nếu dữ liệu không thay đổi, quá trình tải dữ liệu sẽ kết thúc; nếu có sự thay đổi, bản ghi mới từ ODS sẽ được thêm vào và bản ghi cũ trong DWH sẽ được cập nhật.

Hình 3.5 Sơ đồ xử lý SCD type 2

Nền tảng sử dụng

3.2.1 Hệ quản trị cơ sở dữ liệu Oracle

Oracle là hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS) do Oracle phát triển, đóng vai trò quan trọng trong công nghệ thông tin của doanh nghiệp Phần mềm này hỗ trợ nhiều nhiệm vụ như xử lý giao dịch, phân tích ứng dụng và hệ thống business intelligence (BI) Oracle được xây dựng dựa trên ngôn ngữ lập trình SQL, ngôn ngữ phổ biến trong việc quản lý và truy vấn dữ liệu trong ngành công nghệ.

Cơ sở dữ liệu Oracle gắn liền với PL/SQL, một phần mềm do chính công ty phát triển nhằm bổ sung các extension độc quyền cho SQL chuẩn Phần mềm này cho phép lập trình bằng Java, kết hợp với các chương trình viết trên PL/SQL hoặc gọi từ ngôn ngữ khác Hơn nữa, Oracle database kết nối các bảng thông qua cấu trúc hàng và cột, giúp người dùng không cần lưu trữ dữ liệu trong nhiều bảng mà vẫn đảm bảo hệ thống xử lý hiệu quả, tiết kiệm đáng kể dung lượng tài nguyên.

Mô hình quan hệ của cơ sở dữ liệu Oracle cung cấp nhiều ràng buộc để đảm bảo tính vẹn toàn và duy trì độ chính xác cao cho dữ liệu Điều này liên quan đến các nguyên tắc của ACID, bao gồm tính nguyên tử, sự thống nhất, tính độc lập và độ bền dữ liệu ACID được thiết kế để đảm bảo độ tin cậy trong quá trình xử lý giao dịch của hệ thống lưu trữ cơ sở dữ liệu.

IBM® InfoSphere® DataStage® là nền tảng ETL hàng đầu cho việc tích hợp dữ liệu trong các hệ thống doanh nghiệp Nền tảng này có khả năng mở rộng, cung cấp quản lý siêu dữ liệu toàn diện và kết nối doanh nghiệp hiệu quả Nó tích hợp dữ liệu không đồng nhất, bao gồm cả dữ liệu lớn ở trạng thái nghỉ (dựa trên Hadoop) và dữ liệu lớn đang chuyển động (dựa trên luồng), hoạt động trên cả nền tảng phân tán và máy tính lớn.

Hinh 3.6 Giao diện IBM InfoSphere DataStage

IBM infosphere bao gồm các giai đoạn (stage) riêng lẻ được liên kết với nhau.

Luồng dữ liệu từ nguồn đến đích được mô tả qua ba giai đoạn, như hình ảnh 4.1 Mỗi giai đoạn thường yêu cầu ít nhất một đầu vào và/hoặc một đầu ra dữ liệu Tuy nhiên, có những giai đoạn có thể xử lý nhiều hơn một đầu vào và đầu ra dữ liệu, cho phép sự linh hoạt trong việc quản lý thông tin qua các giai đoạn khác nhau.

Một số stage được sử dụng trong datastage

Thiết kế Kho dữ liệu

3.3.1 Cấu trúc các bảng tại tầng STG

Hệ thống nguồn bao gồm ba bảng chính: C USSESSI ONLOG lưu trữ thông tin về hoạt động đăng nhập của khách hàng như mã người dùng, mã doanh nghiệp, kênh và loại khách hàng, thời gian và số lần đăng nhập Bảng BLENTERPRISE chứa thông tin về các tổ chức và doanh nghiệp lớn sử dụng dịch vụ, bao gồm mã internet banking, mã doanh nghiệp, tình trạng truy cập dịch vụ, mã gói dịch vụ, mã chi nhánh, trạng thái thay đổi và số đăng ký kinh doanh Cuối cùng, bảng B LCU STOMER tập trung vào thông tin cá nhân của khách hàng như mã khách hàng, tên, ngày sinh, email, số điện thoại, cùng với trạng thái đăng nhập và thông tin dịch vụ như mã internet banking và mã gói dịch vụ.

FAX BUSINESSPHONE MAXE NTE RPRISE USE RNUMBE R BRANCH

Hình 3.7 Các bảng trên hệ thống nguồn

IFS IB CUS NON IDV MSTR

ENTP RS-EM AIL-ID

UPDTD-DTM f ENTPRSJ DN TFTN-N BR

- Cấu trúc các bảng trên khu vực STG

Hình 3.8 Các bảng tại tầng STG 3.3.2 Cấu trúc các bảng tại tầng ODS

Cấu trúc các bảng trong khu vực ODS bao gồm: IFS IB IDV REF HIST, chứa dữ liệu từ bảng IBS-BLCustomer với thông tin đăng nhập; IFS IB IDV REF USR, tập trung vào thông tin của khách hàng sử dụng dịch vụ; và IFS USR LGN DTL, bao gồm dữ liệu lấy từ bảng IBS-BLCustomer.

CUSSESSIONLOG o IFS IB CUS NON IDV MSTR: bao gồm dữ liệu từ bảng IBS-

IFS IB IDV REF USR HIST t INTNET_BNK_ID UkSTJNTNET-LGN UkST-MOBIL-LGN LAST-LGN-DT COB-DT SRC-SYS-CD UPDTD-BY UPDTD-DTM CUS-NBR

S UPPE R-USR-FLAG EMAIL-ADDR MBL-NBR MBR-TYP

CU S-CH NG-STS LGN-USING SMS-OFFR-DT LAST-ACCS-CD-GENRATED SMS-STS

COB-DT SRC-SYS-CD UPDTD-BY UPDTD-DTM USR-LGN-DTL-SR-KEY CUS-NBR ENTPRS-IDNTFTN-NBR CHNL

CUS-TYP LOG-DT DURN

N BR-OF-ACTNS SESN-ID

IFS IB IDV REF USR

COB-DT SRC-SYS-CD UPDTD-BY UPDTD-DTM

The article outlines key identifiers and attributes related to user data management, including 8 CUS-NBR, ACCS-STS, HOST-CUS-ID, CUS-NM, KL, FRST-NM, MID-NM, LAST-NM, BRTH-DT, SUPPER-USR-FLAG, CREA-DT, GLOB-BRNCH-CD, GEN, USR-NM, SVC-PKG-ID, and TAX-ID These elements are essential for organizing and maintaining user profiles effectively.

IB CUS NON IDV MSTR IB IDV REF USR HIST

INTNET-BN K-U SR-ACTN-CNT

V IBJDV-REF-SR.KEY CUS-NBR

LAST-INTNET-LGN LAST MOBIL LGN

SU PPER-US R-FLAG EMAIL-ADD R MBL-NBR MBR-TYP

C U S-CH NG-STS LAST-LGN-DT MRTL-STS SMS-OFFR-DT SMS-STS LAST-ACCS-C D-G EN RATED LGN.USING

EFF-STRT-DT EFF-END-DT COB-DT SRC-SYS-CD UPDTD-BY UPDTD-DTM

SRC-SYS-CD ĩ CUS-NBR

■ UPDTD BY UPDTD-DTM COB-DT USR-LG N-DTL-SR-KEY CUS NBR ô E NTPRSJDNTFT N-NBR CHNL CUS TYP LOG-DT DURN

N B R-OF-ACTNS LGN TVP SR KEY _

Hình 3.9 Các bảng tại tầng ODS 3.3.3 Cấu trúc các bảng tại tầngDWH

Hình 3.10 Các bảng tại tầngDWH 3.3.4 Cấu trúc các bảng tại tầngDM

- BRNCH_DIM: lưu trữ dữ liệu về các chi nhánh của ngân hàng

- TM_DIM: lưu trữ dữ liệu thời gian được phân cấp theo yêu cầu phía ngân hàng

- CHNL_DIM: lưu trữ dữ liệu về phương thức truy cập

- UTIL_PRD_DIM: lưu trữ dữ liệu về các dịch vụ, tiện ích

- CUS_AGE_GRP_DIM: lưu trữ dữ liệu về chỉ tiêu từng nhóm tuổi của khách hàng

- CUS_DIM: lưu trữ thông tin về khách hàng

- CUS_TYP_DIM: lưu trữ dữ liệu về loại khách hàng

- VTGE_DIM: lưu trữ dữ liệu về chỉ tiêu thời gian gắn bó của khách hàng

- LGN_TYP_DIM: lưu trữ dữ liệu về phương thức đăng nhập

- IB_TRNS_TIER_DIM: lưu trữ dữ liệu về chỉ tiêu khoảng tiền giao dịch

COB_DT Ngày tải dữ liệu vào hệ thống

UPDTD_BY Ghi lại tên job

UPDTD_DTM Ghi lại thời gian dữ liệu update lần cuối

Xây dựng quá trình ETL cho phân hệ E-banking

Hệ thống nguồn dữ liệu bao gồm các bảng được lưu trữ trên CSDL Oracle 12c Dữ liệu từ hệ thống nguồn được lưu trữ tại khu vực tạm thời thông qua quá trình ETL, giúp tránh việc trích xuất lại dữ liệu từ nguồn trong trường hợp có sự cố khi tải dữ liệu vào DWH Quá trình transform tại tầng này tương đối đơn giản, chỉ yêu cầu mapping 1-1 giữa các trường thông tin từ bảng nguồn và STG, đồng thời bổ sung thêm 3 trường dữ liệu mới vào các bảng tại tầng STG.

Thiết kế job đẩy dữ liệu lên tầng STG

Quá trình ETL tại tầng Source-STG khá đơn giản, vì vậy tôi sẽ trình bày một demo toàn bộ quy trình ETL trên một job và sử dụng parallel job để thiết kế quá trình này Parallel job là quy trình xử lý dữ liệu bao gồm các giai đoạn riêng lẻ, mỗi giai đoạn thực hiện một quy trình cụ thể, chẳng hạn như một giai đoạn trích xuất dữ liệu từ nguồn, trong khi giai đoạn khác thực hiện chuyển đổi Các giai đoạn này được liên kết với nhau thông qua các liên kết Tại tầng STG, chúng ta sẽ sử dụng 3 giai đoạn khác nhau.

Giai đoạn transformer cho phép chuyển đổi dữ liệu, với các phép biến đổi có thể đơn giản hoặc phức tạp, áp dụng cho từng cột thuộc tính riêng lẻ Giai đoạn này sử dụng một tập hợp các hàm để hỗ trợ trong việc chuyển đổi dữ liệu hiệu quả.

- Oracle connector: có chức năng kết nối với oracle database và ghi dữ liệu

Hình ảnh toàn bộ job chạy thành công tại tầng STG 1000 bản ghi từ nguồn được đẩy sang khu vực STG

Hình 3.12 Demo đẩy dữ liệu từ Source lên STG

Minh họa cấu hình thông tin Unstructured Data stage của bảng

Hình 3.13 Cấu hình thông tin tại Unstructured Data stage

Mapping các cột từ nguồn vào các bảng STG trên transformer stage σ

√

141180 Smmtcs Wmmtes 202105-1300:00:00 IBS LJ5TG-

174454 1 hotf ago 2 ShOtfa 202105-1300:00:00 IBS L-STG-

138347 2,5hθtf a IhOtf ago Irxai 202105-13 00:00:00 IBS L-STG-

186944 IOmmtes 3hβtf ago 202105-1300:00:00 IBS L-STG-

Thông tin mapping các cột của bảng nguồn lên bảng đích tại tầng DWH

Hình 3.22 Mapping bảng IFS_IB_IDV_REF_USR tại transformer stage

In the Oracle Connector, the data connection settings are configured for both update and insert operations, with the loading action set to append This approach processes the data according to Slowly Changing Dimension (SCD) Type 1 methodology.

Hình 3.23 Cấu hình Oracle connect kết nối load dữ liệu tại bảng IBID V_REF_ USR

Bảng IB_IDV_REF_USR_HIST tại tầng DWH là bảng duy nhất được xử lý theo SCD type 2 Trong bài viết này, tôi sẽ trình bày chi tiết về cách xử lý SCD type 2 tại bảng IB IDV_REF_USR_HIST.

Hình 3.24 Hình ảnh job chạy cho bảng IB_IDV_REF_USR_HIST

Bảng nguồn (IFS_IB_IDV_REF_USR_HIST) được kết hợp với bảng đích (IB_IDV_REF_USR_HIST) thông qua khóa tự nhiên INTNET_BNK_ID, dẫn đến hai trường hợp khác nhau.

- Neu cột INTNET_BNK_ID null thì bản ghi là bản ghi mới cần được insert vào bảng đích

- Neu cột INTNET_BNK_ID not null thì bản ghi cần được insert bản ghi mới và đồng thời update bản ghi cũ

Dữ liệu từ hai bảng được kết hợp qua giai đoạn Transformer sẽ thực hiện việc ánh xạ và phân chia dữ liệu thành hai trường hợp: một là khi dữ liệu được cập nhật trực tiếp vào bảng đích, và hai là khi dữ liệu mới được chèn, cần sử dụng giai đoạn Surrogate để tự động sinh khóa.

- Kết quả chạy thử dữ liệu

- Dữ liệu trên bảng nguồn:

193002 1 hoư ago Ifar ago Irvfl 2021-05-1300:00:00 BS L-STG-

174454 1 hoư tQữ ZShocr B 2021-05-13 00:00:00 BS LJTC- 7 0

1J450 1 5 HWVtes IOnwvtes ∕ r *rv 202105-1300:00:00 BS LJTG- 43 0

138347 2,5 far • Ihocr ago frtɪl 202105-13 00:00:00 BS LJTG- 69 0

136944 IOmrvtei 3hocr ago 202105-13 00:00:00 BS LJTG- 6 0

Hình 3.25 Dữ liệu ban đầu

P∏TCTJMCJD ■ LAST JNTKT J,GN , LAST-MQBtLJGN / LASTJCNJT ∕' CC8J>T /SftCJYS-CP t UPOWJY i UPOW-PTM ■ CUS-KR /'SU 1 PSt-USR-FLAG

-HBOTOi hB JB y) W itw vfcJ 1 _ -am OS ⅜J⅜⅛O⅛OT uro -⅛sf⅛βes ⅝a OS ⅜J ⅜⅞⅞aắ -⅝O11M⅝M -1

Hình 3.26 Dữ liệu sau khi bị thay đổi

Sau khi cập nhật dữ liệu trên bảng nguồn và thực hiện lại job, hệ thống lọc dữ liệu để chỉ lấy những thay đổi so với bảng đích, dẫn đến việc chỉ có một bản ghi được trích xuất Kết quả là bản ghi vừa thay đổi được chèn và cập nhật vào bảng đích Hình ảnh minh họa cho việc job đã chạy thành công sau khi dữ liệu trên bảng nguồn được cập nhật.

Hình 3.27 Hình ảnh job sau khi cập nhật lại dữ liệu bảng nguồn

The target table data involves inserting new records with a flag set to 'Y' and an effective start date (EFF_STRT_DT) of the current date, while the effective end date (EFF_END_DT) is set to "9999-12-31" Concurrently, the old records are updated to have a flag of 'N' and an effective end date reflecting the previous day (EFF_END_DT = sysdate - 1).

Htw VVtCRE >√ncr.BNCJD ∙ U247 r fcw: VWtRE JNHCT JNCJD - 182ô 7

Hình 3.28 Dữ bảng đích sau khi thay đổi dữ liệu 3.4.4 Xây dựng ETL tại tầng DTM

Do tính chất nghiệp vụ và quy trình xử lý logic phức tạp, các bảng trong DTM đòi hỏi một quá trình ETL riêng biệt Bài viết này sẽ trình bày chi tiết quy trình ETL cho hai bảng IB_USER_DIMENSION và IB_TRNS_DTL_FACT, đồng thời giới thiệu quy trình ETL tương tự cho các bảng LGN_TYP_DIM, IB_VTGE_DIM và IB_TRNS_TIER_DIM.

3.4.4.1 Quá trình ETL tại các bảng LGN TYP DIM, IB VTGE DIM, IB TRNS TIER DIM

Các bảng LGN TYP DIM, IB VTGE DIM và IB TRNS TIER DIM đều chứa các chỉ tiêu yêu cầu từ ngân hàng với dữ liệu ổn định, ít thay đổi Do đó, các bảng này sẽ được chuyển trực tiếp vào tầng DTM mà không cần qua quá trình ETL ở các tầng dưới.

Minh họa dữ liệu của bảng IB_VTGE_DIM tại file mapping.

Hình 3.29 Minh họa dữ liệu file mapping bảng IB_VTGE_DIM Để xây dựng job kéo dữ liệu em sử dụng 4 stage là

- Unstructured Data stage: được để xem dữ liệu nguồn và trích xuất dữ liệu từ file excel.

- Transformer stage: Chuyển đổi tên các cột, định dạng các cột và mapping dữ liệu từ nguồn vào đích.

- Surrogate key stage: có chức năng tạo khóa tự sinh một cách tự động.

- Oracle connector: kết nối tới DB nguồn load dữ liệu vào bảng đích

Hình 3.30 Demo đẩy dữ liệu cho bảng LGN TYPDIM, IB VTGE DIM, IB TRNS

Hình 3.31 Cấu hình thông tin trên Unstructured Data stage

Hình 3.32 Mapping bảng IB_VTGE_DIM tại transformer stage

Hình 3.33 Cấu hình thông tin trên Surrogate key stage

Quá trình ETL tại bảng IB_USER_DIMENSION yêu cầu xây dựng các quy tắc ánh xạ dữ liệu từ nguồn đến đích, bao gồm thông tin chi tiết như tên bảng và cột nguồn, định dạng dữ liệu, điều kiện xử lý, cùng với logic tải và chuyển đổi dữ liệu Điều này giúp thể hiện rõ ràng quá trình tải dữ liệu từ bảng nguồn sang bảng đích trong kho dữ liệu.

Hình 3.35 Mô hình ánh xạ dữ liệu tại bảng IB_USER_ DIMENSION

Dựa vào bảng ánh xạ logic,job sẽ được thiết kế cho quá trình ETL tại bảng

IB_USER_ DIMENSION như sau:

Hình 3.36 Demo quá trình đẩy dữ liệu thành công vào bảng IB_USER_

Thiết kế sequence job

Sequence job là quy trình cho phép chạy nhiều job song song hoặc tuần tự, giúp giảm thiểu việc thiết kế tất cả các job trên một parallel Việc sử dụng sequence job không chỉ tối ưu hóa quy trình làm việc mà còn cho phép tích hợp phân nhánh điều kiện và vòng lặp, tạo điều kiện thuận lợi cho việc quản lý và thực thi các job khác nhau.

Dựa trên cơ chế hoạt động của sequence job, tôi sẽ thiết kế một sequence job nhằm thực hiện toàn bộ các job đã được xây dựng ở các tầng được nêu trong các mục trước đó.

3.5.1, 3.5.2, 3.5.3, 3.5.4 và theo cách xử lý gửi thông báo lỗi tại mục 3.1.14.

Sequence job sẽ được thiết kế như sau:

Khi một job gặp lỗi trong quá trình thực hiện, hệ thống sẽ gửi thông báo chỉ rõ tầng nào gặp sự cố Ngược lại, khi tất cả các job hoàn thành thành công, một email thông báo sẽ được gửi để xác nhận tất cả các job đã chạy thành công.

4 J Mσotβ*t c∙ i fκ∙ Iloiw •’ Ihtf -UUYMi t∏M∏q IhfMar

Yeuthich Bộ toe ■ Status Job E-ban ki ng

O Ghi chu Cogrrervglion Hivt lχh SỪ Hdithoai

Khac Cuộc hội tho* rirơi MiCTOioh Team* etc reportteam@gmaii.com Slatut Iob E-banking StSiA job DWH ran tai

> ịRemmder] Char bao công IJ 401 CH Gih ill anh ch∣ em Do VJ rt⅛ ∣⅛1 e∏' g

MyAnaIytK* I Thế Uqng td> W IAnqA l -I etc repof∏eam ∣Remmtfer∣ Khta tɪao COng TĨ 401 CH

Gtf CMar nchiem DosoxuitnBnemg aa MyAnalytict

" MyAnaIyt CS I Thế trang tót τ? ¢10 SA

The job with status RIPCRT for L.SOURCE.STG was generated on May 19, 2021, at 08:33:38 The job started at the same time and ended with a lot time greater than 2Q21 It successfully processed 1001 rows in the CusttSSIONlOG stage, which began at 06:33:37 and concluded at 08:33:37, with a total elapsed time recorded as COOC02 The overall job status is marked as finished successfully.

I nk DSlink’ 1001 rows Stage: Trantfθffner.9 1001 rows input Stage start Mne=VOVI-OS-19 06 33 37 end Ivne=VQVI-OS 19 083337, elapsed -OOOOOO

Demo dữ liệu tại các tầng

Hình 3.48 Dữ liệu bảng IBS_CUSSESSIONLOG

Hình 3.49 Dữ liệu bảng IBS_BLENTERPRISE

STS- LF0 π>JT LFOTD-PT M USRAOfjmjR-

TTP LOC-DT OURN WR-CF-

IOG CNrrp XJiOfcMOfr frfrN BS IJTC-

IfcSfcSS OMBS NX3 F∙l' XIS X U 52 Sĩ ≡

IfcSfcSJ XtOJ XSS W XlfctOJ l ô2 IO L

IfcSfcSJ SOSIS JW MB R XPOJO

IXSkU JXJJ UiOiJ VAS R XUOJO

Hình 3.50 Dữ liệu bảng IBS_BLCUSTOMER

- Bảng IFS_IB_IDV_REF_USR:

Hình 3.51 Dữ liệu bảng IFS_IB_IDV_REF_USR

- Bảng IFS_IB_IDV_REF_USR_HIST:

Hình 3.52 Dữ liệu bảng IFS_IB_IDV_REF_USR_HIST

- Bảng IFS_IB_CUS_NON_IDV_MSTR:

Hình 3.53 Dữ liệu bảng IFS_IB_CUS_NON_IDV_MSTR

- Bảng IFS_USR_LGN_DTL:

► lunwed" ì ẳ XfKttfr X ► Xuntfred* ì IX RSUfrfrK IIS VSKlWfjm ì Table: IFS USR LGN DTL o⅛*t “■ c*erằ Dete T ≡

Tiêu đề	Xây Dựng Quy Trình Tích Hợp Dữ Liệu ETL Và Xuất Báo Cáo Cho Hệ Thống E-Banking Tại Ngân Hàng Thương Mại Cổ Phần Cộng Thương Việt Nam
Tác giả	Trương Thị Mai Quỳnh
Người hướng dẫn	ThS. Ngụ Thựy Linh
Trường học	Học viện Ngân hàng
Chuyên ngành	Hệ thống thông tin quản lý
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2021
Thành phố	Hà Nội

Định dạng
Số trang	92
Dung lượng	6,73 MB