Phân tích dữ liệu

Một phần của tài liệu Giáo trình phân tích thiết kế hệ thống Thầy Khánh (Trang 52 - 56)

CHƯƠNG 3 PHÂN TÍCH HIỆN TRẠNG

II. T ổNG HợP CÁC KếT QUả PHÂN TÍCH HIệN TRạNG

II.2. Phân tích dữ liệu

Phân tích dữ liệu là để :

Thanh lọc các dữ liệu đồng nghĩa và nhiều nghĩa từ danh sách dữ liệu “thô” thu nhập qua các buổi phỏng vấn

Xây dựng từ điển dữ liệu (Data Dictionary) là tập hợp từ vựng chính xác mà mọi người tham gia dự án đều đồng ý.

Các bước phân tích dữ liệu được cho ở . II.2.1.Khái nim v d liu sơ cp

Một dữ liệu được xem là sơ cấp khi toàn bộ các ký tự tạo nên dữ liệu luôn luôn được sử dụng một cách có hệ thống. Xét 2 ví dụ sau :

Ví dụ:

Giả sử dữ liệu mã sản phẩm có tên MãHàng có giá trị H025 có mặt trong cơ sở dữ liệu là do hai dữ liệu ghép lại : chữ H có ý nghĩa rằng sản phẩm thuộc về một loại đặc biệt nào đó và 025 là số của sản phẩm. Như vậy :

Loại sản phẩm có giá trị thay đổi, là một chữ cái từ A đến Z.

Số của sản phẩm có giá trị thay đổi từ 0 đến 999.

Nếu như khái niệm về loại sản phẩm không có mặt trong ứng dụng đang xét, ta có thể xem rằng MãHàng là sơ cấp.

Hình 3.24 Phân tích dữ liệu Ví dụ :

Dữ liệu địa chỉ khách hàng ĐịaChỉKH được xem là dữ liệu sơ cấp nếu được dùng làm địa chỉ thư tín, công văn.

1. Xử lý dữ liệu không sơ cấp

2. Thanh lọc dữ liệu

3. Xây dựng từ điển dữ liệu Dữ liệu thô

Dữ liệu sơ cấp

Dữ liệu đã thanh lọc

Từ điển dữ liệu Các công thức tính toán

Loại bỏ dữ liệu đồng nghĩa và nhiều nghĩa

Tính thích đáng của dữ liệu tính toán nghĩa

Trái lại, nếu cần lập danh sách khách hàng của một thành phố, hoặc của một tỉnh, thì bản thân ĐịaChỉKH là dữ liệu hỗn hợp và phải được phân chia thành các dữ liệu sơ cấp. Ta có thể phân chia như sau :

SốNhàKH Số nhà của khách hàng. Ví dụ : 17.

PhốKH Tên phố (hoặc tên đường, hẻm...) khách hàng lưu trú. Ví dụ Lê Duẩn.

MãBĐ Mã bưu điện của khách hàng (Việt nam chưa có).

TPKH Tên thành phố nơi khách hàng lưu trú. Ví dụ Đà Nẵng.

QuốcGia Tên nước (nếu có). Ví dụ Việt nam.

Ta thấy rằng mà bưu điện MãBĐ nếu có là dữ liệu hỗn hợp do mã tỉnh và mã huyện ghép lại.

II.2.2.Thanh lc d liu

Khi xây dựng một từ điển dữ liệu, cần phải phân tích dữ liệu thành các dữ liệu sơ cấp theo quan hệ dữ liệu − tên gọi dữ liệu. Sự không phù hợp của dữ liệu thể hiện ở hai dạng cần xử lý : các dữ liệu đồng nghĩa và các dữ liệu nhiều nghĩa

a) Dữ liệu đồng nghĩa

Dữ liệu đồng nghĩa là tên gọi khác để chỉ cùng một loại dữ liệu, một sự kiện. Như vậy, một dữ liệu có thể có hai tên gọi khác nhau, dẫn đến sự dư thừa thông tin. Cho nên, với một dữ liệu chỉ nên có một tên dữ liệu.

Ví dụ : Mã số mặt hàng, danh mục mặt hàng.

Đơn giá, giá đơn vị.

Trong ví dụ đang xét, những tên dữ liệu MãKH và SốHĐĐặtHg đều có nghĩa rằng những khách hàng này đã đặt hàng tại XN DanaFood. Ở đây chỉ nên có một tên dữ liệu là MãKH.

b) Các dữ liệu có nhiều nghĩa

Dùng cùng một tên để chỉ các đối tượng, sự kiện khác nhau.

Ví dụ : Tài khoản trong một cơ sở sản xuất kinh doanh để theo dõi các hoạt động sản xuất kinh doanh. Tài khoản trong ngân hàng để theo dõi tiền rút, tiền gửi của khách hàng.

Dữ liệu SLSX sử dụng trong phòng Kinh doanh chỉ ra số lượng sản phẩm cần sản xuất để đáp ứng một đơn đặt hàng nhưng trong kho lưu trữ không còn đủ bán.

SLSX cũng được dùng để chỉ ra số lượng cần sản xuất thực sự của phân xưởng sản xuất theo nhu cầu của đơn đặt hàng và những ràng buộc về sản xuất.

Như vậy, số lượng sản xuất là một tên dữ liệu, nhưng có hai cách sử dụng khách nhau, gọi là dữ liệu có nhiều nghĩa.

Trong một hệ quản trị CSDL, tên dữ liệu chỉ có thể tương ứng với một dữ liệu.

Như vậy, có thể dùng hai tên dữ liệu :

− SLĐặt : Số lượng do phòng Kinh doanh đặt hàng.

− SLSX : Số lượng thực sự phải sản xuất.

II.2.3.Xây dng t đin d liu

a) Nguyên lý thích đáng Ví dụ :

Xét dữ liệu số lượng đặt hàng SLĐặt. Phân xưởng sản xuất nhận tất cả đơn đặt hàng của khách hàng chuyển đến (từ phòng Kinh doanh). Có thể suy ra số lượng cần sản xuất từ những dữ liệu cần có (trạng thái kho lưu trữ hiện hành, số lượng đang sản xuất, và số lượng đặt hàng) để thỏa mãn nhu cầu của khách hàng.

Như vậy, dữ liệu SLĐặt là vô ích và sẽ không có mặt trong từ điển dữ liệu.

b) Các dữ liệu tính toán

Cần phân biệt trong số những dữ liệu tính toán :

1. Những dữ liệu có thể được xác định ở mọi thời điểm nhờ những dữ liệu sơ cấp có trong CSDL.

Ví dụ 1 :

Số tiền giảm giá cho mỗi đơn đặt hàng STGiảm phụ thuộc vào doanh số của năm trước và doanh số có được các tháng từ đầu năm cho đến tháng khách hàng đăng ký đặt hàng.

Trong năm, những dữ liệu này luôn có mặt và không bị thay đổi, cho nên, để dữ liệu STGiảm trong cơ sở dữ liệu là không cần thiết.

Ví dụ 2 :

Giá trị của dữ liệu SLDựTrữ có thể được xác định tại mọi thời điểm buôn bán thoả thuận.

Như vậy, dữ liệu này cũng không cần để trong cơ sở dữ liệu.

2. Những dữ liệu làm cho các dữ liệu trong cơ sở dữ liệu có thể tiến triển.

Ví dụ : Số tiền trong một đơn đặt hàng GiáTiền được tính từ số lượng sản phẩm đặt hàng và giá đơn vị của sản phẩm. Số lượng đặt hàng chỉ liên quan đến đơn đặt hàng và không thể thay đổi theo thời gian.

Ngược lại, giá đơn vị của sản phẩm có thể thay đổi (do nhiều lý do), GiáTiền của đơn đặt hàng sẽ được tính lại sau một thời gian nào đó và sẽ khác với số tiền xác định tại thời điểm đặt hàng. SôTiền phải có mặt trong cơ sở dữ liệu (có thể lưu giữ giá đơn vị của sản phẩm liên quan tại thời điểm đặt hàng).

Trong ví dụ này, mọi dữ liệu dù tính toán hay không đều có mặt trong từ điển dữ liệu. Tuy nhiên, trong những bước phân tích về sau, những dữ liệu tính toán có thể được xác định ở mọi thời điểm, chẳng hạn STGiảm, sẽ không còn trong từ điển.

c) Cách biểu diễn từ điển dữ liệu

Từ điển dữ liệu là một danh sách các dữ liệu được sử dụng trong hệ thống thông tin, với một số đặc trưng tên, kiểu, lĩnh vực sử dụng, các quy tắc tác động. Dưới đây là mẫu mô tả từ điển dữ liệu :

STT Tên dữ liệu Loại Mô tả kiểu dữ liệu Công thức

Trong đó :

STT Số thứ tự của dữ liệu.

Dữ liệu Diễn giải dữ liệu đã liệt kê trong bảng dữ liệu sơ cấp,

ở đây chỉ liệt kê tên dữ liệu theo thứ tự ABC để dễ tìm kiếm.

Loại TT chỉ dữ liệu tính toán, KTT chỉ dữ liệu không tính toán.

Mô tả kiểu dữ liệu có hai cách xác định : hoặc kiểu dữ liệu và độ rộng của dữ liệu :

N Dữ liệu số N6 Số có 6 chữ số.

N6.2 Số có 8 chữ số với 2 chữ số lẻ (sau dấu chấm thập phân).

C Dữ liệu văn bản (ký tự) D Ngày tháng năm.

L Dữ liệu Logic (true, false) hoặc chỉ kiểu mở rộng :

1, 2, 3 Chỉ nhận 3 giá trị số là 1, 2, hoặc 3

xanh, đỏ, vàng, tím Chỉ nhận 4 giá trị loại văn bản là xanh, đỏ, vàng, tím.

v.v...

Công thức Mỗi dữ liệu có giá trị nhận được bằng cách áp dụng một công thức sẽ được ký hiệu bởi CT1, CT2, ... và được trình bày sau từ điển.

Mỗi công thức tương ứng với một công thức tính toán hoặc một cấu trúc lập trình (lựa chọn), hoặc tổ hợp cả hai.

Ví dụ :

Công thức tính toán :

GiáTiền = ĐơnGiá * SốLượng

STGiảm = GiáTiền × tỷ lệ giảm Cấu trúc lập trình :

IF DoanhSố > 10 000 000 THEN STGiảm = 10%

ELSE STGiảm = 0%

ENDIF

Các phép toán logic NOT, AND và OR có thể sử dụng trong các công thức.

Một phần của tài liệu Giáo trình phân tích thiết kế hệ thống Thầy Khánh (Trang 52 - 56)

Tải bản đầy đủ (PDF)

(170 trang)