Thông tin và xử lýthông tin: trình bày các khái niệm cơ sở của tin học như dữ liệu, thông tin, hệ đếm, phần cứng và phần mềm máy tính.... Trong phần này các tác giảcũng giới thiệu một số
THÔNG TIN VÀ xử LÝ THÔNG TIN
Thông tin và xử lý thông tin
1.1.1 Khái niệm vé thông tin (Informations) Đối với chúng ta, thông tin là một khái niệm rất quen thuộc và được sử dụng hàng ngày Thông tin giúp con người hiểu tốt hơn về đối tượng mà mình quan tâm, nhằm đưa ra các giải pháp giải quyết vấn đề một cách tối ưu trong những điều kiện có thể Trong tin học, thông tin được định nghĩa đơn giản như sau: Thông tin là tất cả những gì đem lại hiếu biết, nhận thức cho con người về đối tượng mình quan tám.
Thông tin không phải là một thực thể vật chất và không mang năng lượng nội tại, nhưng khi tham gia vào các hoạt động của con người, nó thể hiện khả năng vật chất của mình bằng cách gia tăng năng lượng Sự hỗ trợ của công nghệ thông tin và kỹ thuật truyền thông hiện đại đã làm cho sự gia tăng này trở nên đáng kể, thậm chí vượt xa những gì con người dự kiến.
Thông tin cung cấp cho chúng ta sự hiểu biết và làm tăng kiến thức về các sự vật, hiện tượng hoặc quá trình Vật mang tin có nhiều dạng thức khác nhau, nhưng lượng kiến thức mà nó chứa đựng là không đổi Giá trị của thông tin nhận được phụ thuộc vào đối tượng nhận tin; cùng một tin nhưng không phải ai cũng tiếp nhận được lượng thông tin như nhau Kết quả này còn phụ thuộc vào nhiều yếu tố liên quan đến thông tin đó.
Thông tin là một yếu tố khách quan, có khả năng được tạo ra, phát sinh, truyền tải, lưu trữ và chọn lọc Tuy nhiên, thông tin cũng có thể bị méo mó hoặc sai lệch do nhiều nguyên nhân, bao gồm cả việc xuyên tạc từ con người.
Thông tin và tín hiệu không luôn đồng nhất, vì một thông tin có thể được biểu đạt qua nhiều tín hiệu khác nhau Chẳng hạn, tiếng đại bác có thể được hiểu là tín hiệu của chiến tranh, nhưng cũng có thể là tín hiệu chào mừng một nguyên thủ quốc gia.
Dữ liệu, sau khi được tập hợp và xử lý, chuyển hóa thành thông tin có ý nghĩa Nó đóng vai trò là nguồn gốc và vật liệu sản xuất ra tin Trong khi thông tin mang ý nghĩa, dữ liệu thường là các dữ kiện không có cấu trúc rõ ràng nếu không được tổ chức Một thông tin có thể được biểu diễn qua nhiều dạng dữ liệu khác nhau Dữ liệu tự nhiên không có quy ước, trong khi dữ liệu do con người tạo ra cần có quy tắc để mã hóa thông tin.
Trong hệ thống số, cùng một đơn vị có thể được biểu diễn khác nhau; ví dụ, số 1 trong hệ thập phân là 1, trong khi trong hệ La-mã là I Thêm vào đó, các tín hiệu vật lý có thể mang ý nghĩa khác nhau tùy theo văn hóa; như gật đầu, ở nhiều quốc gia thể hiện sự đồng tình, nhưng đối với người Hy Lạp, nó lại biểu lộ sự bất đồng.
Mỏi tín hiệu có thể truyền tải nhiều thông điệp khác nhau, từ việc nâng ly rượu để chúc mừng hạnh phúc của đôi lứa, đến việc giã từ và gợi nhớ về một mối tình đã qua.
Dữ liệu có nhiều dạng khác nhau, có thể là:
• Tín hiệu vật lý (physical signal): tín hiệu điện, tín hiệu sóng điện-từ, tín hiệu ánh sáng, tín hiệu âm thanh, nhiệt độ, áp suất
Các số liệu, hay còn gọi là số, là những dữ liệu được biểu diễn bằng con số mà chúng ta thường gặp trong các bảng tính toán, thống kê và tài chính.
Chương I: Thông tin và xử lý thông tin 7
• Các ký hiệu (symbol) như các chữ viết (character) và các ký hiệu khắc trên tre, nứa, đá, trên bia, trên vách núi
• Văn bán, chữ viết (text, character): sách báo, truyện, thông báo, thông tư, công văn
• Âm thanh (sound): tiếng nói, âm nhạc, tiếng ồn
• Hình ảnh (image): phim ánh, tivi, camera, tranh vẽ
Trong bối cảnh thông tin bùng nổ và dữ liệu ngày càng gia tăng, lượng thông tin toàn cầu được ước tính tăng gấp đôi sau mỗi 20 tháng Sự thành công trong mọi lĩnh vực hiện nay phụ thuộc vào khả năng sử dụng thông tin một cách hiệu quả Điều này đòi hỏi việc khai thác các dữ liệu sẵn có để phát hiện những thông tin tiềm ẩn có giá trị, nhận diện xu hướng phát triển và các yếu tố tác động Quá trình này được gọi là phát hiện tri thức trong cơ sở dữ liệu (KDD), trong đó kỹ thuật khai phá dữ liệu đóng vai trò quan trọng trong việc rút ra tri thức.
Thông tin liên quan đến khái niệm độ bất định, mà mọi lượng chưa xác định đều mang một mức độ bất định nhất định Tính bất định này không cung cấp thông tin đầy đủ về đối tượng Độ bất định sẽ giảm khi có thêm thông tin và liên quan chặt chẽ đến xác suất - đo khả năng xảy ra của sự kiện Nếu một biến cố không bao giờ xảy ra, xác suất của nó là 0, trong khi xác suất của một biến cố chắc chắn xảy ra là 1 Giá trị xác suất nằm trong đoạn [0,1].
Tin tức có thể được định lượng thông qua việc đo lường độ bất định của hành vi và trạng thái Càng có ít xác suất xảy ra một sự kiện, lượng tin tức càng cao Năm 1948, Claude Shannon đã phát triển công thức để xác định độ bất định của sự kiện, được gọi là Entropi.
Trong một hệ có n khả năng khác nhau, Pị đại diện cho xác suất xuất hiện sự kiện i Chẳng hạn, khi gieo xấp ngửa đồng xu, xác suất xuất hiện mặt ngửa sẽ được tính toán dựa trên số khả năng có thể xảy ra.
Tin tức chỉ xuất hiện khi tối thiểu có hai trạng thái, hai khả năng
Mỗi trạng thái của đồng xu (xấp hoặc ngửa) đại diện cho một đơn vị đo thông tin là 1 bit Lượng thông tin trong một bit đủ để phân biệt giữa hai trạng thái có xác suất xuất hiện bằng nhau Trong mỗi thời điểm, một bit chỉ có thể lưu giữ một trong hai giá trị.
Bit, viết tắt của Binary Digit (chữ số nhị phân), là đơn vị cơ bản trong tin học Trong lĩnh vực này, các đơn vị bội của bit thường được sử dụng, như được thể hiện trong bảng 1.1.
Tên gọi Viết tắt Giá trị
Kilobyte KB 1024 bytes = 2’°B Megabyte MB 1024 KB = 210KB Gigabyte GB 1024MB = 2,0MB
Các hệ đếm và biểu diễn thông tin trong máy tính điện tử
1.2.7 Các thế hệ máy tính điện tứ
Máy tính điện tử có thê chia một cách tương đối thành các thế hệ sau đây:
Thế hệ 1 của máy tính, xuất hiện trong những năm 1940 - 1950, sử dụng đèn điện tử và có kích thước cồng kềnh Độ tin cậy của chúng còn thấp và tiêu thụ điện năng lớn, với tốc độ tính toán chỉ đạt 10.000 - 20.000 phép tính mỗi giây, đồng thời sử dụng ngôn ngữ máy.
- Thê hệ 2: ra đời vào những năm 1950 - 1960, dùng đèn bán dẫn, transistor và bộ nhớ ferit, tốc độ tính toán vài chục vạn phép tính/giây.
Thế hệ 3 của máy tính, xuất hiện từ những năm 1960 đến 1975, đánh dấu sự phát triển vượt bậc với việc sử dụng mạch tích hợp IC (Integrated Circuit) Thế hệ này có khả năng tính toán lên tới triệu phép tính mỗi giây và sự phát triển mạnh mẽ của ngôn ngữ lập trình bậc cao.
Thế hệ 4, ra đời từ năm 1975 đến nay, sử dụng mạch tích hợp cỡ lớn và bộ nhớ bán dẫn, cho phép thực hiện hàng chục triệu phép tính mỗi giây Với thiết bị ngoại vi hiện đại, thế hệ này cải thiện khả năng trao đổi thông tin giữa con người và máy tính, đồng thời ngày càng được sử dụng rộng rãi trong các mạng máy tính.
Hiện tại, chúng ta đang ở giai đoạn cuối của thế hệ thứ 4 trong công nghệ máy tính Nhiều dự án chế tạo máy tính thế hệ 5 đang được triển khai, với khả năng thực hiện hàng tỷ phép tính mỗi giây và giao tiếp giữa người và máy ngày càng gần gũi với ngôn ngữ tự nhiên.
1.3 CÁC HỆ ĐẾM VÀ BIỂU DIEN thông tin
Để đưa thông tin vào máy tính, cần sử dụng mã nhị phân để biểu diễn Vậy mã nhị phân là gì và tại sao chỉ sử dụng mã này thay vì mã khác? Bài viết này sẽ khám phá các hệ đếm để giải đáp những câu hỏi trên.
Hệ đếm là tổng thể các ký hiệu và quy tắc viết và đọc các số.
Trong hệ đếm La-mã, mỗi ký hiệu biểu thị 1 giá trị:
Quy tắc tính giá trị được dùng trong hệ đếm La-mã được áp dụng như sau:
Một biểu diễn với N ký hiệu giống nhau liên tiếp cho thấy ký hiệu đó được lặp lại N lần, và giá trị của biểu diễn này được tính bằng tích của các ký hiệu đó.
N nhân với giá trị của ký hiệu, ví dụ: II = 2; III = 3; XXX = 30.
Trong một biểu diễn, nếu ký hiệu có giá trị lớn hơn đứng trước, giá trị tổng của biểu diễn sẽ bằng tổng các giá trị của hai ký hiệu Ngược lại, khi ký hiệu lớn hơn nằm ở phía sau, giá trị của biểu diễn sẽ được tính bằng hiệu của các giá trị của hai ký hiệu.
Ví dụ: VI = 5 + 1 = 6; XI = 10 + 1 = 11; IV = 5 - 1 = 4;
Như vậy, mỗi giá trị có một giá trị duy nhất và không phụ thuộc vào vị trí của nó xuất hiện ở đâu trong biêu diễn.
Trong hệ thập phân, chúng ta sử dụng 10 chữ số từ 0 đến 9, được gọi là các chữ số hệ 10, với 10 là cơ số của hệ Khi đếm đến 10, chúng ta chuyển một đơn vị sang hàng bên trái, nghĩa là trọng số giữa hai hàng kề nhau chênh lệch 10 lần Vị trí của chữ số trong một số xác định giá trị của nó, thông qua việc nhân giá trị của chữ số với trọng số tương ứng.
Giá trị của một biểu diễn có thể viết dưới dạng một đa thức cúa cơ số.
Cần chú ý là trong ngôn ngữ máy tính theo quy ước của Mỹ, dấu chấm (.) là dấu ngãn cách giữa phẩn nguyên và phần thập phân.
Hệ đếm thập phân chỉ là một trượng hợp riêng khi chọn cơ số là
10 Thực ra bất kỳ một hệ tự nhiên b nào lớn hơn một đều có thể chọn làm cơ sô' cho hệ đếm Các ký hiệu được dùng cho hệ đếm đó sẽ là các giá trị: 0, 1, , b - 1.
Chương 1: Thông tin và xử lý thông tin 25
Một số N trong hệ đếm cơ số b được biểu diễn:
N = (dn.| dn.2 d| d„, d.| d,2 d„,)b và giá trị của N được tính theo công thức:
N = dn I b"'1 + dn.2bn‘2 + + c'„b" + d., b 1 + + d.mbm, trong đó các điều kiện thỏa mãn là 0 < d, < b Ở đây, n đại diện cho số lượng chữ số bên trái, trong khi m là số lượng chữ số bên phải dấu phân cách phần nguyên và phần phân số.
1.3.2 Hệ đếm nhị phản và hệ đếm cơ sô 8, 16
Người ta thường dùng một sô hệ đêm sau:
- Hệ đém nhị phán là hệ đếm có cơ sổ bằng 2, nghĩa là chỉ dùng chữ số 0 và chữ số 1 làm ký hiệu Ví dụ: 0, 1, 10, 101, 101101.
Người ta gọi mỗi chữ số trong hệ nhị phân đó là 1 bit (viết tắt từ tiếng Anh Binary Digit) Như đã nói ở bài trước, một độ dài 8 bít
(8 chữ số nhị phân) được gọi là 1 byte.
Cách đọc sô' nhị phán: Trong hệ nhị phân, số 10 không được đọc là
Trong hệ nhị phân, số “10” được đọc là “một-không”, không nên đọc là “mười” vì như vậy sẽ nhầm lẫn với hệ thập phân Cần hiểu rằng số 10 trong hệ nhị phân tương đương với giá trị 2 Tương tự, số 1101 trong hệ nhị phân có giá trị là 13, được tính bằng công thức 1*2³ + 1*2² + 0*2¹ + 1*2⁰ = 13.
- Hệ đêm bát phán là hệ đếm có cơ sô bàng 8, sử dụng các chữ số
- Hệ đếm mười sáu còn gọi là hệ Hexa là hệ đếm có cơ số bằng mười sáu, sử dụng các ký hiệu: 0, 1,2, 3, 4, 5, 6, 7, 8, 9, A, B, c, D, E, F
Trong một số trường hợp, để nhận biết hệ đếm của một số, người ta thường sử dụng chỉ số cơ số kèm theo số đó Ví dụ, các số có thể được biểu diễn như 1001₂, 68₁₀, 81₆ Bảng ỉ.3 minh họa cách biểu diễn các số nguyên đầu tiên trong các hệ đếm khác nhau.
Bảng 1.3: Biển diễn các số nguyên đầu của hệ đếm 2, 8, 10, 16
1.3.3 Biến đổi sô ở hệ đếm bất kỳ sang hệ đếm thập phân
Cho số N trong hệ đếm cơ sô' b:
N = (d„.| dn-2 d(), d.| d.m)h Để tìm biểu diễn của N trong hệ đếm thập phân, ta tiến hành các bước sau:
1 Viết N dưới dạng đa thức:
2 Sử dụng phép toán của hê đếm thập phân tính giá trị đa thức.
Ví dụ: 1010,12 = ?10 Thực hiện theo giải thuật trên, ta có:
Chương I: Thông tin và xử lý thông tin 27
1.3.4 Biến đổi số ớ hệ đếm thập phán sang hệ đếm có cư sỏ bất kỳ
Để giải quyết bài toán, trước tiên ta tách phần nguyên và phần thập phân Sau đó, thực hiện biến đổi riêng cho từng phần, cuối cùng ghép lại để có được kết quả mong muốn.
Cho N là sô' tự nhiên, ta có thê viết N dưới dạng đa thức như sau:
N = d„.|b"‘1+ + d|b'+ d(l (1) với 0 < d, < b Khi chia N cho b thì phần dư của phép chia là d(l còn thương số N1 (phần nguyên) sẽ là:
Trong phép chia số nguyên NI cho b, phần dư được ký hiệu là d, và thương là N2 Quá trình chia này được thực hiện liên tiếp để thu được các giá trị d Để có được biểu diễn mong muốn, các phần dư cần được sắp xếp theo thứ tự ngược lại Ví dụ, nếu ta thực hiện phép chia 26, chúng ta sẽ nhận được các phần dư tương ứng.
Báng dưới đây minh họa quá trình thực hiện theo giải thuật nói trên i Phép chia Phần nguyên Sò dư d,.,
Các bước thực hiện như bảng dưới đây: i Phép chia Phẩn nguyên Số dư dM
Do vậy, ta có 2700|0 = A8C |fi h Biên đôi phần lẻ
Ký hiệu N f là phần lẻ (phần sau dấu phẩy thập phân) Phần lẻ này có thể được biểu diễn dưới dạng đa thức như sau:
Nhân 2 vế của (1’) với b, ta thu được: bNF = d.,b"+ + d.mb’m+l
Ta thấy, d.| là phần nguyên của kết quả phép nhân Phần lẻ của kết quả là:
Bằng cách lặp lại phép nhân như ở (2’), chúng ta có thể xác định rằng d.2 là phần nguyên Khi thực hiện liên tiếp các phép nhân theo cách này, chúng ta sẽ thu được dãy số: d.ị, d.2, , d.m, trong đó có điều kiện 0 < d.ị < b Đây chính là giá trị của các chữ số trong biểu diễn mà chúng ta cần tìm.
Ví dụ: 0,7123 10 = ? 2 Ta lập bảng và làm như sau: i Phép nhân Kết quà Phần nguyên d.1
Chương 1: Thông tin và xử lý thông tin 29
Ví dụ: 0,765|(l =?16 Quy trình biến đối như sau: i Phép nhân Kết quả Phần nguyên d.
Phần mém và ứng dụng
Thông tin trong các lĩnh vực văn hóa, khoa học, kỹ thuật và kinh tế đang gặp khó khăn trong việc lưu trữ dữ liệu dạng văn bản Điều này chủ yếu do ảnh hưởng của thời tiết, khí hậu và độ ẩm, dẫn đến những hạn chế trong việc bảo quản và quản lý thông tin.
Dữ liệu âm thanh và hình ảnh, đặc biệt là dữ liệu đa phương tiện với hình ảnh động và âm thanh sống động, đang ngày càng thu hút sự chú ý Loại dữ liệu này mang lại nhiều ưu điểm vượt trội so với các loại dữ liệu khác và đang trở thành xu hướng trong nhiều ngành công nghiệp.
Các thiết bị và chương trình xứ lý âm thanh thực hiện chủ yếu các chức năng sau đây:
1 Tiếp nhận âm thanh từ một nguồn phát từ môi trường bên ngoài
2 Biểu diễn âm thanh dưới dạng số và lưu trữ chúng
3 Xử lý, lọc nhiễu, điều chinh lại chất lượng âm thanh (cao độ, trường độ, chuẩn âm)
4 Nhận dạng và tổng hợp âm thanh, ví dụ để tạo ra tiếng nói. Một dạng đặc biệt khác của dữ liệu được gọi là tri thức, bao gồm các sự kiện và luật dẫn Ví dụ có sự kiện là bạn Lý đạt điểm cao nhất trong sau khóa học Lập trình viên Công nghệ thông tin thì chắc chắn bạn đó sẽ được một suất đi tham quan một tuần tại nước ngoài vì suất này chỉ dành cho những ai đạt thành tích cao nhất (luật dẫn).
1.4 PHẦN MEM VÀ ỨNG DỤNG
Ngôn ngữ lập trình đã trải qua bốn thế hệ phát triển Thế hệ đầu tiên là ngôn ngữ máy, tiếp theo là thế hệ thứ hai vào những năm 1950, sử dụng các ký hiệu như ADD (cộng), SUB (trừ), LOAD (nạp) Thế hệ thứ ba xuất hiện với các ngôn ngữ lập trình cấp cao như FORTRAN, ALGOL, COBOL, cho phép lập trình viên viết các câu lệnh tiếng Anh như IF, THEN, ELSE, PRINT Cuối cùng, thế hệ thứ tư bao gồm các ngôn ngữ như Visual Basic, Visual C++, Delphi và JAVA, mang lại trải nghiệm thân thiện hơn cho người dùng.
Có nhiều phần mềm khác nhau Có thể chia làm ba loại chính: phần mềm hệ thống, phần mềm phát triển và phần mềm ứng dụng.
1.4.2 Phần mềm hệ thông (System Software)
Phần mềm hệ thống bao gồm các chương trình hướng dẫn các hoạt động cơ bản của máy tính, như hiển thị thông tin, lưu trữ dữ liệu, in ấn và giao tiếp với thiết bị ngoại vi Được thiết kế để phục vụ đông đảo người dùng, phần mềm hệ thống thường được các chuyên gia lập trình biên soạn và phân phối trên thị trường Các lập trình viên thường sử dụng ngôn ngữ cấp thấp để tạo ra các bản dịch chất lượng cao, giúp tiết kiệm thời gian và bộ nhớ của máy tính Phần mềm hệ thống được chia thành nhiều loại khác nhau.
Hệ điêu hành (Operating System)
Hệ điều hành là tập hợp các chương trình hệ thống quản lý và phối hợp các bộ phận phần cứng, giúp thực hiện các chương trình của người dùng Nó cung cấp dịch vụ hỗ trợ như lưu trữ, tìm kiếm thông tin trên đĩa, và in ấn kết quả, giảm nhẹ công việc cho người dùng.
Các hệ điều hành phổ biến như MS-DOS, Windows XP, Unix và Linux được thiết kế để giúp người dùng quản lý tài nguyên và công việc của họ một cách hiệu quả.
Các chương trình tiện ích (Utilities)
Các chương trình này thuộc về phần mềm hệ thống, cung cấp các dịch vụ bổ sung cần thiết cho nhiều người dùng mà hệ điều hành chưa đáp ứng đủ.
Hệ điều hành tích hợp nhiều chương trình tiện ích, giúp thực hiện các nhiệm vụ quan trọng như chuẩn bị đĩa từ để lưu trữ dữ liệu, cung cấp thông tin về các tệp trên đĩa và sao chép dữ liệu giữa các đĩa khác nhau.
Chương 1: Thông tin và xử lý thông tin 35
Norton Utilities, do công ty Symantec phát hành, là bộ sưu tập các chương trình tiện ích nổi tiếng giúp người dùng sao chép và khôi phục dữ liệu từ các đĩa hỏng Bộ chương trình này còn cung cấp giải pháp bảo mật dữ liệu hiệu quả bằng cách ẩn các tệp quan trọng và hỗ trợ khắc phục sự cố ổ đĩa.
Các chương trình điều khiển thiết bị (Device Drivers)
Khi lắp đặt thiết bị ngoại vi như ổ CD-ROM hay máy in, cần cài đặt chương trình để máy tính có thể sử dụng và giao tiếp với thiết bị Mỗi thiết bị mới đều đi kèm với hướng dẫn cài đặt chương trình điều khiển.
Các chương trình dịch là phần mềm hệ thống có chức năng chuyển đổi mã nguồn viết bằng các ngôn ngữ lập trình như Basic, Visual Basic, C++ thành ngôn ngữ máy.
1.4.3 Phần mềm ứng dụng (Application Software)
Các chương trình này giúp giải quyết các bài toán cụ thể như soạn thảo tài liệu, vẽ đồ thị, sáng tác nhạc, chơi trò chơi, và quản lý tài chính, nhân sự cũng như vật tư.
Các chương trình ứng dụng rất đa dạng, cho phép người dùng tự biên soạn hoặc thuê biên soạn phần mềm phù hợp với các bài toán thực tế Những chương trình này thường được viết bằng ngôn ngữ cấp cao như Cobol, Pascal, và Visual Basic, hoặc sử dụng các ngôn ngữ xử lý dữ liệu từ các bộ chương trình quản lý như dBASE, FoxPro, và Oracle Việc sử dụng các ngôn ngữ này giúp chương trình dễ hiểu và dễ bảo trì.
Phần mềm ứng dụng được chia thành 4 loại: Phần mềm năng suất, phần mềm kinh doanh, phần mềm giáo dục - tham khảo và phần mềm giải trí.
Phần mềm năng suất (Productivity Software)
Phần mềm này hỗ trợ người dùng nâng cao hiệu quả làm việc và tăng năng suất Những ứng dụng phổ biến trong loại phần mềm này bao gồm hệ soạn thảo văn bản, chương trình bảng tính và hệ quản trị cơ sở dữ liệu.
Ngoài ra còn có các bộ chương trình để gửi và nhận thư điện tử, đồ họa, xuất bản, lập lịch
Hệ soạn thảo như Winword giúp người dùng biên soạn các tài liệu, công vãn, thư từ, với nhiều tính năng độc đáo.