VAI TRÒ CỦA CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN TRONG CÔNG TÁC DẠY VÀ HỌC
Các dữ liệu đa phương tiện
Dữ liệu văn bản là tập hợp các ký tự được xử lý từ các phần mềm như soạn thảo và xử lý văn bản, bao gồm các thuộc tính như chữ đậm, chữ nghiêng, gạch chân và kiểu chữ Nó cho phép định dạng đoạn văn với các yếu tố như thụt lề, đầu lề và dòng Dữ liệu văn bản được coi là loại dữ liệu rời rạc và là hình thức thông tin cơ bản nhất trong việc biểu diễn thông tin Các loại dữ liệu văn bản điển hình bao gồm
Dữ liệu văn bản có cấu trúc như: Tác giả, Tiêu đề, chương, bảng…;
Dữ liệu văn bản phi cấu trúc nhƣ: kiểu chữ, cỡ chữ, font chữ; văn bản đánh dấu: Tách biệt nội dung và cấu trúc
Vấn đề liên quan đến văn bản bao gồm việc thu nhận văn bản từ bàn phím và tự động qua nhận dạng hình ảnh, cũng như các quy trình xử lý, chỉnh sửa và biên tập Các nguyên tắc quan trọng là tách biệt nội dung và cấu trúc, mã hóa và nén, với nén không mất thông tin Ngoài ra, việc hiển thị và cảm nhận văn bản cũng cần được chú trọng Một trong những thách thức phổ biến là sự không tương thích giữa các định dạng văn bản khác nhau.
Có thể kể đến những vấn đề liên quan tới văn bản nhƣ sau:
Mã hóa văn bản: Mã ASCII có mã tiêu chuẩn 7 bít, có mã mở rộng 8 bít
Các thao tác trên văn bản: thao tác trên ký tự, thể hiện thông qua ký tự
Các thao tác trên xâu: Thao tác trên chuỗi ký tự
Soạn thảo văn bản và biên tập văn bản: các thao tác thay đổi khuôn dạng và cấu trúc của văn bản
Định dạng văn bản: thực hiện các thao tác đặt các thuộc tính về bố trí văn bản
So sánh mẫu và tìm kiếm mẫu cho trước: tìm kiếm bằng cách so sánh với mẫu hoặc các tiêu chí tìm kiếm
Phân văn bản theo các tiêu chí xác định
Một số phần mềm chỉnh sửa Font chữ: fontcreator, fontographer, metafont…
Fontcreator là phần mềm chỉnh sửa Font chữ nổi bật với giao diện thân thiện, giúp người dùng dễ dàng tạo và chỉnh sửa Font một cách hiệu quả thông qua các công cụ vẽ tiện lợi.
Hình 1.1 Giao diện phần mềm FontCreator v6.2
Fontographer là công cụ đơn giản và hiệu quả để tạo ra phông chữ độc đáo phục vụ cho in ấn, truyền thông và ứng dụng trực tuyến Phần mềm này dễ sử dụng, cho phép người dùng tạo phông chữ với các ký hiệu số và ký tự nước ngoài, đồng thời hỗ trợ việc thiết kế kiểu chữ hoàn chỉnh từ những bước cơ bản.
Hình 1.2 Giao diện phần mềm Fontographer 4.1
Dữ liệu âm thanh là tập hợp các định dạng âm thanh, cho phép lưu trữ dữ liệu âm thanh trên hệ thống máy tính Đây là một thành phần quan trọng trong dữ liệu đa phương tiện, bao gồm nhiều loại âm thanh khác nhau.
Âm thanh có thoại: Nhƣ bản nhạc mà tổng phổ phần chính và phần hòa âm, ca từ (văn bản) gồm làn điệu và tiết tấu
Âm thanh không có thoại: Gồm có tiếng động, tiếng tự nhiên…
Dữ liệu âm thanh được số hóa trên đĩa thường trải qua quá trình xử lý trong phòng thu âm, sử dụng phần mềm hoặc thiết bị xử lý âm thanh để cải thiện chất lượng âm thanh.
Phần mềm CoolEdit: Cho phép lọc nhiễu lọc ồn;
Hình 1.3 Giao diện phần mềm CoolEdit 2.0
Thiết bị Equaliser là một bộ cân bằng âm thanh, được thiết kế để điều chỉnh tính chất âm thanh khi tín hiệu âm thanh đi qua Nó sử dụng nhiều bộ lọc điện tử, mỗi bộ lọc hoạt động theo nguyên lý tăng giảm tín hiệu của từng dải tần số Có nhiều loại Equaliser khác nhau, mỗi loại có các nút điều khiển riêng biệt, điều này có thể gây khó khăn trong việc phân biệt Equaliser cho phép người dùng điều chỉnh tần số, tăng cường âm Bass, và cải thiện chất lượng âm thanh, mang lại âm thanh nổi bật hơn.
Tín hiệu âm thanh là tín hiệu liên tục, thường có dạng sóng hình sin Để số hóa âm thanh, ta cần chia thời gian thành các khoảng nhỏ và mã hóa biên độ âm thanh thành các con số nhị phân tương ứng Hiện nay, có nhiều phần mềm hỗ trợ các định dạng âm thanh khác nhau.
MP3 (MPEG Layer 3) là định dạng tập tin âm thanh phổ biến, được sử dụng rộng rãi trong nhiều chương trình và thiết bị âm thanh cầm tay khác nhau.
Windowns media audio: Là một phầm mềm loại định dạng phổ biến đƣợc Microsoft sản xuất, đây là công nghệ nén nhạc độc quyền của công nghệ Windows Media
Audio real: Là phần mềm đƣợc thiết kế âm thanh cho các tuyến âm thanh trên Internet
Dữ liệu hình ảnh bao gồm các tệp định dạng hình ảnh được số hóa hoặc chụp bằng máy quét và máy ảnh kỹ thuật số, thể hiện một nội dung cố định.
Tín hiệu ảnh là tín hiệu hai chiều liên tục trong không gian, và để xử lý hình ảnh, cần phải số hóa, chuyển đổi tín hiệu liên tục thành tín hiệu rời rạc Chất lượng hình ảnh hiển thị trên màn hình phụ thuộc vào khả năng biểu diễn màu sắc, dung lượng bộ nhớ RAM, khoảng cách giữa các điểm ảnh và tốc độ quét trong quá trình lưu ảnh Mỗi hình ảnh được cấu thành từ các phần tử gọi là điểm ảnh, với mỗi điểm ảnh được xác định bởi một cặp tọa độ x, y và màu sắc.
Hình 1.4 Biểu diễn ảnh với độ phân giải khác nhau
Nhận dạng ảnh là quá trình phân loại các đối tượng trong ảnh dựa trên một mô hình nhất định, từ đó gán chúng vào các lớp theo quy luật và mẫu chuẩn Có ba cách tiếp cận chính trong nhận dạng ảnh.
Nhận dạng dựa trên phân hoạch không gian
Nhận dạng dựa trên cấu trúc
Nhận dạng dựa vào kỹ thuật mạng Noron
Nén ảnh, hay mã hóa ảnh, là quá trình giảm thiểu thông tin dư thừa trong ảnh gốc, giúp tạo ra ảnh có kích thước nhỏ hơn nhiều so với bản gốc Có nhiều phương pháp nén ảnh khác nhau, mỗi phương pháp mang lại kết quả khác biệt Dựa trên nguyên lý nén, có thể phân loại thành hai phương pháp nén chính.
Nén chính xác hay nén không mất mát thông tin là các phương pháp nén cho phép thu được dữ liệu ảnh gốc một cách chính xác sau khi giải nén.
Nén có mất mát thông tin: Các phương pháp nén này sau khi giải nén ta không thu đƣợc dữ liệu nhƣ bản gốc
Dữ liệu hình động: là một tập hợp các tệp hình động, hình động có thể do phần mềm động tạo ra
Hình động là tập hợp các hình tĩnh liên quan đến nội dung trong một khoảng thời gian, tạo ra cảm giác chuyển động khi xem nhanh các khung hình Khi các khung hình tĩnh được gắn vào một sự kiện, chúng tạo thành cảnh, và nhiều cảnh kết hợp lại sẽ hình thành một đoạn video clip Hình động thường được áp dụng trong quảng cáo, thương mại và giáo dục.
Vai trò của dữ liêu đa phương tiện trong quá trình nhận thức của con người 15 1 Phương pháp học tập cổ điển
Con người thể hiện nhu cầu và trạng thái tâm lý thông qua nhiều hình thức như chữ viết, hình vẽ tĩnh, hoạt hình, âm thanh, tạo thành dữ liệu đa phương tiện Những hành động và trạng thái tâm lý này được lưu trữ dưới dạng dữ liệu, giúp chúng ta liên kết và so sánh các sự kiện, hiện tượng trước và sau trong quá trình nhận thức của con người.
1.2.1 Phương pháp học tập cổ điển
Quá trình dạy học bao gồm các yếu tố cơ bản như mục tiêu, nội dung, phương pháp, phương tiện, hình thức tổ chức và đánh giá kết quả Mỗi yếu tố này đóng vai trò quan trọng, tạo ra mối liên kết nhân quả trong toàn bộ hệ thống dạy học.
Học là quá trình tiếp nhận và chuyển hóa kiến thức từ giáo viên và sách vở thành tri thức cá nhân, nhằm đáp ứng nhu cầu cụ thể trong học tập Để đạt hiệu quả, việc học cần phải có phương pháp rõ ràng và cụ thể.
Dạy và học bằng phương pháp cổ điển là hệ thống các hành động của người dạy nhằm tổ chức hoạt động nhận thức và thực hành của người học, đảm bảo họ lĩnh hội được nội dung học vấn Phương pháp truyền thống này tập trung vào người dạy, với vai trò trung tâm trong quá trình giáo dục Theo nhà xã hội học và nhà giáo dục nổi tiếng Brazil, Paulo Freire, phương pháp này có những đặc điểm riêng biệt trong cách tiếp cận giáo dục.
Hệ thống ban phát kiến thức là quá trình truyền tải thông tin từ người dạy sang người học, trong đó người dạy đóng vai trò là “kho tri thức” và người học là người tiếp nhận thông tin Nội dung giảng dạy được quy định bởi chương trình học, với tất cả người học tiếp thu cùng một nội dung tại một thời điểm Người học thường ghi nhớ các sự kiện và phân tích thông tin một cách độc lập, trong khi người dạy lựa chọn hoạt động và tài liệu phù hợp Phương pháp dạy học chủ yếu dựa vào việc người dạy cung cấp thông tin trên bục giảng, giúp người học đạt được kỹ năng và kiến thức qua các bài học ngắn, tách rời nhau Để đánh giá, người dạy yêu cầu học sinh làm bài thi bằng bút, giấy, và kết quả được thể hiện qua điểm số từ các bài kiểm tra.
Công nghệ giảng dạy: người dạy sử dụng nhiều loại công nghệ khác nhau để giải thích chứng minh và minh họa cho các chủ đề khác nhau
Phương pháp dạy học truyền thống có hiệu quả khi thông tin khó tìm thấy ở nơi khác, giúp trình bày nhanh chóng và thu hút sự quan tâm của người học, đồng thời phát triển kỹ năng lắng nghe Tuy nhiên, phương pháp này cũng có những hạn chế, như không phải tất cả người học đều có khả năng lắng nghe tốt, sự chú ý thường không duy trì lâu, và khả năng tiếp thu thông tin còn hạn chế, dẫn đến việc chưa phát huy hết tiềm năng của người học.
1.2.2 Học tập tương tác, tích cực
Phương pháp dạy học tích cực: là dạy học bằng hướng phát huy tính tích cực, chủ động, sáng tạo của người học
Trong phương pháp dạy học tích cực, thuật ngữ "tích cực" được hiểu là hoạt động và chủ động, phản ánh sự tham gia của người học, trái ngược với trạng thái không hoạt động và thụ động, chứ không phải là sự đối lập với tiêu cực.
Phương pháp dạy học tích cực tập trung vào việc khuyến khích hoạt động nhận thức của người học, nhấn mạnh sự chủ động của họ thay vì của người dạy Để thực hiện phương pháp này, giáo viên cần nỗ lực hơn so với các phương pháp thụ động Đổi mới cách học cần đi đôi với đổi mới cách dạy, vì cách dạy sẽ chỉ đạo cách học, trong khi thói quen học tập của học sinh cũng ảnh hưởng đến phương pháp giảng dạy Có những trường hợp học sinh yêu cầu phương pháp dạy tích cực nhưng giáo viên chưa đáp ứng kịp thời, hoặc ngược lại, giáo viên muốn áp dụng phương pháp tích cực nhưng không thành công do học sinh vẫn quen với lối học thụ động.
Học tập tích cực là quá trình nhận thức chủ động, thể hiện sự ham hiểu biết và ý chí cố gắng trong việc tiếp thu kiến thức Nó không chỉ tạo ra hứng thú mà còn phát triển tư duy độc lập và khả năng sáng tạo của người học Tính tích cực là phẩm chất tự nhiên của con người, giúp họ chủ động cải biến môi trường sống và xã hội Do đó, việc hình thành và phát triển tính tích cực xã hội là một trong những nhiệm vụ quan trọng của giáo dục.
Tính tích cực học tập là sự ham hiểu biết và nỗ lực trí lực, liên quan chặt chẽ đến động cơ học tập Động cơ đúng không chỉ tạo ra hứng thú mà còn là tiền đề cho sự tự giác trong học tập Hứng thú và tự giác là hai yếu tố quan trọng hình thành tính tích cực, từ đó sản sinh ra tư duy độc lập và sáng tạo Ngược lại, phong cách học tập tích cực sẽ thúc đẩy tự giác, hứng thú và bồi dưỡng động cơ học tập Tính tích cực học tập được thể hiện qua nhiều dấu hiệu rõ ràng.
Hăng hái trả lời các câu hỏi của giáo viên, bổ sung các câu trả lời của bạn, thích phát biểu ý kiến của mình trước vấn đề nêu ra;
Nêu lên thắc mắc, đòi hỏi giải thích cặn kẽ những vấn đề chƣa đủ rõ;
Chủ động vận dụng kiến thức, kĩ năng đã học để nhận thức vấn đề mới; tập trung chú ý vào vấn đề đang học;
Kiên trì hoàn thành các bài tập, không nản trước những tình huống khó khăn…
Tính tích cực học tập thể hiện qua các cấp độ từ thấp lên cao nhƣ:
Bắt chước: gắng sức làm theo mẫu hành động của thầy, của bạn…
Tìm tòi: độc lập giải quyết vấn đề nêu ra, tìm kiếm cách giải quyết khác nhau về một số vấn đề…
Sáng tạo: tìm ra cách giải quyết mới, độc đáo, hữu hiệu
1.2.3 Vai trò của dữ liệu đa phương tiện trong công tác học tích cực
Công nghệ thông tin, đặc biệt là dữ liệu đa phương tiện, đóng vai trò quan trọng trong việc dạy và học, góp phần thúc đẩy phương pháp học tích cực.
Để nâng cao chất lượng dạy và học, việc sử dụng hình ảnh, âm thanh và video là rất cần thiết, giúp minh họa và làm rõ các vấn đề trong bài giảng, từ đó tạo sự sinh động và tăng tính thuyết phục cho người học Tuy nhiên, cần tránh lạm dụng các dữ liệu đa phương tiện, vì điều này có thể làm rối loạn cấu trúc chính của nội dung cần truyền đạt, khiến người học khó nắm bắt vấn đề.
Việc sử dụng dữ liệu đa phương tiện trong học tập tích cực là rất quan trọng Tuy nhiên, cách chèn hình ảnh, âm thanh và video cần được người dạy lựa chọn cẩn thận, dựa trên nội dung bài giảng, thời gian giảng dạy và đối tượng học sinh.
Kho học liệu tại Học viện Báo chí và Tuyên truyền
Kho học liệu của Học viện Báo chí và Tuyên truyền là một nguồn dữ liệu khoa học phong phú, được hỗ trợ bởi đội ngũ cán bộ chuyên môn cao và trang thiết bị hiện đại.
Học viện liên tục tuyển dụng và đào tạo để nâng cao trình độ khoa học cho cán bộ Đồng thời, Học viện cũng thường xuyên nâng cấp trang thiết bị máy móc hiện đại nhằm hỗ trợ hiệu quả cho việc tra cứu, tìm hiểu và lấy tư liệu của đội ngũ cán bộ, giảng viên và học viên.
Kho học liệu của Học viện liên tục được cập nhật và bổ sung để đảm bảo tính mới mẻ, đầy đủ và đa dạng, nhằm đáp ứng kịp thời nhu cầu dạy và học.
1.3.1 Kho dữ liệu bài giảng
Kho dữ liệu là tập hợp các dữ liệu được tổ chức theo chủ đề, được tích hợp và có tính phiên bản theo thời gian Nó đóng vai trò quan trọng trong việc hỗ trợ quá trình ra quyết định quản lý.
Bốn thuộc tính quan trọng của kho dữ liệu bao gồm "định hướng theo chủ đề", "được tích hợp lại", "có tính phiên bản theo thời gian" và "kiên định", đã phác thảo những đặc trưng cơ bản nhất của nó.
Kho dữ liệu bài giảng là tập hợp các bài giảng có cấu trúc, phục vụ cho mục đích dạy học và nghiên cứu khoa học Kho dữ liệu này có thể được chia thành hai loại chính.
Kho dữ liệu đơn ngôn ngữ: là một kho dữ liệu lưu trữ bài giảng trong một ngôn ngữ
Kho dữ liệu đa ngôn ngữ là nơi lưu trữ các bài giảng được viết bằng nhiều ngôn ngữ khác nhau Những kho dữ liệu này được định dạng thông qua việc so sánh các thành phần tương ứng giữa các ngôn ngữ, giúp người dùng dễ dàng tiếp cận và học tập.
Kho dữ liệu bài giảng đóng vai trò quan trọng trong giảng dạy và học thống kê Tuy nhiên, việc xây dựng một kho dữ liệu chất lượng không phải là điều đơn giản, đặc biệt là việc đảm bảo tính nhất quán cho dữ liệu gán nhãn trong toàn bộ kho.
1.3.2 Năng lực truy cập thông tin trên Intrernet của Học viện
Chiến lược phát triển kinh tế xã hội và khoa học công nghệ là việc áp dụng các thành tựu khoa học tiên tiến toàn cầu nhằm nâng cao trình độ phát triển của đất nước Để đạt được điều này, chúng ta cần sẵn sàng tiếp cận công nghệ và tri thức mới.
Ngày nay, Internet là nguồn tài nguyên khổng lồ với thông tin đa dạng và phong phú Thách thức lớn nhất là khai thác và sử dụng hiệu quả kho dữ liệu này Để đạt được điều này, cần phải đào tạo học sinh, sinh viên và người học với kỹ năng và kiến thức cần thiết để làm chủ thế giới thông tin Do đó, năng lực truy cập thông tin trên Internet của cả người dạy và người học trở thành vấn đề cấp thiết, đòi hỏi sự quan tâm hàng đầu và cần được đào tạo, bồi dưỡng đội ngũ giảng viên có trình độ công nghệ thông tin cao.
Trong những năm qua, ngành công nghệ thông tin tại Việt Nam đã có sự phát triển vượt bậc, từ một hạ tầng cơ sở còn hạn chế đến một hệ thống ngày càng mạnh mẽ Nhờ vào các lớp bồi dưỡng và tinh thần tự học hỏi của giáo viên và cán bộ, khả năng sử dụng công nghệ thông tin cũng như truy cập Internet của họ đã được cải thiện đáng kể.
1.3.3 Nguồn thông tin của Gốm sứ cổ truyền trong công tác đào tạo của Học viện
Hiện nay, Học viện chủ yếu sử dụng nguồn thông tin từ kho học liệu của mình để đào tạo về gốm sứ cổ truyền Bên cạnh đó, thông tin còn được thu thập từ các bài báo và video liên quan đến gốm sứ, phục vụ cho các bài tập và bài kiểm tra thực tế của sinh viên và học viên.
1.3.4 Nhu cầu về cơ sở dữ liệu thông tin đa phương tiện
Để đáp ứng nhu cầu ngày càng đa dạng về cơ sở dữ liệu thông tin đa phương tiện, Học viện chú trọng vào việc đào tạo chính xác và kịp thời Sự phát triển của khoa học xã hội và sự gia tăng các chuyên ngành đào tạo tại Học viện đã tạo ra nhu cầu phong phú hơn cho các nguồn thông tin đa phương tiện.
Kết luận
Trong bối cảnh công nghiệp hóa và hiện đại hóa, ngành Công nghệ thông tin đang phát triển mạnh mẽ Việc tích hợp dữ liệu đa phương tiện, bao gồm hình ảnh, âm thanh và video, vào công tác đào tạo tại Học viện Báo chí và Tuyên truyền không chỉ là một xu hướng mà còn là một nhu cầu thiết yếu trong giảng dạy và đào tạo hiện nay.
Chương 2: KHAI PHÁ DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU LIÊN QUAN TỚI GỐM SỨ CỔ TRUYỀN
Kiến trúc cơ sở dữ liệu văn bản
Kiến trúc phần mềm là một hệ thống xác định cấu trúc và các thành phần của nó, trong đó chức năng và mối quan hệ giữa các thành phần được mô tả rõ ràng Để xây dựng một kiến trúc hiệu quả, cần xác định nhiều đơn thể cùng với các giao diện và mối quan hệ tương tác xuyên suốt hệ thống Có ba cách tiếp cận chính để thiết kế kiến trúc phần mềm.
Hệ thống quản lý cơ sở dữ liệu (DBMS) bao gồm nhiều thành phần, mỗi thành phần đảm nhận các chức năng vận hành riêng biệt Sự tương tác có trật tự và hệ thống giữa các thành phần này tạo ra toàn bộ chức năng của hệ thống Phương pháp này là cần thiết khi mục tiêu là thiết kế và cài đặt hệ thống Ngược lại, việc xác định chức năng của hệ thống chỉ bằng cách xem xét các thành phần sẽ gặp nhiều khó khăn.
Dựa trên chức năng, các nhóm người sử dụng được xác định và các chức năng hệ thống cho từng nhóm được định nghĩa rõ ràng Đặc tả hệ thống này thường mô tả cấu trúc phân cấp của người dùng, tạo ra một kiến trúc hệ thống với các giao diện rõ ràng giữa các chức năng và các tầng khác nhau.
Dựa trên dữ liệu, các kiểu dữ liệu sẽ được định nghĩa và bộ khung kiến trúc sẽ được mô tả để xác định các đơn vị chức năng tiếp nhận hoặc sử dụng dữ liệu từ nhiều góc độ khác nhau Dữ liệu là tài nguyên chính mà hệ quản trị cơ sở dữ liệu (DBMS) cần quản lý, do đó, cách tiếp cận này rất được ưa chuộng trong hoạt động tiêu chuẩn hóa Ưu điểm của phương pháp này là nó nhấn mạnh tầm quan trọng của tài nguyên dữ liệu Từ góc độ của hệ quản trị CSDL, điều này có ý nghĩa lớn vì tài nguyên cơ bản mà DBMS quản lý chính là dữ liệu Tuy nhiên, để mô tả đầy đủ một kiến trúc, cần phải có sự mô tả của các mô-đun chức năng.
Khi định nghĩa một mô hình kiến trúc, cần áp dụng cả ba cách tiếp cận, mỗi cách sẽ tập trung vào các khía cạnh khác nhau của mô hình Kiến trúc ANSI/SPARC thuộc nhóm phương pháp dựa vào tổ chức dữ liệu, cho phép tạo ra ba hình ảnh khác nhau về dữ liệu.
Khung nhìn ngoài: là cách nhìn của người sử dụng, kể cả lập trình viên;
Khung nhìn trong: là cách nhìn của hệ thống;
Khung nhìn khái niệm: là cách nhìn của công ty hay xí nghiệp
Computer Computer Computer Computer Computer
Hình 2.1 Kiến trúc ANSI/SPARC
Lược đồ trong là cấp độ thấp nhất trong kiến trúc dữ liệu, chịu trách nhiệm về việc định nghĩa và tổ chức vật lý của dữ liệu Tại đây, các vấn đề liên quan đến vị trí lưu trữ dữ liệu và cơ chế truy cập được sử dụng sẽ được cập nhật và quản lý.
Lược đồ ngoài là khung nhìn cá nhân của mỗi người dùng, cho phép họ truy cập vào một phần cơ sở dữ liệu (CSDL) nhất định và thể hiện mối quan hệ giữa các dữ liệu mà người dùng có thể thấy Nhiều người dùng có thể chia sẻ cùng một khung nhìn này.
Lƣợc đồ khái niệm: là lƣợc đồ nằm giữa lƣợc đồ ngoài và lƣợc đồ trong, là ý nghĩa khái niệm của CSDL
2.1.2 Các chức năng trong cơ sở dữ liệu văn bản
CSDL văn bản cũng có một số chức năng chính như: Lưu trữ, truy câp, tổ chức và xử lý
Có thể lưu trữ dữ liệu trên đĩa và chuyển đổi giữa các cơ sở dữ liệu khác nhau bằng cách sử dụng các hệ quản trị cơ sở dữ liệu như Excel, Access, MySQL, PostgreSQL, SQL Server và Oracle.
Truy cập dữ liệu phụ thuộc vào yêu cầu và mục đích của người sử dụng Ở mức cục bộ, dữ liệu được truy cập ngay trong cơ sở dữ liệu (CSDL) để xử lý thông tin bên trong Khi nhu cầu vượt ra ngoài CSDL, cần có sự cập nhật và đồng bộ giữa các CSDL khác nhau.
Tổ chức CSDL văn bản phụ thuộc vào mô hình cơ sở dữ liệu, phụ thuộc vào đặc điểm riêng của từng ứng dụng cụ thể
Trong nhiều tình huống, việc xử lý và truy vấn dữ liệu theo yêu cầu và mục đích khác nhau là cần thiết Để đạt được kết quả mong muốn, ta cần thực hiện các phép toán và phát biểu trong cơ sở dữ liệu.
Kiến trúc cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền Việt Nam
2.2.1 Nội dung liên quan tới gốm sứ cổ truyền
Gốm sứ Bát Tràng là sản phẩm gốm nổi tiếng được sản xuất tại làng Bát Tràng, xã Bát Tràng, huyện Gia Lâm, Hà Nội Tên gọi Bát Tràng có nguồn gốc từ chữ Hán, trong đó "Bát" ám chỉ bát ăn của nhà sư và "Tràng" có nghĩa là sân lớn, thể hiện chuyên môn sản xuất gốm Quy trình làm gốm sứ bao gồm các bước xử lý và pha chế đất, tạo dáng, trang trí hoa văn, phủ men và nung sản phẩm để hoàn thiện.
Chọn đất: điều quan trong đầu tiên để hình thành nên các lo gốm là nguồn đất sét làm gốm
Xử lý và pha chế đất là bước quan trọng trong sản xuất gốm, vì đất nguyên liệu thường chứa tạp chất Tùy thuộc vào yêu cầu của từng loại gốm, có những phương pháp pha chế khác nhau nhằm tạo ra sản phẩm phù hợp.
Người làng Bát Tràng sử dụng phương pháp tạo dáng gốm truyền thống bằng tay trên bàn xoay, với kỹ thuật "vuốt tay, be chạch" phổ biến Hiện nay, để đáp ứng nhu cầu sản xuất gốm công nghệ và mỹ nghệ, nghệ nhân có thể tạo mẫu sản phẩm để đổ khuôn thạch cao, phục vụ cho sản xuất hàng loạt.
Phơi sấy và sửa hàng mộc là quá trình quan trọng để đảm bảo sản phẩm khô ráo, không bị nứt nẻ và giữ được hình dạng nguyên vẹn Người dân Bát Tràng thường áp dụng biện pháp hong khô tự nhiên trên giá và ở nơi thoáng mát Gần đây, nhiều người đã chuyển sang sử dụng lò sấy với phương pháp tăng nhiệt độ từ từ, giúp nước trong sản phẩm bốc hơi dần, từ đó cải thiện chất lượng sản phẩm sau khi đã định hình.
“ủ vóc” và sửa lại cho hoàn chỉnh
Để trang trí hoa văn trên gốm Bát Tràng, các nghệ nhân vẽ trực tiếp lên nền mộc với những họa tiết tinh xảo Điều này đòi hỏi thợ vẽ phải có tay nghề cao, đảm bảo hoa văn hài hòa với hình dáng của sản phẩm gốm.
Tráng men là quá trình quan trọng trong sản xuất gốm, diễn ra sau khi sản phẩm mộc đã hoàn chỉnh Người thợ gốm có thể nung sơ bộ sản phẩm ở nhiệt độ thấp trước khi tráng men, hoặc trực tiếp tráng men lên sản phẩm mộc rồi mới nung Kỹ thuật tráng men đa dạng với nhiều hình thức như phun men, dội men cho các sản phẩm lớn, và nhúng men cho gốm nhỏ Phương pháp phổ biến nhất là tráng men bên ngoài sản phẩm, gọi là “kim men”, trong khi các kỹ thuật phức tạp hơn bao gồm “quay men” và “đúc men”.
Quá trình nung gốm là giai đoạn quyết định thành công của sản phẩm, bắt đầu bằng việc đốt lò sau khi công việc chuẩn bị đã hoàn tất Nung gốm theo nguyên tắc tăng dần nhiệt độ lò đến mức cao nhất, sau đó giảm dần nhiệt độ khi gốm đã chín.
Gốm Bát Tràng nổi bật với đặc điểm sản xuất thủ công, thể hiện tài năng sáng tạo của người thợ qua nhiều thế hệ Được làm từ nguyên liệu tự nhiên và tạo dáng bằng tay trên bàn xoay, gốm Bát Tràng có cốt đầy, chắc chắn và nặng Lớp men thường có màu trắng ngà, đục, mang lại nét đặc trưng riêng cho sản phẩm.
Dựa vào ý nghĩa sử dụng, có thể phân chia loại hình của đồ gốm Bát Tràng nhƣ sau:
Đồ gốm gia dụng: Bao gồm các loại đĩa, chậu hoa, âu, thạp, ang, bát, chén, khay trà, ấm, điếu, nậm rƣợu, bình vôi, bình, lọ, choé và hũ
Đồ gốm dùng làm đồ thờ cúng bao gồm chân đèn, chân nến, lư hương, đỉnh, đài thờ, mâm gốm và kiếm Trong số này, chân đèn, lư hương và đỉnh được coi là những sản phẩm có giá trị cao đối với các nhà sưu tầm hiện đại, nhờ vào minh văn ghi rõ họ tên tác giả, quê quán và năm tháng chế tạo Nhiều sản phẩm còn khắc tên của những người đặt hàng, tạo nên nét đặc biệt cho đồ gốm Bát Tràng.
Đồ trang trí bao gồm nhiều mô hình và tượng phong phú như nhà, long đình, tượng nghê, tượng ngựa, tượng Di Lặc, tượng Kim Cương, tượng hổ, tượng voi, tượng người ba đầu, tượng đầu khỉ mình rắn và tượng rồng, mang lại sự đa dạng và độc đáo cho không gian sống.
Trong thế kỷ 14-15, gốm Bát Tràng được trang trí bằng nhiều hình thức độc đáo, bao gồm khắc chìm và tô men nâu theo kỹ thuật gốm hoa nâu thời Lý-Trần Ngoài ra, nghệ thuật chạm nổi và vẽ men lam cũng được kết hợp, tạo nên sự phong phú và đa dạng cho sản phẩm gốm.
Gốm Bát Tràng nổi bật với 5 dòng men đặc trưng qua các thời kỳ, tạo nên những sản phẩm độc đáo Men lam, xuất hiện đầu tiên, mang sắc xanh chì đến đen sẫm Men nâu thể hiện phong cách truyền thống với kỹ thuật vẽ men lam Men trắng ngà, phổ biến từ thế kỷ 17 đến 19, có màu vàng ngà, mỏng và bóng, thích hợp cho các trang trí tỉ mỉ Cuối cùng, men xanh rêu kết hợp với men trắng ngà và nâu tạo nên dòng Tam thái độc đáo của Bát Tràng vào thế kỷ 16.
17 và men rạn là dòng men chỉ xuất hiện tại Bát Tràng từ cuối thế kỉ 16 và phát triển liên tục qua các thế kỉ 17–19
Gốm sứ Chu Đậu, còn gọi là gốm Chu Đậu-Mỹ Xá, là một loại gốm sứ cổ truyền nổi tiếng của Việt Nam, được sản xuất tại vùng thuộc làng Chu Đậu và làng Mỹ Xá, tỉnh Hải Dương Gốm Chu Đậu được biết đến lần đầu qua các di tích khai quật tại Chu Đậu, và sau đó, các di tích phong phú hơn được phát hiện ở Mỹ Xá Loại gốm này nổi bật với màu men và họa tiết thuần Việt, đã từng xuất khẩu sang nhiều nước châu Âu Đặc biệt, vào năm 1997, nhiều hiện vật gốm Chu Đậu đã được tìm thấy trong một con tàu đắm ở Cù Lao, khẳng định giá trị lịch sử và văn hóa của dòng gốm này.
Gốm Chàm (Nghệ An) của người Bồ Đào Nha đã trở nên nổi tiếng gần đây, với gia phả 14 đời tại Mỹ Xá ghi nhận nghề nung bát của tổ tiên Các nhà khảo cổ đã xác nhận bà Bùi Thị Hý là tổ nghề gốm Chu Đậu, với dòng gốm sứ này có thể đã hình thành và phát triển từ thế kỷ 13 đến thế kỷ 18 Tuy nhiên, có thông tin cho rằng nó đã bị hủy diệt do chiến tranh Lê-Mạc vào cuối thế kỷ 16.
Hình 2.3 Hai bình Âm dương gốm Chu đậu
Làng gốm Phù Lãng, tọa lạc tại xã Phù Lãng, huyện Quế Võ, tỉnh Bắc Ninh, cách Hà Nội khoảng 60 km và sông Lục Đầu khoảng 4 km, nổi bật bên bờ sông Cầu với nhiều bến đò chở khách qua lại Địa danh này có nguồn gốc từ cuối thời Trần đến đầu thời Lê, và trong giai đoạn này, Phù Lãng được chia thành ba thôn: Trung thôn, Thượng thôn và Hạ thôn.
Gốm Phù Lãng tập trung vào 3 loại hình:
Gốm dùng trong tín ngưỡng (lư hương, đài thờ, đỉnh );
Gốm gia dụng (lọ, bình, chum, vại, bình vôi, ống điếu );
Gốm trang trí (bình, ấm hình thú nhƣ ngựa, voi )
Khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản là quá trình trích xuất tri thức mới và có giá trị từ các văn bản, nhằm tổ chức thông tin hiệu quả hơn để hỗ trợ người dùng Hệ thống khai phá dữ liệu thường có kiến trúc điển hình để tối ưu hóa việc sử dụng các tri thức này.
Cơ sở dữ liệu Các kho chứa dữ Kho dữ liệu liệu khai thác
Làm sạch dữ liệu và tích hợp dữ liệu Lọc dữ liệu Phục phụ cơ sở dữ liệu hoặc kho dữ liệu
Giao diện đồ họa người dùng Đánh giá mẫu
Thành phần khai phá dữ liệu
Hình 2.5 Mô hình kiến trúc hệ thống khai phá dữ liệu văn bản
Khai phá dữ liệu văn bản là sự kết hợp giữa khai phá dữ liệu và xử lý ngôn ngữ tự nhiên, nhằm cụ thể hóa quá trình khai thác dữ liệu từ các tài liệu văn bản Quá trình này được thực hiện dựa trên hai giả thiết: một là bài toán khai phá dữ liệu văn bản, hai là miền dữ liệu văn bản thuộc lĩnh vực ứng dụng Các bước trong quá trình khai phá dữ liệu văn bản sẽ giúp phân tích và rút ra thông tin hữu ích từ dữ liệu văn bản.
Thu thập dữ liệu văn bản thuộc miền ứng dụng, cụ thể ở đây là các bài báo trên Web liên quan tới gốm sứ Việt nam
Biểu diễn dữ liệu văn bản thu thập đƣợc sang khuôn dạng phù hợp với bài toán khai phá văn bản
Lựa chọn tập dữ liệu đầu vào cho bài toán khai phá dữ liệu
Thực hiện thuật toán khai phá dữ liệu đối với tập dữ liệu đã đƣợc lựa chọn để tìm ra các mẫu, các tri thức
Để khai thác hiệu quả dữ liệu văn bản, cần áp dụng các mẫu và tri thức thu được từ quá trình phân tích vào thực tiễn hoạt động Một số bài toán khai phá dữ liệu điển hình bao gồm tìm kiếm, phân tích ngữ nghĩa, phân cụm, phân lớp, trích xuất đặc trưng và tóm tắt văn bản.
Bài toán trích rút quan hệ là một trong những vấn đề quan trọng trong lĩnh vực khai phá tri thức, với ứng dụng đa dạng Nó không chỉ làm phong phú thêm thông tin mà còn cung cấp phương pháp hiệu quả cho các hệ thống như hệ thống hỏi đáp, xây dựng cơ sở tri thức và phát hiện hình ảnh qua đoạn văn bản.
Có nhiều phương pháp trích rút quan hệ ngữ nghĩa, bao gồm phương pháp học thống kê, có giám sát dựa trên dữ liệu đã gán nhãn, và các phương pháp luật học bán giám sát Một trong những phương pháp đáng chú ý là DIPRE, được Sergey Brin giới thiệu vào năm 1988 Phương pháp này áp dụng học bán giám sát để trích rút mối quan hệ giữa "tác giả" và "cuốn sách", bắt đầu với khoảng 5 ví dụ cho mỗi mẫu quan hệ Hệ thống DIPRE đã mở rộng danh sách ban đầu thành khoảng 1500 cuốn sách.
Phương pháp DIRPE được mô tả với đầu vào là tập các mẫu quan hệ S = {}, cùng với tập dữ liệu D Đầu ra của phương pháp này là tập R, chứa các quan hệ đã được trích xuất.
Tập đích đƣợc khởi tạo từ tập mồi S Tập mẫu quan hệ S có thể là rất nhỏ
Tìm tất cả các xuất hiện trong mẫu quan hệ của tập dữ liệu D;
Dựa vào tập câu đã tìm được, Sergey Brin đã định nghĩa mẫu quan hệ một cách đơn giản bằng cách giữ lại m ký tự trước thành phần mẫu quan hệ đầu tiên, n ký tự sau thành phần thứ hai, và k ký tự nằm giữa hai thành phần này Phương pháp này cho phép giữ lại các phần đầu, phần giữa và phần cuối phổ biến xuất hiện nhiều lần trong dữ liệu Kết quả được biểu diễn dưới dạng: [1, phần đầu, phần cuối, phần giữa] cho thấy tác giả đứng trước sách, trong khi [0, phần đầu, phần cuối, phần giữa] chỉ ra tác giả đứng sau sách.
Từ tập mẫu mới, chúng ta có thể trích xuất các cặp quan hệ trong tập dữ liệu D và bổ sung các cặp quan hệ này vào R.
Bước 5 Khi R đủ lớn thì dừng lại, ngược lại quay lại bước 2 để tìm những cặp quan hệ và mẫu mới
Snowboll là một hệ thống trích rút mối quan hệ dựa trên một tập dữ liệu mẫu nhỏ, nhằm tạo ra các mối quan hệ mới Trong quá trình thực hiện, cần đánh giá chất lượng của các mẫu và mối quan hệ mới được sinh ra Giải thuật này đã được thử nghiệm trên mối quan hệ “tổ chức-địa điểm”, thể hiện vị trí của trụ sở chính của các tổ chức như Microsoft tại Redmond, IBM tại Armonk, Boeing tại Seattle, và Intel tại Santa Clara.
Phương pháp Snowball bắt đầu với một tập văn bản D được sử dụng làm tập huấn luyện và một tập nhân mẫu quan hệ d ban đầu S, bao gồm các cặp mẫu quan hệ Mỗi cặp quan hệ đại diện cho hai thực thể A và B, với S = {} Kết quả đầu ra của phương pháp này là tập R, chứa các quan hệ được rút trích từ dữ liệu.
Bước 1: Tìm sự xuất hiện của các cặp quan hệ trong dữ liệu
Đối với mỗi cặp quan hệ trong tập S, cần tìm trong tập D tất cả các câu chứa cả A và B Sau đó, tiến hành phân tích và chọn lọc các mẫu câu phù hợp Một câu khớp với biểu thức *A*B* sẽ được phân chia thành ba phần: cụm từ đứng trước A được gọi là Trái, cụm từ nằm giữa A và B được gọi là Giữa, và cụm từ đứng sau B được gọi là Phải.
Bước 2: Tìm sự xuất hiện của các thực thể trong dữ liệu
Snowball thực hiện phân cụm mẫu bằng cách sử dụng hàm Match để tính toán độ tương đồng giữa các mẫu Quá trình này giúp xác định ngưỡng tương đồng tsin, từ đó giảm số lượng mẫu và nâng cao tính khái quát của chúng Độ tương đồng giữa hai mẫu được thể hiện qua hàm Match (mẫu 1, mẫu 2).
Match(mẫu1, mẫu2) = (wTrái1,wTrái2)+(wGiữa1.wGiữa2)+(wPhải1.wPhải2)
Các mẫu được tìm thấy sẽ được sử dụng để trích xuất các cặp quan hệ mới trong D Mỗi cặp quan hệ mới sẽ được đối chiếu với tập R nhằm kiểm tra chất lượng của mẫu Qua đó, chúng ta có thể chọn ra các mẫu mới có độ chính xác cao Cặp quan hệ mới sẽ thuộc một trong các trường hợp đã xác định.
Positive: Nếu đã nằm trong tập R;
Negative: Nếu chỉ có đúng một trong hai (A’, hoặc B’) xuất hiện trong tập R;
Unknown: nếu , cả hai đều không xuất hiện trong tập R Tập Unknown đƣợc xem là tập các quan hệ mới trong vòng lặp sau
Snowball có độ chính xác của từng mẫu dựa trên số Positve và Negative của nó và chọn ra N mẫu có điểm cao nhất
Bước 4: Tìm các Mẫu quan hệ D mới
Mỗi mẫu trong danh sách tốp N sẽ được bổ sung vào tập mẫu để trích rút các cặp quan hệ mới từ tập dữ liệu D, tạo ra tập R’ Các cặp quan hệ trong R’ sẽ được kết hợp với R để nâng cao độ chính xác cho hệ thống, và từ đó, M cặp quan hệ tốt nhất sẽ được lựa chọn làm mẫu cho quá trình rút mẫu tiếp theo Hệ thống sẽ lặp lại quy trình này cho đến khi không còn cặp mới nào hoặc đạt đến số lần lặp đã định trước Thủ tục sinh mẫu mới theo phương pháp Snowball sẽ được thực hiện như sau.
Foreach text_segment in corpus
(1) {, }=CreateOccurence (text_segment);
(2) sim = Match (, p);
CandidateTuples[TC] Patterns [PBest] = SimBest;
Bảng 2.1 Thủ tục sinh mẫu mới của phương pháp Snowball
Dựa vào hai phương pháp đã nêu, chúng ta có thể thiết kế một thử nghiệm cho hệ thống cơ sở dữ liệu hỏi đáp về các loại gốm sứ cổ truyền Việt Nam.
Mối quan hệ Phần đầu của mẫu quan hệ Phần cuối của mẫu quan hệ
Gốm sứ Bát tràng Hồ Chí Minh
Gốm sứ Chu đậu Nam cao
Bảng 2.2 Một số ví dụ về mẫu quan hệ
Mối quan hệ Mẫu tổng quát
gốm sứ của
gốm sứ của
Bảng 2.3 Một số mẫu tổng quát
Câu hỏi Xử lý câu hỏi và rút ra câu trả lời
Rút ra mẫu và Tuples
Hình 2.6 Mô hình hệ thống CSDL dạng hỏi đáp
Tập quan hệ mẫu mồi
Tập các trang web chứa tập quan hệ mẫu
Tập câu chứa quan hệ mẫu
Sinh quan hệ mẫu mới
Tập quan hệ mẫu mới
Hình 2.7 Mô tả quá trình trích rút quan hệ nghữ nghĩa
KHAI THÁC CƠ SỞ DỮ LIỆU VỀ GỐM SỨ CỔ TRUYỀN
Hạ tầng công nghệ thông tin tại Học viện
Hiện nay hạ tầng công nghệ thông tin tại Học viện Báo chí và Tuyên truyền có các thiết bị CNTT nhƣ:
Máy chủ: đặt tại trung tâm thông tin khoa học của Học viện;
Các cáy tính bộ phân đƣợc đƣa vào sử dụng ở các phòng, ban, phòng học;
Máy in, máy quét, máy photocopy đƣợc trang bị đầy đủ tại các phòng, ban, Camera giám sát đƣợc lắp đặt ở các phòng học
Hệ thống mạng được kết nối với đường truyền có băng thông lớn
Có đầy đủ trang thiết bị cho các hệ thống báo cháy, hệ thống điều hòa nhiệt độ, hệ thống khóa, bảo mật cao.
Học viện hiện đang đối mặt với thách thức về điều kiện kinh tế hạn chế và hạ tầng công nghệ thông tin thiếu thốn trang thiết bị hiện đại Việc nâng cấp và sửa chữa thiết bị để đáp ứng nhu cầu dạy và học diễn ra chậm chạp Đây là vấn đề quan trọng mà Học viện cần chú trọng, nhằm nâng cao chất lượng đào tạo và nghiên cứu khoa học trong bối cảnh hội nhập hiện nay và tương lai.
Một số môn học liên quan tới Gốm sứ cổ truyền
Hình ảnh gốm sứ cổ truyền không chỉ là biểu tượng văn hóa của một quốc gia mà còn phản ánh giá trị lịch sử và nghệ thuật của dân tộc Để bảo vệ, tôn tạo và phát triển ngành gốm sứ cổ truyền, cần sự phối hợp chặt chẽ giữa các cơ quan chức năng và ngành giáo dục Việc chú trọng vào các môn học liên quan sẽ giúp nâng cao nhận thức và khơi dậy niềm đam mê đối với gốm sứ trong thế hệ trẻ, từ đó góp phần gìn giữ và phát triển di sản văn hóa quý báu này.
Chuyên ngành Vật liệu và Công nghệ Vật liệu Xây dựng;
Cấu trúc và tính chất của vật liệu Silicat;
Công nghệ Vật liệu Chịu lửa;
Thiết kế chi tiết của cơ sở dữ liệu văn bản liên quan tới Gốm sứ cổ truyền
3.3.1 Công cụ Olap trong SQL Server 2005
OLAP là một kỹ thuật sử dụng các khối dữ liệu đa chiều để truy xuất nhanh thông tin từ kho dữ liệu Bằng cách tạo khối dữ liệu từ các bảng chiều và bảng sự kiện, OLAP cho phép thực hiện các truy vấn và phân tích hiệu quả cho các ứng dụng máy khách.
OLAP là kỹ thuật cho phép các ứng dụng máy khách truy xuất hiệu quả dữ liệu từ kho dữ liệu, mang lại nhiều lợi ích cho người phân tích.
Cung cấp mô hình dữ liệu đa chiều trực quan cho phép dễ dàng lựa chọn, định hướng và khám phá dữ liệu;
Cung cấp một ngôn ngữ truy vấn, phân tích;
Dữ liệu được tính toán trước đối với các truy vấn thường xuyên, nhằm làm cho thời gian trả lời nhanh đối với các truy vấn đặc biệt
OLAP cung cấp các công cụ mạnh mẽ cho phép người dùng tạo ra những khung nhìn mới từ dữ liệu thông qua một tập hợp các hàm tính toán đặc biệt Ứng dụng của OLAP rất quan trọng trong việc xử lý các truy vấn liên quan đến lượng dữ liệu lớn, điều mà hệ thống OLTP không thể thực hiện hiệu quả hoặc sẽ tốn nhiều thời gian.
Dịch vụ OLAP là một máy chủ trung gian chuyên phục vụ cho phân tích và xử lý dữ liệu trực tuyến Hệ thống này đóng vai trò quan trọng trong việc xây dựng các khối dữ liệu đa chiều, giúp phân tích hiệu quả và cung cấp khả năng truy xuất nhanh chóng thông tin khối cho các máy khách.
Các đặc điểm của dịch vụ OLAP:
Dễ sử dụng: Bằng cách cung cấp các giao diện người dùng và các trợ giúp thực hiện
Linh động: Mô hình dữ liệu mạnh cho định nghĩa khối và lưu trữ
Các khối có thể ghi:
Kiến trúc co dãn mang lại nhiều kịch bản lưu trữ và giải pháp tự động, giúp giải quyết hiệu quả "hội chứng bùng nổ dữ liệu" mà các kỹ thuật OLAP thường gặp phải.
Tích hợp các công cụ quản trị, bảo mật, nguồn dữ liệu
Hỗ trợ rộng rãi các hàm API và kiến trúc mở để hỗ trợ các ứng dụng tuỳ ý
Các mô hình lưu trữ hỗ trợ OLAP:
Mô hình Olap đa chiều
Mô hình OLAP đa chiều lưu trữ dữ liệu cơ sở và thông tin tổng hợp dưới dạng các độ đo được tính toán từ các bảng, được tổ chức trong các cấu trúc đa chiều gọi là các khối Những cấu trúc này thường được lưu trữ bên ngoài cơ sở dữ liệu data mart hoặc kho dữ liệu.
Lưu trữ các khối trong cấu trúc OLAP đa chiều là giải pháp tối ưu cho các truy vấn tổng hợp dữ liệu thường xuyên, giúp đảm bảo thời gian hồi đáp nhanh chóng.
Mô hình OLAP đa chiều cho phép thực hiện các truy vấn phân tích dữ liệu tốt nhất vì các đặc điểm sau:
Thông tin tổng hợp và dữ liệu cơ sở được lưu trữ trong cấu trúc đa chiều
Các thao tác kết, là một trong những thao tác tốn chi phí nhất của mô hình quan hệ, thì không cần thiết
OLAP đa chiều sử dụng các thuật toán nén dữ liệu cho phép lưu trữ với ít không gian hơn
OLAP đa chiều sử dụng chỉ mục bitmap cho hiệu quả thực thi tốt hơn
OLAP đa chiều cho phép truy xuất dữ liệu từ khối một cách nhanh chóng nhờ vào các quy trình xử lý truy vấn tốc độ cao và lưu trữ thông tin hiệu quả Thông tin thu được từ khối và các bảng OLAP cơ sở chỉ có thể được truy cập với độ chi tiết cao.
OLAP đa chiều không xử dụng cơ chế khoá vì dữ liệu là chỉ đọc
OLAP đa chiều có thể được nạp trước vào bộ nhớ chính
Dữ liệu có thể dễ dàng sao chép đến client cho phân tích không trực tuyến (off-line)
Mô hình OLAP quan hệ:
Mô hình OLAP quan hệ lưu trữ dữ liệu cơ sở và thông tin tổng hợp trong các bảng quan hệ, giúp tổ chức và quản lý dữ liệu hiệu quả Các bảng này được lưu trữ trong cùng một cơ sở dữ liệu với các bảng kho dữ liệu, tạo điều kiện thuận lợi cho việc truy xuất và phân tích thông tin.
Lưu trữ các khối dữ liệu trong cấu trúc OLAP quan hệ là giải pháp tối ưu cho các truy vấn dữ liệu không thường xuyên Việc này mang lại nhiều lợi ích, bao gồm khả năng truy cập nhanh chóng và hiệu quả, đồng thời cải thiện hiệu suất phân tích dữ liệu.
OLAP quan hệ cho phép xây dựng khối tự động tạo chỉ mục
OLAP quan hệ cho phép ánh xạ các tổng hợp có sẵn từ kho dữ liệu, giúp quản lý và sử dụng các tổng hợp này mà không cần phải tính toán lại cho mỗi truy vấn.
OLAP quan hệ giúp tối ưu hóa quản trị cơ sở dữ liệu quan hệ, cho phép các nhà quản trị hệ thống duy trì và quản lý dữ liệu một cách hiệu quả hơn.
OLAP quan hệ hỗ trợ Microsoft SQL Server, Oracle, Access và Open Database Connectivity (ODBC)
Mô hình OLAP lai là sự kết hợp giữa OLAP đa chiều và OLAP quan hệ
Lưu trữ khối dữ liệu trong cấu trúc OLAP đa chiều là giải pháp tối ưu cho các truy vấn tổng hợp dữ liệu thường xuyên, đặc biệt khi làm việc với khối lượng lớn dữ liệu cơ sở Việc áp dụng cấu trúc OLAP lai mang lại nhiều lợi ích, bao gồm khả năng tối ưu hóa hiệu suất truy vấn và cải thiện tốc độ xử lý dữ liệu.
Lấy dữ liệu trong khối nhanh hơn bằng cách sử dụng xử lý truy vấn tốc độ cao của OLAP đa chiều
Tiêu thụ ít không gian lưu trữ hơn OLAP đa chiều
Tránh trùng lắp dữ liệu
Kiến trúc khối của OLAP tập trung vào việc sử dụng khối, là một đại diện đa chiều của dữ liệu chi tiết và tổng hợp Mỗi khối bao gồm nguồn dữ liệu, các chiều, các độ đo và các phần dành riêng Thiết kế các khối này được thực hiện dựa trên nhu cầu phân tích của người dùng.
Một kho dữ liệu có thể hỗ trợ nhiều khối khác nhau nhƣ khối Bán hàng, khối Bảng kiểm kê,…
Dữ liệu nguồn của một khối chỉ ra nơi chứa kho dữ liệu cung cấp dữ liệu cho khối
Các chiều trong kho dữ liệu được ánh xạ từ thông tin của các bảng chiều vào các mức phân cấp như Địa lý, bao gồm Lục địa, Quốc gia, và Tỉnh-Thành phố Những chiều này có thể được tạo ra độc lập và chia sẻ giữa các khối, giúp xây dựng các khối một cách dễ dàng và đảm bảo tính ổn định của thông tin tổng hợp cho phân tích Chẳng hạn, khi một chiều chia sẻ phân cấp sản phẩm và được sử dụng trong tất cả các khối, cấu trúc thông tin tổng hợp về sản phẩm sẽ luôn ổn định giữa các khối đó.