Tính cấp thiết của đề tài
Việt Nam đang tích cực hội nhập và thực hiện công cuộc đổi mới, với mục tiêu trở thành một nước công nghiệp hiện đại vào năm 2020 Để đạt được mục tiêu này, Nhà nước đã triển khai nhiều chương trình và kế hoạch nhằm ứng dụng các giải pháp khoa học công nghệ tiên tiến vào quản lý, sản xuất và đời sống Một trong những chương trình quan trọng là phát triển công nghiệp nội dung số Việt Nam đến năm 2010, theo Quyết định số 56/2007/QĐ-TTg, ngày 03 tháng 5.
Dự án tổng thể “ứng dụng và phát triển phần mềm nguồn mở ở Việt Nam giai đoạn 2004-2008” được Thủ tướng Chính phủ phê duyệt theo Quyết định số 235/QĐ-TTg vào ngày 2/3/2004, nhằm cụ thể hóa các chương trình ứng dụng công nghệ thông tin Việc sử dụng phần mềm mã nguồn mở được xem là giải pháp ưu tiên để phát triển các thư viện hiện đại và điện tử, đáp ứng xu hướng phát triển công nghệ.
Nhằm phát triển thư viện hiện đại, hội nhập và chuẩn hóa, Trường Cao đẳng Nội vụ Hà Nội quyết định nghiên cứu đề tài "Ứng dụng phần mềm nguồn mở Greenstone để xây dựng các bộ sưu tập số tại thư viện" Đề tài này sẽ góp phần nâng cao chất lượng và mở rộng quy mô đào tạo, đồng thời là nghiên cứu đầu tiên trong lĩnh vực này tại trường.
Mục tiêu, nhiệm vụ nghiên cứu
Nghiên cứu lịch sử ra đời, cấu trúc hệ thống, tính năng và quy trình vận hành của GREENSTONE cho thấy ứng dụng này có tiềm năng lớn trong việc xây dựng và phân phối bộ sưu tập số tại thư viện Trường CĐ NVHN Thực trạng ứng dụng CNTT tại thư viện trong thời gian qua đã tạo điều kiện thuận lợi để triển khai GREENSTONE, từ đó thúc đẩy quá trình phát triển thư viện thành thư viện số trong tương lai gần.
- Tìm hiểu về Thư viện số
- Nghiên cứu lịch sử ra đời và phát triển của GREENSTONE
- Nghiên cứu cấu trúc, tính năng, ứng dụng của GREENSTONE
- Tìm hiểu thực trạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian qua
- Ứng dụng GREENSTONE để xây dựng và phân phối các bộ sưu tập số tại thư viện Trường CĐ NVHN.
Phương pháp nghiên cứu
- Phân tích và tổng hợp tài liệu
Kết cấu của đề tài
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo, bố cục của đề tài bao gồm ba chương :
Chương 2 Phần mềm nguồn mở Greenstone và thực trạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian qua
Chương 3 Ứng dụng GREENSTONE để xây dựng và phân phối các bộ sưu tập số tại thư viện Trường CĐ NVHN
THƯ VIỆN SỐ
Khái niệm
Hiện nay, sự phát triển của khoa học và công nghệ đã thúc đẩy thư viện toàn cầu hóa và sử dụng tài nguyên chung Trên thế giới, nhiều loại thư viện hiện đại đã xuất hiện, bao gồm thư viện đa phương tiện, thư viện điện tử, thư viện số và thư viện ảo.
Các thuật ngữ "thư viện điện tử", "thư viện số" và "thư viện ảo" đều liên quan đến các hình thức thư viện đã được tin học hóa, trong đó "thư viện điện tử" là thuật ngữ chung nhất Thư viện số và thư viện ảo được xem là các hình thức nâng cao của thư viện điện tử Đặc biệt, thuật ngữ "thư viện số" được cộng đồng thư viện toàn cầu sử dụng phổ biến.
Thư viện điện tử là hình thức lưu trữ và phổ biến thông tin thông qua các phương tiện điện tử, cho phép người dùng truy cập vào cơ sở dữ liệu quốc tế và dịch vụ thư viện từ xa Người đọc có thể sử dụng các dịch vụ như truyền hình cáp, mục lục trực tuyến và hệ thống cho mượn tự động Mặc dù ấn phẩm truyền thống vẫn còn tồn tại, yếu tố con người đóng vai trò quan trọng trong việc lựa chọn phần mềm phù hợp cho các công tác trong thư viện điện tử.
Thư viện số là một nguồn tài nguyên quan trọng, cung cấp cho người dùng tin các dữ liệu và tài liệu điện tử, được lựa chọn và xây dựng bởi các chuyên gia Nó không chỉ giúp người dùng tiếp cận tri thức một cách dễ dàng và hiệu quả, mà còn đảm bảo tính toàn vẹn của tài liệu dưới dạng số Thư viện số cho phép truy cập từ xa thông qua modem hoặc các mạng lưới truyền thông tự động, mang lại sự tiện lợi và tiết kiệm chi phí cho người sử dụng.
Digital libraries: definition, issues and challenges IFLANET UDT occasional paper N 0 8
Thư viện số là sự kết hợp giữa thiết bị tính toán, lưu trữ và truyền thông số với nội dung và phần mềm cần thiết, nhằm tái tạo và mở rộng dịch vụ của thư viện truyền thống Một thư viện số hoàn chỉnh không chỉ thực hiện các dịch vụ cơ bản của thư viện truyền thống mà còn khai thác lợi thế của công nghệ lưu trữ, tìm kiếm và truyền thông số.
Nghiên cứu thư viện số liên quan đến nhiều vấn đề kỹ thuật, xã hội và chính trị Thư viện số không chỉ đơn thuần là một bộ sưu tập số hóa và công cụ quản trị thông tin, mà còn là một môi trường tích hợp các sưu tập, dịch vụ và con người Mục tiêu của thư viện số là hỗ trợ chu trình sáng tạo, phổ biến, sử dụng và bảo quản dữ liệu, thông tin và tri thức, đồng thời tạo ra một không gian mạng cung cấp nội dung phong phú.
Vị trí, vai trò của thư viện số trong thư viện và thư viện nhà trường
Ngày nay, nhiều người vẫn nghĩ rằng thư viện chỉ là nơi yên tĩnh lưu trữ sách, nhưng thực tế, thư viện là một cơ sở tổ chức chuyên nghiệp để bảo quản tài liệu và kết nối với các thư viện khác, bao gồm cả phim ảnh, băng đĩa âm thanh và sản phẩm văn hóa Đối với nhà nghiên cứu, thư viện là mạng lưới cung cấp tri thức nhân loại trên toàn cầu Mặc dù sinh viên khoa học và công nghệ thường coi thư viện như World Wide Web, quan niệm này không chính xác Sự khác biệt giữa thư viện số và Web nằm ở chỗ Web thiếu các đặc điểm quan trọng trong việc sưu tầm và tổ chức thông tin, trong khi thư viện số ngày càng hoàn thiện để người dùng có thể tự hình thành tri thức.
"Thư viện số là nơi sử dụng công nghệ để chuyển câu hỏi thành câu trả lời"
Xây dựng thư viện số là việc áp dụng công nghệ mới để xử lý thông tin và tri thức, bao gồm bảo quản, sưu tầm, tổ chức, quảng bá và truy cập thông tin có ý nghĩa Thư viện số được coi là không gian trưng bày các bộ sưu tập thông tin được tổ chức một cách khoa học, mang lại giá trị hữu ích cho người dùng.
Bộ sưu tập số hóa bao gồm văn bản, hình ảnh và âm thanh, cùng với các phương thức truy cập, tổ chức và bảo trì Được tạo ra bởi các chuyên gia thư viện, phần mềm thư viện số như Greenstone hỗ trợ người dùng tìm kiếm và giúp chuyên gia xây dựng, duy trì sưu tập hiệu quả Trong thư viện truyền thống, việc bổ sung tài nguyên trên giá kệ là quan trọng, nhưng hiện nay, thông tin về tài nguyên trong mục lục thư viện, hay còn gọi là metadata, đóng vai trò then chốt, hướng dẫn người dùng đến tri thức trong tài nguyên của thư viện.
Sự thay đổi bộ mặt thư viện
Thư viện được coi là kho tri thức của xã hội và là biểu tượng của văn hóa và tri thức Xuất hiện từ thời kỳ nông nghiệp, thư viện đã trải qua sự hồi sinh nhờ vào sự phát minh của ngành in trong thời kỳ Phục hưng Đặc biệt, thư viện bắt đầu phát triển mạnh mẽ khi cuộc cách mạng công nghiệp diễn ra, với nhiều phát minh cơ giới hóa quy trình in ấn.
Thư viện xưa được hình dung như một cơ sở vững chắc chứa hàng ngàn phiến đá khổng lồ khắc chữ, thường gọi là "rừng bia" Qua thời gian, cùng với sự tiến bộ của nhân loại, thư viện đã phát triển mạnh mẽ Giai đoạn Quản lý tư liệu đã kéo dài và dần chuyển sang việc xem người sử dụng là trung tâm, nhấn mạnh vào việc trao đổi thông tin để đáp ứng nhu cầu thông tin ngày càng cao Điều này đánh dấu sự khởi đầu của giai đoạn Quản lý thông tin, và từ đó, chúng ta nhận thức được rằng việc xây dựng thư viện số chính là bước vào giai đoạn phát triển mới: Giai đoạn Quản lý tri thức.
Thư viện cổ đại chỉ phục vụ một số ít người biết chữ và thuộc tầng lớp xã hội nhất định Hoạt động thư viện công cộng bắt đầu phát triển từ thế kỷ 19, nhưng vẫn còn mang tính chất đóng kín, với sách được xếp theo kích cỡ trong kho và độc giả chỉ có thể yêu cầu mượn sách qua thủ thư Đến thế kỷ 20, một số cán bộ thư viện đã nhận ra lợi ích của việc cho độc giả tiếp cận kho sách, từ đó đề xuất phương thức phục vụ kho mở với tài liệu được sắp xếp theo môn loại, phương thức này nhanh chóng phát triển ở các quốc gia nói tiếng Anh.
Ngày nay, chúng ta đang bước vào kỷ nguyên của thư viện số, nơi cuộc cách mạng thông tin không chỉ mang lại công nghệ tiên tiến mà còn đáp ứng nhu cầu lưu trữ, tổ chức và truy cập thông tin chưa từng có Nếu thông tin được coi là tiền tệ trong nền kinh tế tri thức, thì thư viện số chính là ngân hàng, nơi chứa đựng giá trị đầu tư Như Goethe, đại thi hào Đức, đã nói: “đến thư viện giống như đi vào một nơi phô bày sự giàu sang tột đỉnh, nơi lãi suất hậu hĩnh được thanh toán một cách thầm lặng.”
Xây dựng thư viện số không chỉ đơn thuần là tạo ra một cơ sở thư viện mới, mà còn là phát triển một nền tảng công nghệ nhằm quản lý tri thức hiệu quả Nền tảng công nghệ này phải được xây dựng dựa trên cơ sở thư viện truyền thống, do đó, việc củng cố nền tảng thư viện truyền thống là điều thiết yếu Điều này bao gồm việc tuân thủ các tiêu chuẩn nghiệp vụ cơ bản và điều chỉnh một số giá trị cũ để phù hợp với ứng dụng công nghệ mới.
Chuyển đổi một thư viện truyền thống sang dạng số là một nhiệm vụ đầy tham vọng và tốn kém Mặc dù nhiều người tin rằng cần phải số hóa toàn bộ tài liệu trong thư viện để xây dựng một thư viện số, quan niệm này hoàn toàn sai lầm Thực tế, không có thư viện nào trên thế giới đủ nguồn lực để thực hiện công việc này một cách hoàn chỉnh.
Thư viện số mang lại ba lợi ích vượt trội so với thư viện truyền thống: dễ dàng truy cập từ xa, khả năng tra cứu nâng cao và cung cấp dịch vụ giá trị gia tăng cho người dùng Tuy nhiên, trước khi tiến hành số hóa một bộ sưu tập, cần cân nhắc kỹ lưỡng về tính cần thiết của việc này.
Tình hình phát triển thư viện số trên thế giới và Việt Nam
3.1 Tình hình phát triển thư viện số trên thế giới
Sự phát triển mạnh mẽ của mạng lưới truyền thông và công nghệ thông tin đã dẫn đến sự bùng nổ của các thư viện số trên toàn cầu Những thư viện số này không chỉ đóng vai trò là trung tâm thu thập và sản xuất tài nguyên thông tin đa dạng, mà còn là cầu nối giữa các chuyên gia, cán bộ thư viện và độc giả Chúng cung cấp công cụ hiệu quả để khám phá, tìm kiếm và truy xuất thông tin, đồng thời là mô hình hiện đại cho dịch vụ thông tin chuyên biệt Sự xuất hiện của thư viện số mang lại cơ hội mới cho sự phát triển của thư viện, nhưng cũng đặt ra yêu cầu cải cách cao hơn cho các thư viện truyền thống.
Nhiều thư viện điện tử và số đã được phát triển ở các nước tiên tiến, trong đó Thư viện Quốc hội Hoa Kỳ đang thực hiện một chương trình chuyển đổi tư liệu in sang nguồn tin điện tử Nếu tiến độ được duy trì, độc giả toàn cầu trong thế kỷ 21 sẽ có khả năng truy cập vào kho tư liệu số hóa của Thư viện Quốc hội qua Internet Ngoài ra, nhiều thư viện đại học Mỹ cũng đang nỗ lực số hóa các sưu tập của họ để người dùng có thể tiếp cận dễ dàng Các chuyên gia còn đặt mục tiêu xây dựng một thư viện toàn cầu, cho phép mọi người trên khắp thế giới truy cập vào tài liệu số từ nhiều nguồn khác nhau.
3.2.Tình hình phát triển thư viện số ở Việt Nam
Khái niệm "Thư viện điện tử" và "Thư viện số" còn mới mẻ đối với cộng đồng thư viện Việt Nam, nhưng nhu cầu nghiên cứu về chúng đã gia tăng từ khi xây dựng chiến lược phát triển thông tin - thư viện cho giai đoạn 2010-2020 Xu hướng toàn cầu chuyển sang xã hội thông tin và sự bùng nổ công nghệ thông tin đã thúc đẩy việc số hóa kho tư liệu truyền thống, nhằm giảm áp lực về không gian lưu trữ Việc phát triển các thư viện điện tử và thư viện số không chỉ giúp chia sẻ nguồn lực, tăng khả năng truy cập thông tin, mà còn tiết kiệm chi phí mua sắm sách báo trong bối cảnh giá xuất bản phẩm tăng cao, đồng thời khắc phục tình trạng trùng lặp và dư thừa trong các kho tư liệu.
Hiện nay, trên thế giới có nhiều hệ thống phần mềm thư viện số như Project Gutenberg, Ibiblio và Internet Archive, nhưng phần lớn là sản phẩm thương mại Tại Việt Nam, có ít nhất ba nhà cung cấp hệ thống phần mềm thư viện số, bao gồm Công ty CMC với hệ thống iLib, Công ty Tin học Lạc Việt với phần mềm VeBrary, và Công ty Tinh Vân với phần mềm Libol Tuy nhiên, các chuyên gia nhận định rằng phần mềm thư viện hiện tại tại Việt Nam còn hạn chế về độ tin cậy do thời gian thử nghiệm ngắn và quy mô khai thác nhỏ Vì vậy, việc áp dụng một hệ thống thư viện số đạt tiêu chuẩn quốc tế là rất cần thiết để nâng cao chất lượng và tạo sự liên kết hiệu quả giữa các thư viện.
Việt Nam, như nhiều quốc gia đang phát triển khác, đối mặt với nhiều thách thức, đặc biệt là về tài chính, trong việc phát triển các thư viện thành thư viện số và thư viện thông minh Theo Art Pasquirelli, Giám đốc tổ chức Nghiên cứu và Giáo dục toàn cầu, sự thiếu hụt nguồn lực tài chính là một trong những rào cản lớn nhất cho sự tiến bộ này.
Mỹ trong bài viết “Các xu hướng phát triển công nghệ thư viện số” chỉ ra rằng nguồn tài chính đầu tư là rào cản lớn nhất đối với sự phát triển của thư viện số Điều này giải thích tại sao phần lớn các dự án phát triển kho tư liệu số hiện nay chỉ ở dạng thử nghiệm hoặc nghiên cứu triển khai Các thách thức liên quan đến số hóa nguồn tin quy mô lớn, xây dựng siêu dữ liệu để đảm bảo khai thác hiệu quả, cũng như cam kết lưu trữ và bảo quản nguồn tin số hoá lâu dài sẽ tiêu tốn nhiều ngân quỹ của thư viện.
PHẦN MỀM NGUỒN MỞ GREENSTONE VÀ THỰC TRẠNG ỨNG DỤNG CNTT TẠI THƯ VIỆN TRƯỜNG CĐ NVHN THỜI GIAN QUA
Vài nét về phần mềm nguồn mở (Open Source Software)
Mặc dù khái niệm mã nguồn mở được Richard Stallman đề xuất từ những năm 1970, nhưng mãi đến năm 1991, khi hệ điều hành Linux ra đời, nó mới thực sự trở thành một xu hướng rõ rệt trong lĩnh vực phần mềm.
Richard Stallman, làm việc tại phòng thí nghiệm Trí tuệ nhân tạo của MIT, là người tiên phong trong việc nhận ra sức mạnh của phần mềm "tự do", mà ở đây hiểu là tự do thay đổi mã nguồn, không chỉ đơn thuần là miễn phí Ông đã tạo ra Giấy phép Công cộng GNU (GPL) vào năm 1984, nhằm bảo vệ quyền sử dụng, sửa đổi và phân phối mã nguồn của chương trình gốc và các chương trình dẫn xuất Kể từ đó, dự án GNU và Tổ chức Phần mềm Tự do (FSF) đã phát triển nhiều phần mềm nguồn mở thành công, bao gồm các công cụ lập trình như Emacs, GCC, và GNU C++ Tại MIT, tập đoàn X Consortium cũng được thành lập để phát triển và bảo trì phần mềm giao diện đồ họa đa cửa sổ X-Window.
Các phần mềm mạng máy tính (PMNM) không chỉ được ưa chuộng trong lĩnh vực khoa học và giáo dục mà còn được các công ty công nghệ cao như DEC, NCD, Netscape, Novell, SGI, Sun và Wyse áp dụng rộng rãi trong nhiều thiết bị và phần mềm thương phẩm (PMTP), đặc biệt là trong việc quản lý các server mạng máy tính.
Năm 1991, Linus Torvalds phát triển hệ điều hành nguồn mở dựa trên Unix, với nhiều thành phần từ dự án GNU theo giấy phép GPL Hệ điều hành này, thường được gọi là Linux hoặc chính xác hơn là GNU/Linux, đã trở thành một sản phẩm hoàn chỉnh và được nhiều tổ chức thương mại phân phối, cung cấp dịch vụ hỗ trợ và sản phẩm đóng gói giá rẻ dưới dạng CD.
Một đóng góp lớn khác cho PMNM là của Eric S.Raymond, đồng sáng lập và giám đốc kỹ thuật của Chester County InterLink ở Pensylvania,
Trong bài viết "Nhà thờ và cửa hàng tạp hóa", Raymond đã phân tích lý do tại sao một đội ngũ tình nguyện viên đông đảo có thể phát triển phần mềm vượt trội hơn so với các chuyên gia đắt giá của các công ty phần mềm lớn Quan điểm của ông đã thúc đẩy một số tập đoàn công nghệ lớn như IBM, Intel, Netscape và Sun xem xét lại cách tiếp cận của họ đối với phần mềm mã nguồn mở, từ đó đóng góp tích cực cho cộng đồng này.
Bước tiến quan trọng tiếp theo giúp PMNM đạt được sự cạnh tranh công bằng về công nghệ với tiêu chuẩn sở hữu thương mại là sự ra đời và ứng dụng vào năm 2023.
1998 của các giao diện đồ họa nguồn mở KDE, GNOME
Những thành công của phần mềm nguồn mở như Gnu/Linux, Apache, Bind, và Perl đã giúp giảm bớt áp lực độc quyền từ các nhà sản xuất phần mềm nguồn đóng.
1995 đến nay, nhiều tổ chức và quốc gia đã sử dụng ngày càng rộng rãi các PMNM và đã có những kết quả nhất định
- 90% máy chủ tên miền ở Hoa kỳ, 70% máy chủ thư tín điện tử và 60% máy chủ web trên thế giới đã dùng PMNM
Thị trường Linux đã có sự phát triển vượt bậc, đạt vị trí thứ hai vào năm 1999, nhanh hơn nhiều so với dự đoán trước đó rằng phải đến năm 2002 hoặc 2003 mới có thể đạt được thành tích này.
- Đến giữa năm 2001, đã có 56% số doanh nghiệp toàn cầu sử dụng PMNM
Tính đến tháng 6-2001, tại Pháp, Bộ Văn hóa đã chuyển 400 máy chủ sang hệ điều hành GNU/Linux, trong khi Tổng Cục Thuế quốc gia cũng đã chuyển 950 máy chủ, nhấn mạnh tầm quan trọng của an toàn và bảo mật dữ liệu Đồng thời, Trung Quốc và Mexico đã phê duyệt các biện pháp chuyển đổi hệ thống máy tính của tất cả các cơ quan hành chính sang Linux Hồng Kỳ.
Chính phủ Đức đã quyết định cấm sử dụng các sản phẩm của Microsoft trong các hệ thống máy tính nhạy cảm Để giám sát và bảo vệ mạng máy tính của các quốc gia thành viên, Cộng đồng châu Âu khuyến cáo các tổ chức và cơ quan công quyền nên ưu tiên sử dụng phần mềm mã nguồn mở, vì đây là biện pháp duy nhất đảm bảo không có "cửa sau" trong phần mềm.
PMNM là phần mềm mã nguồn mở, cho phép người dùng tự do sửa đổi, cải tiến và phát triển mà không cần xin phép, theo các nguyên tắc trong giấy phép như GPL Điều này trái ngược với phần mềm nguồn đóng, nơi người dùng không có quyền thực hiện các thay đổi PMNM không chỉ miễn phí về giá mua mà còn về bản quyền, mang lại sự linh hoạt cho người dùng trong việc nâng cấp phần mềm.
Nhà cung cấp phần mềm nguồn mở có quyền yêu cầu người dùng thanh toán cho các dịch vụ như bảo hành, huấn luyện, nâng cấp và tư vấn mà họ đã thực hiện Tuy nhiên, họ không được phép bán các sản phẩm nguồn mở, vì chúng thuộc về tài sản trí tuệ chung, không phải tài sản riêng của bất kỳ nhà cung cấp nào.
Trên thị trường phần mềm, có nhiều loại giấy phép Có thể chia các giấy phép này như sau:
Phần mềm thương mại là loại phần mềm được bảo vệ bản quyền bởi tác giả hoặc nhà sản xuất, chỉ được phát hành dưới dạng mã nhị phân Người dùng cần phải mua phần mềm này và không có quyền phân phối lại.
▪ Phần mềm thử nghiệm giới hạn (Limited Trial Software)
Phiên bản giới hạn của phần mềm thương mại được cung cấp miễn phí nhằm mục đích thử nghiệm và giới thiệu sản phẩm, giúp người dùng quyết định mua hàng Sản phẩm này không chỉ hạn chế về tính năng mà còn có thời gian dùng thử thường là 60 ngày.
▪ Phần mềm “chia sẻ” (Shareware)
Phần mềm này cung cấp đầy đủ tính năng và được phân phối miễn phí, tuy nhiên có giấy phép khuyến cáo cho cá nhân hoặc tổ chức mua, tùy thuộc vào hoàn cảnh cụ thể Nhiều tiện ích Internet, chẳng hạn như "WinZip", tận dụng hệ thống phân phối của Shareware.
▪ Phần mềm sử dụng phi thương mại (Non-commercial Use)
Khái quát về phần mềm nguồn mở Greenstone
Các thư viện số đang thay đổi nhanh chóng cách thu thập và phổ biến thông tin, đặc biệt ở các quốc gia đang phát triển Năm 1995, một nhóm giảng viên và sinh viên tại Đại học Waikato, New Zealand đã phát triển phần mềm Greenstone, cho phép người dùng xây dựng và phân phối các bộ sưu tập thư viện số một cách dễ dàng Greenstone mang đến phương pháp mới để tổ chức và xuất bản thông tin trên Internet và CD-ROM Ban đầu, phần mềm này là sản phẩm của dự án New Zealand Digital Library, và từ tháng 8/2000, UNESCO cùng với Human Info NGO đã tham gia phát triển và hỗ trợ, với giấy phép mã nguồn mở GNU General Public License.
Greenstone là phần mềm quản lý tài liệu mang tính quốc tế, hiện đã được sử dụng rộng rãi ở nhiều quốc gia với giao diện và bộ sưu tập đa ngôn ngữ Nhóm nghiên cứu tin rằng việc mở rộng hỗ trợ cho tất cả các ngôn ngữ là khả thi UNESCO đang phát triển Greenstone như một phần của chương trình "Thông tin cho tất cả - Information for All" Phần mềm này cũng hỗ trợ nhiều hệ điều hành, bao gồm Windows, Unix và Macintosh OS/X.
Người dùng có thể truy cập các bộ sưu tập của Greenstone qua web hoặc đĩa CD mà không gặp nhiều khác biệt Hệ thống Greenstone bao gồm hai phần: phần xử lý offline, giúp tạo dựng các bộ sưu tập và cấu trúc dữ liệu để tìm kiếm; và phần xử lý online, cho phép người dùng truy xuất và sử dụng các bộ sưu tập một cách dễ dàng.
Sau đây là những điều tóm lược về những đặc trưng nổi bật, và cũng là ưu thế của Greenstone
- Truy cập qua trình duyệt web, cả ở chế độ cục bộ (local) và từ xa (remote)
- Chạy được trên nhiều hệ điều hành : Windows, Unix, Macintosh
- Tìm kiếm toàn văn bản và tìm kiếm theo từng trường riêng biệt
- Khả năng trình duyệt linh động, đa dạng
- Cấu trúc duyệt tài liệu được xây dựng hoàn toàn tự động
- Tận dụng các metadata sẵn có trong tài liệu, giúp người tạo lập bộ sưu tập không phải làm bằng tay
- Khả năng linh động, dễ mở rộng hệ thống nhờ các thành phần như plugin, classifier
- Hỗ trợ xử lý tài liệu với nhiều loại ngôn ngữ
- Cung cấp giao diện đa ngôn ngữ
- Ngoài các bộ sưu tập văn bản, hình ảnh thông thường, Greenstone còn cho phép tạo các bộ sưu tập hình ảnh, âm thanh đa phương tiện (multimedia)
- Khả năng lưu trữ rất lớn, tới hàng Gigabyte dữ liệu
- Thêm mới bộ sưu tập đơn giản, có hiệu quả tức thì
- Khả năng xuất bản các bộ sưu tập ra CD, với đầy đủ tính năng để có thể tự cài đặt và chạy độc lập
- Các bộ sưu tập dễ dàng được mang chuyển, phân phối, chia sẻ.
Một số khái niệm cơ bản trong Greenstone
Greenstone hỗ trợ nhiều định dạng tài liệu khác nhau, bao gồm HTML, XML, TXT, và các định dạng phức tạp như Word, RTF Ngoài ra, nó còn tương thích với các định dạng phổ biến như PDF và PostScript, cùng với các tài liệu đa phương tiện như âm thanh (.mp3), hình ảnh và video.
Thư viện số do Greenstone phát triển bao gồm nhiều bộ sưu tập, mỗi bộ tập trung vào một chủ đề cụ thể như luận văn hay sách Các bộ sưu tập này có thể được cập nhật và mở rộng, với kích thước có thể lên đến hàng gigabyte dữ liệu Mỗi bộ sưu tập được xem như một đơn vị cơ bản trong thư viện số Greenstone.
Mặc định, các bộ sưu tập cho phép tìm kiếm toàn bộ nội dung văn bản hoặc theo từng vùng và đoạn Người dùng có thể tìm kiếm theo từ khóa hoặc cụm từ, với kết quả được sắp xếp theo yêu cầu của câu truy vấn.
Greenstone cho phép người dùng định nghĩa các cấu trúc để duyệt tài liệu trong mỗi bộ sưu tập dựa trên metadata có sẵn Đặc biệt, với các tài liệu được phân cấp theo bảng mục lục, việc duyệt theo mục lục trở nên dễ dàng và tiện lợi hơn bao giờ hết.
Thông tin mô tả cho một tài liệu trong bộ sưu tập bao gồm nhan đề tài liệu, tên tác giả và ngày xuất bản Greenstone sử dụng các thẻ XML để mô tả thông tin cho tài liệu.
Tìm hiểu nguồn mở Greenstone
Quy,Quỳnh
Các thẻ này có thể:
- Được nhúng trong tài liệu của bộ sưu tập, ví dụ các thẻ HTML trong tài liệu HTML
- Được lưu thành tập tin metadata kèm theo tài liệu
- Được trích một cách tự động từ một tài liệu nào đó, ví dụ thông tin về tên, kích thước, ngày tạo, ngày hiệu chỉnh … tập tin tài liệu
Biên mục là một khái niệm quan trọng trong nghiệp vụ thư viện, liên quan đến việc cung cấp thông tin mô tả cho các tài liệu Hiện nay, quy chuẩn quốc tế Dublin Core thường được sử dụng để biên mục tài liệu trong thư viện.
Plugin là chương trình con (script) hỗ trợ xây dựng bộ sưu tập bằng cách chuyển đổi các tài liệu đầu vào đa dạng (pdf, word, text…) sang định dạng XML của Greenstone Plugin này trích xuất thông tin từ tài liệu nguồn và định dạng lại thành XML Ví dụ, HTMLPlug là một plugin chuyển đổi các trang HTML sang định dạng XML của Greenstone và trích xuất metadata, như tiêu đề của trang HTML được bao trong cặp tag.
được trích ra và đưa vào tập tin XML của Greenstone
Mỗi bộ sưu tập đều đi kèm với một tập tin cấu hình collect.cfg, trong đó liệt kê các plugin cần thiết cho việc xây dựng bộ sưu tập Việc lựa chọn plugin tương ứng phụ thuộc vào định dạng tài liệu nguồn; chẳng hạn, nếu tài liệu nguồn là file Word, chúng ta sẽ sử dụng plugin WordPlug.
Các plugin được phát triển bằng ngôn ngữ lập trình Perl và tất cả đều kế thừa từ plugin cơ sở BasPlug Plugin cơ sở này thực hiện các thao tác cơ bản như tạo tài liệu XML mới theo định dạng của Greenstone và gán định danh cho tài liệu Tất cả các plugin được lưu trữ trong một thư mục riêng.
To gather information about a plugin located in "greenstone\perllib\plugins," use the command prompt command: pluginfo.pl plugin-name Additionally, it is possible to create new plugins.
-BasPlug là lớp cơ sở cho tất cả các plugin
-ConvertToPlug Gọi các chương trình bên ngoài để chuyển các tài liệu độc quyền (word hay pdf) sang html hay plain text
ArcPlug là một plugin quan trọng trong quá trình xử lý các tập tin được chỉ định trong tập tin archives.inf, đóng vai trò cầu nối giữa tiến trình import và tiến trình build Để sử dụng plugin này, việc khai báo trong tập tin cấu hình là bắt buộc.
-RecPlug Duyệt qua thư mục để xử lý các tập tin mà plugin này tìm thấy
-GAPlug Xử lý những tập tin của Greenstone được phát sinh từ chương trình import.pl (.xml)
-TEXTPlug Xử lý tập tin text thuần túy txt, text
- HTMLPlug Xử lý tập tin HTML htm, html,
-WordPlug Xử lý tài liệu Word (.doc)
-PDFPlug Xử lý tập tin pdf (.pdf)
-PSPlug Xử lý tài liệu postscript, trích thông tin metadata ngày, tựa đề, số trang (.ps)
-EMAILPlug Xử lý những thông điệp email, trích thông tin như tác giả, chủ đề, ngày…(Tên tập tin kết thúc bằng số, hoặc số theo sau là Email)
-BibTexPlug Xử lý các tập tin bibliography theo chuẩn BibTex (.bib)
-ReferPlug Xử lý các tập tin bibliography theo chuẩn Refer (.bib) -ImagePlug Xử lý các tập tin ảnh (.gif, jpg, jpeg, png, bmp, xbm, tif, tiff)
-ZIPPlug Xử lý các tập tin nén (.gzip, bzip, zip, tar, gz, bz, tgz, taz)
Classifier là công cụ giúp xây dựng cấu trúc duyệt tài liệu trên web cho bộ sưu tập Giống như các plugin, các classifier được định nghĩa trong tập tin cấu hình collect.cfg của từng bộ sưu tập Trong giai đoạn cuối của quá trình xây dựng bộ sưu tập, khi nén và tạo chỉ mục tài liệu, script buildcol.pl sẽ gọi các classifier để lưu trữ cấu trúc duyệt tài liệu vào cơ sở dữ liệu của bộ sưu tập.
Cú pháp: classify
Ví dụ: classify AZList -metadata Title -buttonname TitleA-Z
Trong đặc tả, tham số metadata rất quan trọng vì nó xác định cách sắp xếp các tài liệu trong bộ sưu tập Ví dụ, các tài liệu sẽ được sắp xếp theo tiêu đề (Title) của chúng.
Tham số buttonname quyết định tên nút hiển thị trên thanh duyệt Khi nhấn nút TitleA-Z, các tài liệu trong bộ sưu tập sẽ được sắp xếp theo thứ tự alphabet từng vùng.
Các classifier được đặt trong thư mục greenstone\perllib\classify Để biết thông tin của classifier, dùng lệnh: classinfo.pl
Chúng ta có khả năng tạo ra các classifier mới, điều này cho phép các nút trên thanh duyệt, ngoại trừ nút Search, được quản lý bởi các classifier Khi bạn định nghĩa một classifier trong tập tin collect.cfg, các nút tương ứng sẽ tự động xuất hiện trên thanh duyệt.
Nhóm classifier liệt kê tài liệu dưới dạng danh sách (list)
Classifier AZList: liệt kê tài liệu theo từng vùng alphabet
Hình 2.1: Minh họa Classifier AZList
Classifier List: liệt kê tài liệu thành một danh sách sắp thứ tự alphabet
Hình 2.2: Minh họa Classifier List
Classifier DateList: liệt kê tài liệu theo từng vùng thời gian
Hình 2.3: Minh họa Classifier DateList Nhóm classifier liệt kê tài liệu dưới dạng phân cấp (hierarchy)
Classifier Hierarchy: liệt kê các tài liệu dưới dạng phân cấp
Hình 2.4: Minh họa Classifier Hierarchy
1.3.9 Định dạng cách hiển thị tài liệu
Thực trạng ứng dụng CNTT tại thư viện Trường CĐ NVHN thời gian
Tin học hoá hoạt động thông tin thư viện đang trở thành xu thế phát triển tất yếu của các cơ quan thông tin - thư viện, diễn ra với tốc độ nhanh chóng Theo Tạp chí Thư viện (Library Journal), đến năm 1981, toàn thế giới chỉ có 301 thư viện tự động hoá, nhưng đến năm 1992, con số này đã tăng lên 8789 thư viện, cho thấy sự tăng trưởng mạnh mẽ gấp 29 lần chỉ trong 10 năm.
Ngày nay, dưới sự chỉ đạo của Đảng và Nhà nước, các thư viện đang phát triển mạnh mẽ trong bối cảnh toàn cầu hóa và bùng nổ thông tin, đặc biệt là thông qua việc ứng dụng công nghệ thông tin và viễn thông Các thư viện trong hệ thống đào tạo, với đặc thù là chuyển giao tri thức chất lượng cao, đang nhận được sự quan tâm và đầu tư mạnh mẽ Thư viện trường Cao đẳng Nội vụ Hà Nội cũng nằm trong xu hướng phát triển này, góp phần vào sự tiến bộ chung của hệ thống thư viện giáo dục.
Thư viện Nhà trường đang trở thành trung tâm quan trọng trong việc phục vụ nhiệm vụ giáo dục trong giai đoạn mới, đặc biệt sau khi Nhà trường chính thức nâng cấp thành trường Cao đẳng vào năm 2005 Mặc dù còn nhiều hạn chế, đặc biệt là trong ứng dụng công nghệ thông tin, Thư viện đã nhận được sự quan tâm từ lãnh đạo Nhà trường Hiện tại, Thư viện đã được trang bị 07 máy tính cá nhân, trong đó có 02 máy dành cho cán bộ thư viện và 05 máy phục vụ bạn đọc, cùng với kết nối Internet băng thông rộng, nhằm nâng cao chất lượng phục vụ.
Yếu tố cơ sở hạ tầng - kỹ thuật là quyết định trong ứng dụng công nghệ thông tin tại thư viện, nhưng phần mềm quản lý hoạt động chuyên môn và trình độ cán bộ cũng rất quan trọng Nhóm tác giả đã khảo sát thực trạng ứng dụng công nghệ thông tin tại thư viện trường để đưa ra các đề xuất nhằm nâng cấp hoạt động này Dưới sự quan tâm của lãnh đạo nhà trường, thư viện đã đầu tư phần mềm quản lý BSC EMIS LIBRARY, nhưng phần mềm này chưa đáp ứng yêu cầu tối thiểu trong bối cảnh thông tin ngày càng phức tạp Do đó, vào tháng 6 năm 2008, thư viện đã triển khai xây dựng một số cơ sở dữ liệu dựa trên phần mềm CDS/ISIS for Windows, được sử dụng phổ biến tại các thư viện ở các nước đang phát triển theo UNESCO.
WinISIS), với khả năng dễ sử dụng và đã được kiểm nghiệm trong thực tế, Thư viện trường đã xây dựng 02 CSDL: CSDL SACH, CSDL LUAN
Việc xây dựng và triển khai hai cơ sở dữ liệu đã giúp tăng tốc độ tìm kiếm tài liệu, in ấn phiếu mục lục và bản thư mục Điều này không chỉ nâng cao chất lượng dịch vụ mà còn đáp ứng tốt hơn nhu cầu của bạn đọc trong việc tìm kiếm và khai thác thông tin.
Trong thời gian tới, thư viện cần xây dựng và triển khai CSDL toàn văn cho tài liệu như tập bài giảng và giáo trình do giáo viên biên soạn, bên cạnh việc tiếp tục cập nhật hai CSDL hiện có Trước khi đưa vào sử dụng, cần chú trọng đến các công cụ quản lý, vấn đề bản quyền tác giả, và chính sách phù hợp cho từng nhóm người dùng và từng tên sách cụ thể.
Xây dựng trang web thư viện là một công cụ quan trọng để kết nối người dùng với kho tài liệu điện tử, hỗ trợ hiệu quả cho các nhiệm vụ của thư viện Mục tiêu chính là nâng cao chương trình giáo dục, đào tạo và nghiên cứu khoa học thông qua việc tổ chức và cung cấp nguồn thông tin đa dạng Trang web cũng cung cấp hướng dẫn và đào tạo người dùng, giúp họ tự tìm kiếm và đánh giá thông tin Đặc biệt, đối tượng sử dụng trang web được mở rộng đến cả cộng đồng, bao gồm cả những người không phải là thành viên của thư viện.
Xây dựng trang web cho thư viện CĐ NVHN là hoàn toàn khả thi, vì trường đã có trang web hoạt động từ năm 2005 và hệ thống mạng hiện tại khá ổn định.
Việc tích hợp trang web của thư viện với trang web của trường học để cập nhật thông tin lên Internet là rất dễ dàng Ứng dụng công nghệ thông tin vào hoạt động của thư viện cần được thực hiện từng bước, dựa trên nghiên cứu kỹ lưỡng về các phần mềm và giải pháp công nghệ đã được áp dụng tại các cơ quan thông tin thư viện trong nước Điều này nhằm tìm ra giải pháp tổng thể và tối ưu nhất cho đặc thù của từng đơn vị.
Việc ứng dụng công nghệ thông tin nhằm nâng cao hiệu quả trong xử lý, lưu trữ và tìm kiếm thông tin, đồng thời khai thác tối đa các xuất bản phẩm điện tử Điều này cũng góp phần hiện đại hóa và đa dạng hóa các sản phẩm và dịch vụ thông tin thư viện.
Chúng ta cần mạnh dạn áp dụng các phương pháp quản trị thông tin và mạng hoá để tạo ra một không gian thông tin thống nhất Điều này đảm bảo rằng ngôn ngữ tìm kiếm thông tin tuân thủ các chuẩn mực và mẫu giao dịch thống nhất, giúp người dùng trong và ngoài trường CĐ NVHN truy cập thông tin một cách chính xác, kịp thời, đầy đủ và đơn giản Việc sử dụng phần mềm nguồn mở Greenstone là một giải pháp cần thiết, khả thi và hiệu quả cho mục tiêu này.
ỨNG DỤNG GREENSTONE ĐỂ XÂY DỰNG VÀ PHÂN PHỐI CÁC BỘ SƯU TẬP SỐ TẠI THƯ VIỆN TRƯỜNG CĐ NVHN
Yêu cầu về hệ thống
-200 MB đĩa cứng (HDD) còn trống chỗ
-HDD :Free 200MB trở lên
Cấu trúc chương trình xây dựng bộ sưu tập bằng GREENSTONE
Quá trình xây dựng một bộ sưu tập trải qua 3 pha chính
Pha 1 : Tạo cấu trúc chung cho bộ sưu tập
Pha 2 : Chuyển định dạng tài liệu nguồn sang định dạng XML
Pha 3 : Nén và tạo chỉ mục trên các tài liệu của bộ sưu tập Ở mỗi pha ta dùng chương trình do Greenstone hỗ trợ để xây dựng bộ sưu tập
Pha 1 : dùng chương trình mkcol.pl
Pha 2 : dùng chương trình import.pl
Pha 3 : dùng chương trình buildcol.pl
Các chương trình trên được đặt trong thư mục
Hình 3.1 - Quá trình xây dựng bộ sưu tập
Chương trình mkcol.pl được sử dụng để thiết lập cấu trúc chung cho một bộ sưu tập, đồng thời tạo tệp cấu hình mặc định collect.cfg trong thư mục con.
“etc” của bộ sưu tập
2.2.2 Cú pháp: mkcol.pl [Các tùy chọn]
-creator : địa chỉ email của người tạo bộ sưu tập
-optionfile : lấy những tùy chọn từ một tập tin nào đó
-maintainer : địa chỉ email của người quản lý bộ sưu tập
-collectdir : thư mục chứa bộ sưu tập Giá trị mặc định là
-public : cho phép bộ sưu tập được truy cập rộng rãi hay không Giá trị mặc định là “true”
-title : tựa đề của bộ sưu tập
-about : thông tin mô tả bộ sưu tập
-plugin : tên plugin được dùng
-quiet : không hiển thị các thông báo của chương trình
Tham số win31compat xác định xem tên thư mục của bộ sưu tập có tuân theo quy ước của Windows 3.1 hay không, với độ dài tối đa là 8 ký tự Giá trị mặc định của tham số này là "true".
Chuyển định dạng tài liệu nguồn sang định dạng XML của Greenstone, tạo tập tin tóm tắt thông tin archive.inf
2.3.2 Cú pháp: import.pl [Các tùy chọn]
-archivedir : đường dẫn đến các tập tin sau khi import, mặc định là
“greenstone\collect\\archives”
-collectdir : thư mục chứa các bộ sưu tập, mặc định là
-debug: chạy chương trình ở chế độ debug, chỉ xuất kết quả ra màn hình, không tạo các tập tin kết quả sau khi import
Tùy chọn faillog cho phép bạn chỉ định đường dẫn đến tệp log ghi lại tên của các tệp không thể nhập Mặc định, tệp này được lưu tại “greenstone\collect\\etc\fail.log”.
-groupsize : số tài liệu được nhóm thành một tập tin XML, mặc định là 1
-gzip: dùng gzip để nén những tài liệu XML kết quả Chú ý phải thêm plugin
ZIPPlug vào danh sách các plugin trong tập tin cấu hình
-importdir : đường dẫn đến các tập tin ngưồn
-keepold : không xóa nội dung của thư mục archive (mặc định)
-maxdocs : số tài liệu tối đa được import
The OIDtype is a method used to generate a unique ID for each document, with the default value set to hash The possible values include hash, incremental, assigned, and dirname.
-out : tên tập tin hoặc handle để in ra các dòng thông báo Giá trị mặc định là STDERR
-removeold: xóa những nội dung cũ của thư mục archives
-saveas : định dạng của tập tin sau khi import Mặc định là GA GA: định dạng theo Greenstone
METS: định dạng theo METS
-sortmeta : sắp xếp những tài liệu theo thứ tự alphabet của metadata Tùy chọn này sẽ bị bỏ qua nếu groupsize >1
-statsfile : tên tập tin hay handle để in ra các dòng thống kê của quá trình import Mặc định là STDERR
-verbosity : quản lý mật độ xuất các thông báo ra màn hình
Các giá trị : 0: không xuất; 3: nhiều; Giá trị mặc định là 2
Nén văn bản và tạo chỉ mục cho tài liệu XML là quy trình quan trọng trong việc lưu trữ thông tin Thao tác này giúp lưu giữ các dữ liệu liên quan đến bộ sưu tập như biểu tượng, tiêu đề và thông tin của classifier Việc quản lý hiệu quả các thông tin này trong cơ sở dữ liệu sẽ tối ưu hóa khả năng truy xuất và sử dụng dữ liệu.
2.4.2 Cú pháp buildcol.pl [Các tùy chọn]
-remove_empty_classifications : giấu đi những classifier và những nút phân cấp rỗng (chúng không chứa những tài liệu nào)
-archivedir : đường dẫn đến thư mục archives
-builddir : đường dẫn đến thư mục building chứa các chỉ mục đã được tạo
-collectdir : đường dẫn thư mục chứa các bộ sưu tập, mặc định là
-debug: chạy chương trình ở chế độ debug, chỉ xuất các kết quả ra màn hình, không tạo ra các tập tin kết quả
-faillog : đường dẫn đến tập tin log, mặc định là
“greenstone\collect\\etc\fail.log”
Chỉ mục xác định loại chỉ mục cần xử lý Nếu không chọn tùy chọn này, các chỉ mục trong tập tin cấu hình collect.cfg sẽ được xử lý mặc định.
-keepold: không xóa nội dung hiện tại ở thư mục building
-maxdocs : số tài liệu tối đa được xử lý
-mode : chỉ ra các công việc được thực hiện trong quá trình building, giá trị mặc định là all
The article outlines several key values: "all" processes all tasks, "compress_text" specifically compresses text, "build_index" focuses solely on creating an index for the text, and "infodb" is dedicated to constructing a metadata database.
-no_text: không lưu những văn bản được nén
-out : tên tập tin hoặc handle để xuất những thông báo tình trạng, mặc định là STDERR
-verbosity quản lý mật độ xuất những thông báo
Một số giá trị thường dùng:
3: xuất đầy đủ các thông báo
Giá trị mặc định là 2
2.5 Cấu trúc thư mục của Greenstone
Ta gọi thư mục cài đặt Greenstone là GSDLHOME Cấu trúc thư mục của Greenstone như sau:
Hình 3.2 – Cấu trúc thư mục của Greenstone
Thư mục "bin" chứa mã thực thi, trong khi "bin\script" lưu trữ các script Perl phục vụ cho việc tạo bộ sưu tập Thư mục "perllib" bao gồm các module Perl hỗ trợ quá trình này, và "perllib\plugins" chứa mã nguồn của các plugin xử lý tài liệu Thư mục "perllib\classify" có mã nguồn cho các classify giúp hiển thị kết quả tìm kiếm tài liệu Thư mục "cgi-bin" chứa các CGI script của Greenstone, còn "tmp" lưu trữ các tập tin tạm Thư mục "etc" bao gồm các tập tin cấu hình, log và cơ sở dữ liệu quản lý người dùng Thư mục "src" chứa mã nguồn C++, với "src/colservr" và "src/recpt" lưu trữ mã nguồn cho các thành phần cụ thể Thư mục "packages" chứa mã nguồn của các gói phần mềm hỗ trợ Greenstone, trong đó "packages\mg" là mã nguồn của phần mềm MG dùng để nén và tạo chỉ mục Thư mục "mappings" chứa các bảng chuyển đổi chuẩn Unicode, và "macros" lưu trữ các tập tin macro cho giao diện.
Greenstone collect Chứa các bộ sưu tập lib Chứa mã nguồn C++ dùng cho collection server và receptionist images Chứa các tập tin ảnh dùng cho giao diện của
Greenstone docs Chứa các tài liệu về Greenstone
2.6 Cấu trúc thư mục của một bộ sưu tập
Trong giai đoạn đầu tiên của việc xây dựng bộ sưu tập, sau khi thực hiện chương trình mkcol.pl, bộ sưu tập sẽ được hình thành với cấu trúc các thư mục cụ thể.
Bảng các thư mục của một bộ sưu tập
Thư mục "archives" chứa các tập tin sau khi được nhập; "building" lưu trữ các tập tin trong quá trình nén, tạo chỉ mục và cơ sở dữ liệu cho bộ sưu tập; "etc" bao gồm tập tin cấu hình collect.cfg; "images" chứa các hình ảnh dành riêng cho bộ sưu tập; "import" lưu trữ các tài liệu nguồn cần thiết để xây dựng bộ sưu tập; "index" chứa các tập tin đã nén, tạo chỉ mục và cơ sở dữ liệu lấy từ thư mục "building"; cuối cùng, thư mục "perllib" chứa các thư viện Perl hỗ trợ cho bộ sưu tập.
Người dùng có thể viết các thư viện perl hổ trợ thêm cho bộ sưu tập của mình và đặt trong thư mục này
2.7 Cấu trúc tài liệu theo định dạng XML
Trong pha import, Greenstone chuyển tài liệu nguồn sang tài liệu XML Dưới đây là phần định nghĩa kiểu tài liệu XML của Greenstone (DTD – Document Type Definition )
Tài liệu XML của Greenstone có một thẻ gốc là Tài liệu được chia thành nhiều vùng (section) được bao bọc bởi cặp thẻ
The tags can be nested within each other, with each containing a tag and a tag The tag may include one or more tags, which follow a specific structure.
Giá trị của metadata
Ta thường biên mục tài liệu theo chuẩn Dublin Core, ví dụ :
Greenstone là một phần mềm mã nguồn mở được thiết kế để quản lý và tổ chức tài liệu, sử dụng bộ thẻ Dublin Core (dc) để biên mục Nếu không có bộ metadata nào phù hợp trong Greenstone, người dùng có thể tự định nghĩa các bộ metadata riêng Ví dụ, để mô tả tiêu đề của một cuốn sách, người dùng có thể tạo ra các thẻ tùy chỉnh theo nhu cầu của mình.
Lập trình C++
Each document in Greenstone is assigned a unique ID generated by the system, known as the Object Identifier (OID), which is used to identify sections and subsections by numbering them For instance, the third subsection of the second section in a document has an OID of HASHa72X, represented as HASHa72X.2.3.
Hình 3.3 – Minh họa cấu trúc phân cấp của tài liệu Cấu trúc phân cấp của tài liệu được dùng cho chỉ mục tìm kiếm tài liệu, có
3 mức chỉ mục: document, section, paragraph
Chỉ mục document : tìm kiếm một số từ trong tất cả các tài liệu
Chỉ mục section : tìm kiếm một số từ trong từng section
Chỉ mục paragraph xem mỗi đoạn văn như là một tài liệu riêng biệt, thích hợp cho mục đích tìm kiếm tập trung
Hình sau minh họa cách tìm kiếm tài liệu theo chỉ mục document và section
Hình 3.4 - Tìm kiếm tài liệu theo chỉ mục document và section
Trong hình trên, chapters và section titles xác định chỉ mục theo section, còn entire documents xác định chỉ mục theo document
2.8 Tập tin cấu hình bộ sưu tập
Tập tin cấu hình collect.cfg của mỗi bộ sưu tập nằm trong thư mục “greenstone\collect\\etc”, có vai trò quan trọng trong việc quản lý giao diện, xử lý tài liệu và hiển thị nội dung tài liệu.
Công tác chuẩn bị xây dựng bộ sưu tập số
3.1.Số hóa tài liệu in ấn
Khi bắt đầu xây dựng một bộ sưu tập, việc số hoá tài liệu là một trong những công việc quan trọng đầu tiên Số hoá là quá trình chuyển đổi tài liệu thư viện truyền thống, bao gồm sách và văn bản, sang định dạng điện tử và lưu trữ trên máy tính.
Tiến trình số hoá bao gồm hai giai đoạn chính Giai đoạn đầu tiên là quét hình (scanning), tạo ra sản phẩm số hoá dưới dạng hình ảnh Giai đoạn thứ hai sử dụng công nghệ nhận dạng ký tự quang học (OCR) để chuyển đổi hình ảnh thành văn bản số hoá.
Trong nhiều hệ thống thư viện số, tài liệu thường chỉ ở giai đoạn đầu với hình ảnh, trong khi giai đoạn hai là cần thiết cho việc xử lý văn bản Ở giai đoạn này, tài liệu được chuyển đổi sang định dạng ASCII, cho phép biên mục và chỉ mục, giúp độc giả dễ dàng tìm kiếm các tổ hợp từ hoặc áp dụng kỹ thuật trích xuất metadata tự động Đối với văn bản Tiếng Việt, do thiếu phần mềm OCR hoàn chỉnh, ta có thể sử dụng định dạng PDF với sự hỗ trợ của Greenstone để tự động tạo tập tin HTML, từ đó cải thiện khả năng truy tìm nội dung văn bản.
*Lựa chọn số hóa tài liệu:
Trước khi bắt đầu quá trình số hóa một bộ sưu tập, cần cân nhắc kỹ lưỡng về sự cần thiết của việc số hóa các tài liệu đó.
Khi quyết định tiến hành chuyển đổi tài liệu, việc xác định độ ưu tiên của tài liệu là rất quan trọng Tài liệu thư viện được phân loại thành ba loại: sưu tập đặc biệt và tài liệu một bản như sách quý hiếm và bản viết tay; tài liệu được sử dụng cao, thường xuyên yêu cầu cho giảng dạy và nghiên cứu; và tài liệu có mức độ sử dụng thấp, bao gồm tài liệu nghiên cứu ít được sử dụng.
*Nguyên tắc số hóa tài liệu
Có sáu nguyên tắc được xác định nhằm chọn tài liệu để số hóa hướng đến việc phát triển sưu tập thư viện số:
1 Tính hữu dụng: Hữu dụng là lý do cơ bản trước tất cả mọi quyết định phát triển sưu tập Tài liệu có tần suất sử dụng cao (như giáo trình, tài liệu tham khảo mà các giáo viên thường yêu cầu tất cả sinh viên tìm đọc);
2 Nhu cầu nội bộ: Sưu tập nội bộ được xây dựng để phục vụ nhu cầu nội bộ và chi phí cho tài nguyên nội bộ phải được thuyết minh vì lợi ích nội bộ – chẳng hạn như đối với thư viện đại học, yêu cầu học tập, giảng dạy, và nghiên cứu là ưu tiên;
3 Tài liệu mới: Mặc dù sưu tập cũ mang tính lịch sử là cần thiết cho nghiên cứu, nhưng tài liệu mới vẫn ưu tiên hơn;
4 Tài liệu liên quan đến bản gốc: Những tài liệu mà người muốn tìm hiểu không thể tiếp cận được bản gốc (ví dụ các văn bản viết tay –
Các bản thảo của các nhà thơ, nhà văn và chính trị gia, cũng như các bản tuyên ngôn có chữ ký của các lãnh đạo, như bản Tuyên ngôn Độc lập của Hoa Kỳ, đều mang ý nghĩa quan trọng trong lịch sử văn học và chính trị.
Việc số hóa các bản viết tay tại Thư viện Quốc hội Hoa Kỳ và nhiều nơi khác không chỉ giúp bảo tồn di sản văn hóa mà còn tạo điều kiện thuận lợi cho các nhà nghiên cứu tiếp cận thông tin Các thể loại viết tay đa dạng trên nhiều chất liệu khác nhau đang được lưu giữ và số hóa, mang lại cơ hội khám phá phong phú cho cộng đồng nghiên cứu.
5 Tài liệu quý hiếm: Tài liệu quí hiếm, lâu năm, độc giả không thể trực tiếp sử dụng, dễ hư hỏng – chẳng hạn như tài liệu chữ Nôm trên giấy bổi;
6 Chuyển đối nhận thức: Ngày càng có nhiều thông tin chuyển sang dạng số Tài liệu giúp người sử dụng chuyển đổi nhận thức để làm quen việc sử dụng dạng thông tin này là ưu tiên
Chúng ta cần phải cân nhắc mức độ ưu tiên đối với những nguyên tắc trên trong việc chọn tài liệu để số hóa
3.2 Siêu dữ liệu Dublin Core Metadata
Khổ mẫu siêu dữ liệu Dublin Core là một bộ 15 yếu tố đơn giản nhưng hiệu quả trong việc mô tả các nguồn tin trực tuyến Các yếu tố này không bắt buộc và có thể lặp lại, cho phép sử dụng một số từ hạn định và định ngữ để tinh chỉnh ý nghĩa Ngữ nghĩa của các yếu tố đã được xác lập bởi nhiều chuyên gia trong lĩnh vực.
Các yếu tố mô tả: 15 yếu tố
- Nhan đề: tên của tài liệu được đặt bởi tác giả hoặc nhà xuất bản
- Tác giả (người sáng tác): cá nhân hoặc tổ chức sáng tạo ra nguồn thông tin, ví dụ: nhà văn, hoạ sĩ, nhà nhiếp ảnh, người minh họa
Chủ đề và từ khoá là yếu tố quan trọng trong việc mô tả nội dung của nguồn tin Chủ đề có thể được xem như từ khoá, giúp định hình nội dung và hướng dẫn người đọc Việc sử dụng các quyển từ vựng có kiểm soát và khung phân loại được khuyến khích để tối ưu hóa khả năng tìm kiếm và hiểu biết về thông tin.
Mô tả là việc trình bày một cách chi tiết về nội dung của nguồn thông tin, có thể bao gồm tóm tắt cho các tài liệu viết hoặc mô tả nội dung khi không xác định rõ ràng.
Nhà xuất bản là một thực thể có trách nhiệm tạo ra hình thức cho tài liệu, có thể là một nhà xuất bản độc lập, một khoa trong trường đại học hoặc một tổ chức khác.
Cài đặt GREENSTONE trên hệ điều hành Windows
4.1 Cài đặt phần mềm yêu cầu
- Trước khi cài đặt Greenstone người sử dụng phải cài đặt hai phần mềm yêu cầu : ImageMagick và Java
- Nhấn chuột hai lần (double click) vào tập tin ImageMagick-6.2.5.exe (6.90 MB) để cài đặt phần mềm ImageMagick Màn hình sau khi nhấn chuột như sau:
- Nhấn nút Next, sau đó chọn dòng “I accept the agreement” như hình minh họa:
- Nhấn nút Next liên tục cho đến khi gặp nút Install như hinh minh hoa:
- Nhấn nút Install để cài đặt Màn hình sau khi nhấn nút Install như sau:
- Nhấn nút Next để tiếp tục, sau đó nhấn nút Finish để kết thúc cài đặt ImageMagick
- Nhấn chuột hai lần (double click) vào tập tin j2re-1_4_2_09.exe (15.2 MB) để cài đặt phần mềm Java Màn hình sau khi nhấn chuột như sau:
- Chọn dòng “I accept the terms in the license agreement”, sau đó nhấn nút Next liênt tục để tới màn hình cài đặt
- Nhấn nút Finish để kết thúc quá trình cài đặt Java
- Nhấn chuột hai lần (double click) vào tập tin gsdl-2.80-win32 (47.8 MB) để cài đặt phần mềm Greenstone Màn hình sau khi nhấn chuột như sau:
- Nhấn nút OK để tiếp tục cài đặt, màn hình sau khi nhấn như sau:
- Nhấn nút Next để tiếp tục cài đặt:
- Lựa chọn nút I accept … Nhấn nút Next để tiếp tục cài đặt
- Ghi nhận thư mục cài đặt mặc định của chương trình (C:\Program
Files\Greenstone) Nhấn nút Next liên tục để tới màn hình cài đặt
- Chọn nút Install để tiến hành cài đặt
Khi thanh tiến trình chỉ 100% quá trình cài đặt kết thúc
With the release of version 2.82, both ImageMagick and Java are now integrated into the Greenstone installation package This means you only need to install once using the Greenstone-2.82-win32.exe file, which is 62MB in size.
Xây dựng bộ sưu tập số với GREENSTONE LIBRARIAN INTERFACE
5.1 Khởi động giao diện Librarian Interface
Là công cụ hỗ trợ cho việc tạo lập bộ sưu tập trong phần mềm
GREENSTONE được tạo ra khi bạn cài đặt phần mền GREENSTONE
Từ Start programs> GREENSTONE> LIBRARIAN INTERFACE
5.2.Thao tác với Gather để lựa chọn tài liệu
Sau khi khởi động, trên giao diện của LIBRARIAN INTERFACE > Chọn Menu File > chọn New > Hộp thoại Create a new Collection xuất hiện
Nhập tên của bộ sưu tập vào Collection Title
- Nhập mô tả về nội dung của bộ sưu tập Description of Content
Trong Tab Gather bên trái là giao diện Workspace và bên phải của giao diện là Space Collection
- Từ Tab Gather > Chọn Open Space Local
- Trong space local chọn thư mục hay nơi có chứa tài liệu đã chuẩn bị trước cho việc xây dựng bộ sưu tập
- Dùng con trỏ kéo thư mục/file sang giao diện Space Collection bên phải và thả ra GREENSTONE tự copy toàn bộ thư mục/file sang Space Collection
5.3.Thao tác với tab ENRICH & DESIGN để biên mục tài liệu
In the LIBRARIAN INTERFACE, navigate to the Enrich tab, where the left side displays the space collection interface and the right side shows the DC.Metadata with 15 fields Click to select the file you want to catalog from the available directories.
Trên giao diện DC Metadata > Click chọn vào từng trường của DC Metadata để biên mục
* 15 trường DC Metadata mang thuộc tính lựa chọn và có thể lặp lại
Vídụ : chọn trường Title (Nhan đề) > Nhập tên tài liệu vào ô nhập liệu
“Value”> Click chọn Append (đưa dữ liệu nhập vào trường đã chon)
* Tất cả các thông tin nhập vào sau khi Apend sẽ được đưa vào danh sách lưu của bộ sưu tập theo 15 trường (DC) trong bộ sưu tập
Trên giao diện của Librarian Interface
Chuyển sang Tab Design > General, cho phép sửa đổi các thông tin của bộ sưu tập
-Sửa đổi và cập nhật các Plugin
Chuyển sang Tab Design > Document Plugins Thông thường Document Plugins ở chế độ mặc định gồm: ZIPPlug, HTMLPlug, TEXTPlug, PDFPlug, WordPlug…
Nếu muốn thêm các Plugin vào, ta thực hiện: Chọn Plugin trong Select Plugin to Add > click vào Add Plugin
Nếu bỏ 1 Plugin ta thực hiện: chọn Plugin trên danh sách > click vào Remove Plugin
-Thiết lập công cụ tìm kiếm cho bộ sưu tập
*Giới thiệu công cụ tìm kiếm
Có 4 cách để tìm kiếm thông tin trong bộ sưu tập:
+Tìm kiếm dựa vào từ khóa
+Truy xuất tài liệu theo tên tác giả
+Truy xuất tài liệu theo tên tài liệu
+Truy xuất tài liệu theo trường nguồn gốc
Tùy thuộc vào yêu cầu của bộ sưu tập mà ta thêm vào hoặc xóa đi các
Index Name cho phù hợp Để thêm mới một chỉ mục ta chọn nút New Index
Cửa sổ New Index cho phép ta lựa chọn các chỉ mục > kết thúc bằng việc chọn nút Add Index
Trường hợp muốn sửa hoặc xóa một chỉ mục đã có trong danh sách Assigned Indexes ta chọn nút Edit Index để sửa hoặc nút Remove Index để xóa
5.4.Thao tác với CREATE để xuất bản bộ sưu tập
Trên giao diện của LIBRARIAN INTERFACE chuyển sang Tab Create > Import/Build > Nhấp chọn Build Collection ở bên trái cuối giao diện LIBRARIAN INTERFACE
• GREENSTONE tự thực hiện việc Import/ Build đến khi báo hoàn tất
5.5.Làm việc với Tab Format
Để thay đổi văn bản hiển thị trong hộp thoại tìm kiếm cho các trường tìm kiếm, bạn cần chọn Tab Format, sau đó vào mục Search và điều chỉnh giá trị trong hộp thoại Display Text cho các trường tương ứng.
-Giao diện bộ sưu tập được tạo lập
Tại Tab Creat khi đã Build Collection 100% > Preview Collection > Giao diện của bộ sưu tập hiển thị như sau:
5.6 Xuất bản bộ sưu tập ra CD-ROM
To create a CD/DVD image using the Librarian Interface, navigate to the File menu and select Write CD/DVD image A window will appear where you can enter the CD-ROM name in the CD/DVD name field Next, mark the collection you wish to publish from the Available Collections section and click the Write CD/DVD image button to proceed.
Greenstone tự động thực hiện cho đến khi hoàn tất Địa chỉ lưu giữ các file chạy, dữ liệu để ghi lên đĩa CD-ROM
*Thực hiện việc sao chép bộ sưu tập đã đóng gói sang CD-ROM
5.7 Xây dựng các bộ sưu tập chạy trên máy và xuất ra CD-ROM
- Bộ sưu tập tài liệu chuyên ngành Thông tin thư viện
- Bộ sưu tập tài liệu chuyên ngành Quản lý Văn hóa
- Bộ sưu tập chuyên ngành Quản trị Văn Phòng