1. Trang chủ
  2. » Giáo Dục - Đào Tạo

PHÂN TÍCH dữ LIỆU MẠNG xã hội và WEBSITE để xây DỰNG bộ DANH SÁCH NHỮNG địa điểm DU LỊCH TIỀM NĂNG và AN TOÀN

46 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Mạng Xã Hội Và Website Để Xây Dựng Bộ Danh Sách Những Địa Điểm Du Lịch Tiềm Năng Và An Toàn
Tác giả Trần Hải Hoàng, Tô Nguyễn Nhật Duy, Nguyễn Mỹ Kỳ, Cao Văn Tâm, Nguyễn Thị Linh Tâm
Người hướng dẫn ThS Đặng Nhân Cách
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Hệ Thống Thông Tin
Thể loại luận văn
Năm xuất bản 2019
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 46
Dung lượng 3,51 MB

Cấu trúc

  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình (11)
  • CHƯƠNG 3: TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích (21)
  • CHƯƠNG 4: KẾT LUẬN VÀ ĐÁNH GIÁ 4.1, Tóm tắt nội dung và kết quả của đề tài (41)
    • II. Quy định làm việc của nhóm (43)
    • III. Bảng phân công nhiệm vụ (44)
    • IV. Tổng kết (45)

Nội dung

CƠ SỞ LÝ THUYẾT 2.1, Ngôn ngữ lập trình

R là một ngôn ngữ lập trình và môi trường phần mềm chuyên dụng cho tính toán và đồ họa thống kê, được phát triển từ ngôn ngữ lập trình S với ngữ nghĩa khối từ vựng lấy cảm hứng từ Scheme Được sáng tạo bởi Ross Ihaka và Robert Gentleman tại Đại học Auckland, New Zealand, R đã thu hút sự ủng hộ và tham gia phát triển từ nhiều nhà nghiên cứu thống kê và toán học trên toàn thế giới, hiện nay do R Development Core Team quản lý.

Đội ngũ cốt lõi chịu trách nhiệm phát triển ngôn ngữ, trong đó tên gọi được hình thành từ chữ cái đầu của hai tác giả Robert Gentleman và Ross Ihaka, đồng thời cũng là một cách chơi chữ từ tên S.

Ngôn ngữ R đã trở thành tiêu chuẩn de facto trong lĩnh vực thống kê, phản ánh sự phát triển mạnh mẽ của phần mềm thống kê Là phần mềm mã nguồn mở miễn phí, R cung cấp nhiều công cụ hữu ích cho phân tích dữ liệu, khám phá tri thức và khai thác dữ liệu R dễ học và cho phép phát triển nhanh các ứng dụng tính toán xác suất thống kê Là một phần của dự án GNU, mã nguồn của R được phát hành theo Giấy phép công cộng GNU và có sẵn cho nhiều hệ điều hành khác nhau Mặc dù R chủ yếu sử dụng giao diện dòng lệnh, nhưng cũng có một số giao diện đồ họa người dùng hỗ trợ.

R đã trở thành công cụ phổ biến cho các nhà khoa học và toán học trong việc phân tích dữ liệu Với sự phát triển không ngừng, R có khả năng thay thế các phần mềm thống kê đắt tiền như SPSS trong tương lai.

R là một ngôn ngữ thông dịch, cho phép bạn chạy code mà không cần sử dụng compiler Điều này giúp đơn giản hóa quá trình viết code và tạo điều kiện thuận lợi cho việc phát triển ứng dụng.

Tất cả các phép tính đều có thể áp dụng cho vectors, và R là một ngôn ngữ vector, cho phép sử dụng bất kỳ hàm nào trên một vector mà không gặp khó khăn.

Nhóm A-Meo sử dụng vòng lặp để thực hiện các phép toán trên mảng Ví dụ, khi cần tăng mỗi phần tử trong mảng lên +1, nếu không dùng vector, bạn sẽ phải lặp qua tất cả n phần tử và thực hiện n phép +1 Tuy nhiên, nếu lưu mảng vào vector, chỉ cần thực hiện một phép +1 là đủ.

Ngôn ngữ lập trình R là một công cụ mạnh mẽ trong lĩnh vực sinh học, di truyền học và thống kê dữ liệu Với khả năng là ngôn ngữ turing-complete, R có thể thực hiện bất kỳ thuật toán nào, giúp các nhà nghiên cứu phân tích và xử lý dữ liệu một cách hiệu quả.

Python là một ngôn ngữ lập trình bậc cao đa năng, được Guido van Rossum phát triển và ra mắt lần đầu vào năm 1991 Với ưu điểm dễ đọc, dễ học và dễ nhớ, Python có cấu trúc rõ ràng và hình thức sáng sủa, rất phù hợp cho người mới bắt đầu lập trình Ngôn ngữ này cho phép người dùng viết mã lệnh với số lần gõ phím tối thiểu, mang lại sự thuận tiện trong quá trình lập trình.

Python là ngôn ngữ lập trình hoàn toàn kiểu động với cơ chế cấp phát bộ nhớ tự động, tương tự như các ngôn ngữ như Perl, Ruby, Scheme, Smalltalk và Tcl Ngôn ngữ này được phát triển trong một dự án mã nguồn mở, dưới sự quản lý của tổ chức phi lợi nhuận Python Software Foundation.

Python ban đầu được phát triển để hoạt động trên nền tảng Unix, nhưng đã mở rộng ra nhiều hệ điều hành khác như MS-DOS, Mac OS, OS/2, Windows và Linux Mặc dù có sự đóng góp của nhiều cá nhân trong quá trình phát triển, Guido van Rossum vẫn là tác giả chính và giữ vai trò quan trọng trong việc định hướng phát triển của Python.

2.1.2.2, Tính năng chính của Python

Python là một ngôn ngữ lập trình đơn giản và dễ học với cú pháp rõ ràng, giúp lập trình viên dễ dàng đọc và viết mã hơn so với các ngôn ngữ như C++, Java hay C# Ngôn ngữ này tập trung vào việc tìm kiếm giải pháp thay vì chú trọng vào cú pháp, và tính tự nhiên của mã giả trong Python là một trong những điểm mạnh nổi bật, cho phép lập trình viên tập trung vào việc giải quyết vấn đề.

Python là một ngôn ngữ lập trình miễn phí và mã nguồn mở, cho phép người dùng không chỉ sử dụng mà còn tùy chỉnh mã nguồn của các phần mềm được viết bằng Python Sự phát triển và nâng cấp thường xuyên từ cộng đồng là một trong những lý do chính khiến Python trở thành một ngôn ngữ mạnh mẽ.

Khả năng di chuyển của Python cho phép các chương trình chạy mượt mà trên nhiều nền tảng như Windows, macOS và Linux mà không cần thay đổi mã nguồn.

Python hỗ trợ khả năng mở rộng và nhúng, cho phép người dùng dễ dàng tích hợp mã từ C, C++ và các ngôn ngữ khác vào mã Python Tính năng này giúp các lập trình viên nâng cao chức năng của ứng dụng và tận dụng khả năng scripting mà nhiều ngôn ngữ lập trình khác khó đạt được.

TRIỂN KHAI PHÂN TÍCH DỮ LIỆU 3.1, Quy trình phân tích

Khi du lịch khắp thế giới, bạn thường ghé thăm những địa điểm nổi tiếng dựa trên gợi ý từ báo mạng hoặc kinh nghiệm của người đi trước Tuy nhiên, có thể sẽ gặp phải những rủi ro hoặc điều không như mong đợi Bài viết này sẽ giúp bạn tìm kiếm những điểm đến an toàn và nổi bật, mang lại cho bạn một chuyến du lịch thú vị và đáng nhớ.

Thu thập dữ liệu và công cụ thu thập dữ liệu:

Dữ liệu được thu thập từ mạng xã hội Twitter cùng hai trang web thetravelmagazine.net và theguardian.com Việc lấy dữ liệu từ hai trang web này được thực hiện thông qua ngôn ngữ lập trình Java trên nền tảng Eclipse và tiến hành phân tích để rút ra các thông tin quan trọng.

Buớc 1: Mỗi trang web lấy 100 link bài báo liên quan đến du lịch

Lấy link bằng code python và lưu dưới dạng file csv rồi chuyển sang file txt

Hình 3 1 Code lấy link trang web

Hình 3 2 Code lấy link dưới dạng file csv

Bước 2: Truy cập bài báo trên trang => View source

Hình 3 3 Source web thetravelmagazine.net

Hình 3 4 Source web theguardian.com

Bước 3: Viết source code lấy dữ liệu trên eclipse, lấy dữ liệu theo 2 class “td-post- content” và “content article-body”

Hình 3 5 Code lấy dữ liệu trên eclipse của thetravelmagazine.net

Hình 3 6 Code lấy dữ liệu trên eclipse trên theguardian.com

Dữ liệu sau khi lấy về:

Hình 3 7 Nội dung các bài báo trên thetravelmagazine.net

Hình 3 8 Nội dung các bài báo trên theguardian.com

Bước 4: Lọc lấy các địa điểm xuất hiện trong nội dung bài báo

Hình 3 9 Kết quả các địa điểm trong bài báo b Phân tích kết quả

Kết quả thu được bộ dữ liệu 3848 địa điểm

Nhóm đã sử dụng excel để thống kê các địa điểm và sắp xếp theo thứ tự giảm dần số lượt nhắc đến

Chúng tôi thực hiện chỉnh sửa một số sai sót và kết quả tạo ra được bộ dữ liệu các địa điểm và số lượt được nhắc đến

Hình 3 10 Thống kê các địa điểm du lịch trong các bài báo bằng excel

Hình 3 11 Kết quả các địa điểm được lặp lại nhiều nhất

Bước 5: Sử dụng R để wordcloud dữ liệu và tiến hành vẽ biểu đồ những địa điểm được nhắc tới nhiều nhất

Code R – wordcloud bộ dữ liệu

Hình 3 12 Code R – wordcloud bộ dữ liệu

Hình 3 13 Wordcloud bộ dữ liệu

Chúng tôi tiến hành export ra file PDF để tiện lưu lại và phục vụ quá trình phân tích tiếp theo

Hình 3 14 Kết quả wordcloud các địa điểm

Có thể dễ dàng nhận thấy những địa điểm được nhắc đến nhiều nhất sau khi wordcloud bộ dữ liệu thu được

Sử dụng excel tiến hành vẽ biểu đồ top các địa điểm được nhắc đến nhiều nhất

Hình 3 15 Biểu đồ top địa điểm được nhắc đến nhiều nhất

Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất

Hình 3 16 Biểu đồ độ phủ của 5 quốc gia được nhắc đến nhiều nhất

Từ bộ dữ liệu và thông tin thu được sau khi tiến hành wordcloud, chúng tôi lọc lấy

10 nước được nhắc đến nhiều nhất và tiến hành lấy Tweet về các địa điểm đó

Từ các biểu đồ trên có thể nhận thấy được những địa điểm được mọi người quan nhất, trong đó UK được nhắc đến nhiều nhất với 46%

3.1.3, Thực chứng mức độ đánh giá của 10 địa điểm hàng đầu:

Top các địa điểm được nhắc đến nhiều nhất

10% Độ phủ của 5 nước được nhắc đến nhiều nhất

UK Ireland Britain France America

Page | 29 Nhóm A-Meo a Lấy dữ liệu thu thập được trên twitter tiến hành phân độ tích cực tiêu cực từ tweet

Lấy dữ liệu từ Twitter bằng ngôn ngữ python trên Google Colab:

Lấy 100 tweet của 10 nước có tầng số xuất hiện nhiều nhất trên các bài báo liên quan đến du lịch

Bước 1: Lấy API Twitter Để thiết lập các API, đăng nhập tài khoản của bạn tại Twiter và truy cập https://apps.twitter.com/app/new

Hình 3 17 Bước 1 Lấy API Twitter Đồng ý với Điều khoản và điều kiện rồi và nhấp vào “Tạo ứng dụng Twitter của bạn”

Hình 3 18 Bước 2 lấy API Twitter

Twiter sẽ thông báo các khoá API kết nối Lưu lại Consumer Key (Key API) và Consumer Secret cẩn thận để sử dụng sau này

Hình 3 19 Bước 3 lấy API Twitter

Bước 2: Sử dụng Google Colab với ngôn ngữ Python để lấy bộ dữ liệu Tweet về các địa điểm

Hình 3 21 Bộ dữ liệu thu được từ Twitter

Hình 3 22 Dữ liệu thu được

Bước 3: Thống kê lại những ý tích cực và tiêu cực

Dựa trên kết quả thu được, chúng tôi thực hiện việc làm sạch dữ liệu và sửa chữa các lỗi trước khi đánh giá bộ dữ liệu Ngôn ngữ được sử dụng trong quá trình này là Eclipse.

- Code làm sạch dữ liệu:

Hình 3 23 Code làm sạch dữ liệu

Hình 3 24 Dữ liệu sau khi làm sạch

- Code đánh giá và thống kê:

Hình 3 25 Code đánh giá và thống kê

Hình 3 26 Kết quả đánh giá America

Hình 3 27 Kết quả đánh giá Australia

Hình 3 28 Kết quả đánh giá Brazil

Hình 3 29 Kết quả đánh giá Canada

Hình 3 30 Kết quả đánh giá France

Hình 3 31 Kết quả đánh giá Iceland

Hình 3 32 Kết quả đánh giá India

Hình 3 33 Kết quả đánh giá Spain

Hình 3 34 Kết quả đánh giá UK b Vẽ biểu đồ mức độ đánh giá của top 10 nước được nhắc đến trong bộ dữ liệu

Dựa trên bộ dữ liệu thu thập, chúng tôi đã thống kê mức đánh giá của 10 địa điểm được nhắc đến nhiều nhất, sử dụng thang điểm từ 1 đến 4 để đo lường mức độ tích cực và tiêu cực.

Với kết quả sau khi thu được, chúng tôi sử dụng công cụ Excel để lập bảng biểu thống kê, nhận thấy kết quả như sau:

Hình 3 35 Kết quả tổng hợp đánh giá tích cực tiêu cực

Từ bảng dữ liệu sau khi được thống kê, chúng tôi vẽ biểu đồ thực chứng mức độ đánh giá cho 10 địa điểm được nhắc đến nhiều nhất

Hình 3 36 Biểu đồ mức độ tích cực, tiêu cực c Chứng minh và đánh giá

Theo thống kê, trong số 10 địa điểm được nhắc đến nhiều nhất, có 30% nhận được đánh giá tốt, 61% đánh giá trung bình và chỉ 9% đánh giá kém Điều này cho thấy rằng những địa điểm thu hút sự quan tâm của du khách thường có tiềm năng du lịch cao, được đánh giá tích cực và sở hữu môi trường du lịch lành mạnh.

Biểu đồ mức độ tích cực, tiêu cực Đánh giá 0.0 (Chưa tốt) Đánh giá 1.0 (Tạm ổn) Đánh giá trên 1.0 (Tốt)

Dựa trên dữ liệu đã thu thập và phân tích, chúng tôi đã kết luận và tạo ra danh sách các điểm đến tuyệt vời dành cho du khách.

3.2, Kết quả thu được và tạo bộ danh sách các điểm đến:

Tạo danh sách các địa điểm du lịch nổi bật trên thế giới bằng cách sử dụng dữ liệu từ các trang web du lịch và đánh giá của người dùng trên Twitter.

Hình 3 37 Danh sách 10 điểm đến

10 địa điểm nên đến 10 đnước nên đến

Quần đảo Atlantic Europe Aberdovey Ireland Ballycastle Britain

Caribbean AtlanticCharleston EnglandFairbourne Heathrow

Ngày đăng: 10/02/2022, 10:13

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w