1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản

85 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Các Phương Pháp Vector Hóa Để Loại Bỏ Tin Đăng Trùng Trong Lĩnh Vực Bất Động Sản
Tác giả Nguyễn Phú Định
Người hướng dẫn TS. Lê Lam Sơn, TS. Lê Hoành Sơn, PGS.TS. Nguyễn Tuấn
Trường học Đại Học Quốc Gia TP. HCM
Chuyên ngành Hệ Thống Thông Tin Quản Lý
Thể loại luận văn thạc sĩ
Năm xuất bản 2022
Thành phố TP. HỒ CHÍ MINH
Định dạng
Số trang 85
Dung lượng 1,68 MB

Cấu trúc

  • 1.1. LỦ do hình thƠnh đ tài (0)
  • 1.2. M c tiêu (16)
  • 1.3. Gi i h n vƠ đ i t ng nghiên c u (0)
  • 1.4. ụ ngh a th c ti n (0)
  • 1.5. C u trúc Lu n v n (18)
  • 2.1. T ng quan v công ty Propzy (19)
    • 2.1.1. L ch s hình thành và phát tri n (19)
    • 2.1.3. Quy trình k t n i đ i tác và phát tri n ngu n hàng (22)
  • 2.2. T ng quan v th tr ng b t đ ng s n t i Vi t Nam (0)
  • 2.3. T ng quan v th tr ng tin đ ng B t đ ng s n (0)
    • 2.3.1. T ng quan th tr ng (26)
    • 2.3.2. Các v n đ trong tin đ ng b t đ ng s n (0)
  • 2.4. T ng quan các cách làm s ch d li u trong x lý ngôn ng ti ng Vi t (29)
  • 2.5. T ng quan các ph ng pháp đo l ng đ gi ng nhau c a v n b n (0)
    • 2.5.3. M t s nghiên c u liên quan khác (34)
  • 2.6. K thu t phân c m DBSCAN (35)
    • 2.6.2. Các bi n th c a DBSCAN (39)
  • 3.1. T ng quan ph ng pháp th c hi n (0)
    • 3.1.2. ng d ng ph ng pháp l c c m tin vào c i ti n quy trình (0)
  • 4.1. Xác đ nh ph ng pháp phơn c m phù h p (0)
    • 4.1.1. Làm s ch d li u (44)
  • 4.2. Vector hóa (47)
    • 4.2.2. ng d ng gi i thu t DBSCAN (66)
  • 4.3. Th nghi m gi i thu t phân c m đ xu t v i b d li u l n (68)
  • 4.4. ng d ng c i ti n quy trình (70)
    • 4.4.1. Quy trình c i ti n đ xu t (70)
    • 4.4.2. Di n gi i quy trình (71)
    • 4.4.3. T ng k t v quy trình đ xu t (75)
  • 5.1. K t lu n (77)
    • 5.1.1. óng gó p c a nghiên c u (0)
    • 5.1.2. H n ch c a nghiên c u (77)
  • 5.1. γ. nh h ng nghiên c u trong t ng lai (0)

Nội dung

M c tiêu

Việc khai thác lợi ích từ nguồn dữ liệu công khai trên Internet là một thách thức quan trọng Nghiên cứu về các phương pháp và lựa chọn tài liệu liên quan đến vấn đề này giúp cải thiện quy trình hiện hữu trong doanh nghiệp Thông qua việc vector hóa dữ liệu, chúng ta có thể giảm thiểu sự trùng lặp trong thông tin, từ đó nâng cao hiệu quả sử dụng dữ liệu trong các hoạt động kinh doanh.

M c tiêu c a bài lu n v n nƠy bao g m:

Xác định phương pháp đúng đắn và tìm ra loại vector hóa vững bền phù hợp với việc xác định nhãn cẩm tin đúng Điều này bao gồm việc xác định các bước cần thiết phải thực hiện, cách làm sạch dữ liệu với từng loại vector hóa vững bền khác nhau, xử lý dữ liệu và lựa chọn các tham số sao cho phù hợp.

- ng d ng ph ng pháp trên vƠo quy trình t i công ty đ t i u hóa vi c v n hành

1.3 Gi i h năvƠăđ iăt ng nghiên c u

Do gi i h n v m t thông tin c ng nh s có s khác bi t gi a các nhóm s n ph m

Bài viết phân tích dữ liệu giao dịch bán nhà tại Thành phố Hồ Chí Minh từ tháng 01/2021 đến tháng 02/2021, nhằm cung cấp cái nhìn tổng quan về thị trường bất động sản trong giai đoạn này Dữ liệu được thu thập và xử lý kỹ lưỡng để đảm bảo tính chính xác và đáng tin cậy cho các thông tin liên quan đến giao dịch bất động sản.

Các phương pháp vector hóa được sử dụng trong nghiên cứu bao gồm Onehot, WordCount, TF-IDF và Doc2vec Mỗi phương pháp này được đo lường thông qua hai phép đo là Cosine và Euclidean, nhằm đánh giá tại các điểm ngữ nghĩa khác nhau.

Bài nghiên c u s s d ng các thu t gi i đư đ c vi t b i nh ng th vi n đ c s d ng cho ngôn ng Python 3, c th :

- Các ph ng pháp Vector hóa Onehot, TF-IDF, WordCount: s d ng hàm t o Vector c a th vi n Sklearn

- Ph ng pháp Vector hóa Docβvec: Xơy d ng mô hình và t o Vector thông qua các hàm c a th vi n Gensim

- Các ph ng pháp đo l ng: đo l ng h s Cosine và Euclidean thông qua th vi n Scipy

- Gi i thu t phân c m DBSCAN: s d ng hàm DBSCAN c a th vi n Sklearn

- Các ph ng pháp phơn tích vƠ tr c quan hóa d li u: thông qua phân tích trên Excel vƠ th vi n Plotly

- Cách th c phân tách t , chu n hóa c m t ti ng Vi t: thông qua b t đi n logic (t thi t l p) và t th vi n Underthesea

Cuối cùng, mục tiêu đặt ra là xác định phương pháp phù hợp và chính xác để đạt được kết quả tin cậy Bài luận sẽ không chỉ tạo ra một phương pháp mới mà còn đề xuất kỹ thuật để xử lý dữ liệu một cách hiệu quả.

1.4 ụăngh aăth c ti n ụ ngh a v m t doanh nghi p:

- C i thi n quy trình phát tri n ngu n cung hàng và m ng l i môi gi i LƠ đ ng l c đ công ty gia t ng đ c ngu n khách hàng m t cách n i t i

Là một công cụ giúp gia tăng hiệu quả phân tích khi khai thác dữ liệu công khai trên Internet, bài viết này đề cập đến những mô hình đánh giá và nghiên cứu thị trường của công ty Nó cũng nhấn mạnh lợi thế cạnh tranh của công ty so với các doanh nghiệp môi giới bất động sản truyền thống khác, đồng thời khẳng định ý nghĩa của việc ứng dụng khoa học trong lĩnh vực này.

- Phát tri n m t quy trình x lý, phân tích và khai phá d li u d ng v n b n

- ánh giá đ c k t qu th c ti n c a nh ng ph ng án Vector hóa, cách th c làm s ch và cách th c đo l ng phù h p v i lo i hình d li u v n b n B t đ ng s n

- ánh giá k t qu , t c đ c a gi i thu t phân c m trong th c ti n

1.5 C u trúc Lu năv n tài lu n v n bao g m 5 ch ng nh sau:

Ch ng 1: Gi i thi u đ tài, lý do l a ch n đ tƠi vƠ các Ủ ngh a th c ti n mƠ đ tài mang l i

Ch ng β: T ng quan v công ty và các khái ni m, thu t gi i và các nghiên c u tr c đó trong t ng ph ng pháp

Ch ng γ: Di n d ch ph ng pháp ng d ng trong bài nghiên c u

Ch ng 4: Trình bƠy k t qu theo các b c trong quy trình đ c trình bày ph n 3

Ch ng 5: Các k t lu n v k t qu nghiên c u ng d ng vƠ đ a ra khuy n ngh trong t ng lai

2.1 T ng quan v công ty Propzy

Vào năm 2015, Propzy được xem là một trong những công ty đầu tiên trong lĩnh vực PropTech tại Việt Nam, đánh dấu sự phát triển mạnh mẽ của công nghệ trong ngành bất động sản Công ty đã xây dựng một hệ sinh thái đa dạng, cung cấp nhiều dịch vụ đáp ứng nhu cầu của thị trường bất động sản hiện đại.

- Trung gian môi gi i cho các giao d ch mua, thuê nhƠ đ t, c n h , bi t th , m t b ng

- Cung c p các gi i pháp t v n tài chính, th ch p, h tr pháp lý trong các giao d ch

- Cung c p h th ng giúp qu n lý, khai thác và v n hƠnh chung c

John Le là một nhà sáng lập nổi bật trong lĩnh vực phát triển công nghệ, đã thành lập nhiều công ty khởi nghiệp như LoanTrader trong lĩnh vực dotcom, Portellus trong phần mềm doanh nghiệp, và Artiklz cùng VESIC trong lĩnh vực web 2.0, bên cạnh các dự án khác như TransUnion và Mozaik.

Anh John Le đã tham gia vào các dự án thi tuyển cung cấp dịch vụ BPO trong lĩnh vực tài chính/ngân hàng tại Mỹ, hợp tác với Dogan Group và Nasdaq/OMX, đồng thời có kinh nghiệm làm việc với Nguyên Thủ Quốc Gia và Ngân Hàng Trung ương.

Sau 6 năm hình thành và phát triển, Propzy đã mở rộng đột phá tại trung tâm giao dịch trên toàn địa bàn Thành phố Hồ Chí Minh và đang hướng tới việc mở rộng thị trường sang các địa phương và các nước trong khu vực Đông Nam Á.

Hình 1 Tóm g n các giai đo n phát tri n c a Propzy Ngu n: https://propzy.vn/tin-tuc/5-dieu-ban-can-biet-ve-propzy/

2Propzy “N m đi u c n bi t v Propzy” Internet: https://propzy.vn/tin-tuc/5-dieu-ban-can- biet-ve-propzy/ Oct 06, 2017

Dịch Covid-19 đã gây ra nhiều thách thức cho nền kinh tế Việt Nam, trong đó có các công ty công nghệ như Propzy Mặc dù gặp không ít khó khăn, Propzy vẫn nỗ lực điều chỉnh chiến lược phát triển để phù hợp với tình hình hiện tại.

Hình 2 Mô hình h sinh thái FIRE-Tech c a Propzy Ngu n: https://propzy.vn/tin-tuc/propzy-cai-tien-cau-truc-kien-dinh-tam-nhin/

Propzy đã xác định sứ mệnh của mình là trở thành một công ty công nghệ cung cấp nền tảng trung gian giữa các môi giới và người có nhu cầu Công ty tập trung vào việc mở rộng hệ thống kết nối với các môi giới bên ngoài thị trường, phát triển nguồn cung ứng Những nỗ lực này giúp Propzy có thể phát triển thị trường, khẳng định vị thế của mình như một doanh nghiệp công nghệ thực thụ.

Propzy c ng phát tri n song song m t mô hình kinh doanh m i ậ Propzy Home T n d ng ngu n thông tin đư có trong 7 n m trên th tr ng Thành ph H Chí Minh,

Propzy cung cấp công cụ đánh giá và xác định mức giá tiềm năng cho bất động sản, giúp người dùng nhận diện các cơ hội đầu tư phù hợp Công cụ này hỗ trợ trong việc mua, chỉnh sửa và bán bất động sản với giá trị thị trường, từ đó gia tăng giá trị cho thị trường bất động sản.

Propzy đang cải tiến cấu trúc công ty nhằm kiên định với tầm nhìn tiên phong trong việc xây dựng nền tảng FIRE-Tech cho bất động sản Điều này cho thấy sự quyết tâm của Propzy trong việc đổi mới và phát triển công nghệ trong lĩnh vực bất động sản, góp phần nâng cao trải nghiệm người dùng và tối ưu hóa quy trình giao dịch.

Công ty đang trải qua những thay đổi quan trọng để đáp ứng nhu cầu kết nối môi giới và gia tăng nguồn cung bất động sản Để thích ứng với xu hướng này, Propzy hiện đang triển khai hai quy trình riêng biệt nhằm tối ưu hóa hoạt động và nâng cao hiệu quả trong lĩnh vực bất động sản.

2.1.3 Quy trình k t n i đ i tác và phát tri n ngu n hàng

Hình 3 Quy trình tìm ki m môi gi i hi n t i

T ng quan v công ty Propzy

T ng quan v th tr ng tin đ ng B t đ ng s n

T ng quan các ph ng pháp đo l ng đ gi ng nhau c a v n b n

K thu t phân c m DBSCAN

T ng quan ph ng pháp th c hi n

Xác đ nh ph ng pháp phơn c m phù h p

Vector hóa

ng d ng c i ti n quy trình

K t lu n

Ngày đăng: 13/10/2022, 08:24

HÌNH ẢNH LIÊN QUAN

3. Củng cố, dặn dò: - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
3. Củng cố, dặn dò: (Trang 2)
Sau hn nm hình thƠnh vƠ phát tri n, Propzy đư mr ng đ chn β4 Trung tơm - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
au hn nm hình thƠnh vƠ phát tri n, Propzy đư mr ng đ chn β4 Trung tơm (Trang 19)
Hình 2. Mơ hìn hh sinh thái FIRE-Tech ca Propzy - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 2. Mơ hìn hh sinh thái FIRE-Tech ca Propzy (Trang 20)
Hình 3. Quy trình tìm k im mơi g ii hin ti - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 3. Quy trình tìm k im mơi g ii hin ti (Trang 22)
Hình 4. Quy trình tìm k im ng un cung hàng hin ti - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 4. Quy trình tìm k im ng un cung hàng hin ti (Trang 24)
Hình 5. Thông tin l ng truy cp vào 5 website BS tiVit Nam - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 5. Thông tin l ng truy cp vào 5 website BS tiVit Nam (Trang 27)
Hình 7. Hai kin trúc CBOW và SkipGram trong Word2Vec - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 7. Hai kin trúc CBOW và SkipGram trong Word2Vec (Trang 32)
Hình 9. Hàm phân cm trong g ii th ut DBSCAN - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 9. Hàm phân cm trong g ii th ut DBSCAN (Trang 38)
Hình 10. Quy trình ci tin đ x ut - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 10. Quy trình ci tin đ x ut (Trang 40)
Hình 11 .T ng quan quy trình xác đ nh ph ng pháp phân l oi C  th   các bc phân tích d  liu đ xây d ng ph ng pháp phơn lo i nh  sau - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 11 T ng quan quy trình xác đ nh ph ng pháp phân l oi C th các bc phân tích d liu đ xây d ng ph ng pháp phơn lo i nh sau (Trang 40)
Hình 12. là ms ch dli um 1 - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 12. là ms ch dli um 1 (Trang 44)
Hình 14. Là ms ch dli um 3 - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 14. Là ms ch dli um 3 (Trang 45)
Hình 15. Sl ng cp tin the ot ng ng ng cosine mc là ms ch đu tiên - ln ch y1 - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 15. Sl ng cp tin the ot ng ng ng cosine mc là ms ch đu tiên - ln ch y1 (Trang 48)
Hình 16. Sl ng cp tin the ot ng ng ng cosine mc là ms ch th 2 - ln ch y10 - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 16. Sl ng cp tin the ot ng ng ng cosine mc là ms ch th 2 - ln ch y10 (Trang 48)
Hình 17. Sl ng cp tin the ot ng ng ng cosine mc là ms ch th 3 - ln ch y1 Hình trên  c ng cho th y qua m i l n th c hi n làm s ch d  li u, s  g p khúc càng tr  lên rõ - Ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản
Hình 17. Sl ng cp tin the ot ng ng ng cosine mc là ms ch th 3 - ln ch y1 Hình trên c ng cho th y qua m i l n th c hi n làm s ch d li u, s g p khúc càng tr lên rõ (Trang 49)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w