1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet

65 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Xu Hướng Nghề Nghiệp Dựa Trên Thông Tin Tuyển Dụng Trên Internet
Tác giả Lưu Đức Phong
Người hướng dẫn TS. Nguyễn Hữu Được
Trường học Đại Học Bách Khoa Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn
Năm xuất bản 2019
Thành phố Hà Nội
Định dạng
Số trang 65
Dung lượng 6,67 MB

Nội dung

Thông tin vătuynădngăvicălƠm cũngăphiălƠăngoiăl ằngăngƠyăcóărtănhiuătinăđĕngătuyn,ă, hngă tuynăchoăcácă vă tríăcôngă vic tiă nhiuăcôngă tyă đcă đaălên trên các website

Trang 1

TRNG ĐI HC BÁCH KHOA HÀ NI

-

LU ĐC PHONG

PHỂN TệCH XU HNG NGH NGHIP DA TRểN THỌNG TIN

LUNăVĔN THCăSƾăKHOAăHC KHOAăHCăVĨăKăTHUTăTệNHăTOỄN

HƠăN ậ i 2019

Trang 2

TRNG ĐI HC BÁCH KHOA HÀ NI

-

LU ĐC PHONG

PHỂN TệCH XU HNG NGH NGHIP DA TRểN THỌNG TIN

TUYN DNG TRểN INTERNET Chuyên ngành: CỌNGăNGHăTHỌNGăTIN

LUNăVĔN THCăSƾăKHOAăHC KHOAăHCăVĨăKăTHUTăTệNHăTOỄN

NGIăHNGăDNăKHOAăHC:

TS NGUYNăHUăĐC

HƠăN ậ i 2019

Trang 3

LI CAM ĐOAN

Tôi, LuăĐcăPhong,ăxinăcamăđoan lunăán là công trình nghiên cuăcaăbnăthơnătôiădiăsăhngădnăcaăTS.ăNguynăHuăĐc

CácăktăquănêuătrongăbáoăcáoălunăánălƠătrungăthc,ăkhôngăsaoăchépăcaăbtăkỳăcông trình nào khác

Hà Nội, ngày tháng năm 2019

H C VIÊN 

LUăĐC PHONG

Trang 4

LI CM N

ĐăhoƠnăthƠnhălunăánănƠy,ătrcăhtătôiăxinăbƠyătălòngăkínhătrngăvƠăbitănătiăTS.ăNguynăHuăĐc,ăngiăthyăđƣătrcătipăhngădn,ăgiúpăđỡătôiătrongăquáătrìnhăhcătpăvƠăthcăhinălunăán

CuiăcùngătôiăxinăcmănăgiaăđìnhăvƠănhngăngiăbnăvìăsăđngăviênătrongăsutăthiăgianăthcăhinălunăvĕn

Trang 5

MC LC

LIăCAMăĐOAN 1

LI MăNC 2

DANH MC BNG 5

DANH MC HÌNH V , BI UăĐ 6  

M  ĐU 8

CHNGă1:ăTNG QUAN V BÀI TOÁN 9

1.1.ăĐng b  vƠăluătr   d li u nhiuăđnh d ng 9

1.2 T ng h p th ng kê, tr   c quan s li u 9

1.3 Phân tích d  đoánăxuăhng 9

1.4 Các công c,ămôăhìnhăđápăng cho bài toán 10

1.4.1 H thng qu n tr   vƠăluătr căs  d u NOSQL 10li 1.4.2 Các công c  trc quan hóa s li u 13

1.4.3 Mngăn-ron nhân t o và mô hình d   đoán 14

Kt lunăchngă1 22

CHNG 2: XÂY DNGăCHNGăTRÌNHăTHUăTHP VÀ PHÂN TÍCH XU HNG NGH NGHI P 24 

2.1 Phân tích m c tiêu 24

2.2 Gi i quy t bài toán 25

2.2.1.ăCăs   d li u 25

2.2.2 Các công c gi i quy t yêu c u 25   

Kt lunăchngă2 32

CHNGă3:ăMỌăPHNG TH C NGHI MăCHNGăTRÌNH 33

3.1.ăMôiătrngăcƠiăđặt và công c l p trình 33 

3.1.1.ăCƠiăđặt, thi t l p CSDL MongoDB Sharded Cluster 34 

3.1.2.ăCƠiăđặt Task-Scheduler l p l chăđ ng b 39   

3.1.3.ăCƠiăđặt công c hi n th và phân tích d li u TableAU 43    

3.1.4.ăCƠiăđặtăcácăthăvin Python và tri n khai mã code cho mô hình d   đoánă LSTM 44

3.2.ăDemoăchngătrình 47

Trang 6

3.2.1.ăĐng b  vƠăluătr   d li u 48

3.2.2 Trình di n d u 51 li 3.2.3 Phân tích d  đoánăxuăhng vi c làm 55

Kt lunăchngă3: 59

CHNGă4:ăKT LUNăVĨăPHNGăHNG NGHIÊN CU, PHÁT TRIN 60

4.1 Kt lun 60

4.2 Các mcătiêuăđƣăvƠăchaăđ tăđ c 60

4.3 Nghiên cuătrongătngălai 61

TÀI LIU THAM KH O 62

Trang 7

DANH M C B NG 

Bngă1.1.ăCácădngădăliuăNoSQL 10

Bngă1.2.ăăN ronănhơnătoă- 14

Bngă1.3.ăCácăhƠmătruynă 15

Bngă1.4.ăMngănhiuătngătruynăthẳngă 16

Bngă1.5.ăHcăgiámăsát 17

Bngă1.6.ăHcăkhôngăgiámăsát 17

Bngă1.7.ăHcătĕngăcng 18

Bngă1.8.ăMôăhìnhăLSTMăbcă1 21

Bngă1.9.ăMôăhìnhăLSTMăbcă2 21

Bngă1.10.ăMôăhìnhăLSTMăbcă3 22

Bngă1.11.ăMôăhìnhăLSTMăbcă4 22

Bngă2.1.ăBngăcuătrúcădăliuătuynădng 25

Bngă2.2.ăModuleăPhơnătíchădăbáo 30

Bngă2.3.ăMôăhìnhăCSDLăluătrăcuăhìnhăphơnătích 31

Bngă2.4.ăMôăhìnhămngăn ronădăđoán- 31

Bngă3.1.ăBngăđánhăhiuănĕngătruyăvnăcácămôăhìnhăluătrădăliu 51

Bngă3.2.ăThngăkêăcácănhuăcuătuynădngăcaăcácăCôngăty 54

Bngă3.3.ăĐánhăgiáătỉălădăđoánănhơnăsătuynădngăngƠnhăIT 58

Bngă3.4.ăĐánhăgiáătỉălădăđoánăđătuiătuynădngătrungăbình 58

Trang 8

DANH MC HÌNH V , BI U Đ Ẽ  

Hìnhă1.1.ăDăliuădngăKey-Value 11

Hìnhă1.2.ăDăliuădngăDocument 11

Hình 1.3.ăDăliuădngăColoumn 12

Hìnhă1.4.ăDăliuădngăGraphă 12

Hìnhă1.5.ăĐánhăgiáăcácăcôngăcătrìnhădinădăliuă 13

Hình 1.8 Mô hìnhămngăn ronăhiăquyăRNNă- 20

Hìnhă1.9.ăMôăhìnhămngăLSTMă 21

Hìnhă2.1.ăKinătrúcătngăthăhăthng 24

Hìnhă2.2.ăLungăthuăthpădăliu 25

Hìnhă2.3.ăCácăbcăthuăthpăd liu 26

Hìnhă2.4.ăKinătrúcăAPIăGateway 27

Hình 2.5.ăKinătrúcăCSDLăMongoDBă 28

Hìnhă2.6.ăKinătrúcăcôngăcăphơnătích,ătrìnhăbƠyădăliuăTableAUă 29

Hìnhă2.7.ăLuăđăhotăđngăcaăhƠmăhunăluyn 32

Hìnhă3.1.ăCƠiăđặtăhăđiuăhƠnh 33

Hìnhă3.2.ăThitălpămngăNetwork 34

Hình 3.3ăHăthngăsauăcƠiăđặt 34

Hìnhă3.4.ăMôăhìnhătrinăkhaiăcmăCSDLăShardedăclusteră 35

Hìnhă3.5.ăHăthngăMongoăOpsăManagerăsauăkhiăcƠiăđặt 36

Hình 3.6.ăToămiăProjectătrênăOpsăMangager 36

Hìnhă3.7.ăCuăhìnhăShardedăCluster 37

Hìnhă3.8.ăThitălpăkeyăvƠăgroupăchoăCSDL 37

Hìnhă3.9.ăThitălpăshared clusterăviăcácămáy 38

Hìnhă3.10.ăThitălpăcuăhìnhăCSDLăchoăcácănode 38

Hìnhă3.11.ăThitălpăSharding 39

Hìnhă3.12.ăMôăhìnhăCSDLăsauăcƠiăđặt 39

Hìnhă3.13.ăLpălchăthuăthpădăliu 40

Hình 3.14 Mô hìnhătrinăkhaiăcôngăcăBIă 44

Hìnhă3.15.ăThitălpăBIăConnector 44

Hìnhă3.16.ăDăliuăthuăthpăđcătừăcácăCrawler 48

Trang 9

Hìnhă3.17.ăTăchcăluătrădăliuădiădngăfile 48

Hìnhă3.18.ăTinătrìnhăđngăbădăliu 49

Hìnhă3.19.ăKtăquăthuăthpăvƠăphơnăchiaăluătrădăliu 50

Hìnhă3.20.ăBáoăcáoăthngăkêănhuăcuătuynădngăvicălƠmăcaăVităNamătừănĕmă2014ă đnă2018 52

Hìnhă3.21.ăBáoăcáoăphơnăbănhómăngƠnhănghătuynădngănĕmă2018 52

Hìnhă3.22.ăPhơnăbăsălngătuynădngătheoăcácăTỉnh 53

Hìnhă3.23.ăPhơnăbănhuăcuătuynădngăhinăthătrênăbnăđ 53

Hình 3.24.ăNhuăcuătuynădngăngƠnhăCNTTătiăcácăTỉnhătừănĕm 2014ăđn 2018 54

Hìnhă3.26.ăThngăkêăcácănhuăcuătuynădngătheoăngƠnhăngh 54

Hìnhă3.27.ăThngăkêăđătuiătrungăbìnhăcácăngƠnh 55

Hìnhă3.28.ăThngăkêăsănĕmăkinhănghimăchoăcácăngƠnhăngh 55

Hìnhă3.29.ăMƠnăhìnhăthitălpăloiădanhămcăbáoăcáoăphơnătíchădăđoán 55

Hìnhă3.30.ăMƠnăhìnhăchyăktăquăphơnătích 56

Hìnhă3.31.ăKtăquăphơnătíchăxuăhngătuynădngăngƠnhăITătiăHƠăNiă03ăthángăcuiă nĕmă2018 57

Hìnhă3.32.ăKtăquădăbáoăđătuiătuynădngălaoăđôngătrungăbìnhă05ăthángăcuiănĕmă 2018 57

Trang 10

M  ĐU Chúngătaăđangăsngătrongăthiăđiăcôngăngh,ăthiăđiăbùngănăthôngătinăviăsăgiúpăscăvƠălanătaăcaămngăInternetăđƣăgiúpăchoăconăngiăcóăthădădƠngătipăcnăviăcácăngunăthôngătinămƠăkhôngăgặpătrăngiăvăkhôngăgianăvƠăthiăgian Thông tin vătuynădngăvicălƠm cũngăphiălƠăngoiăl ằngăngƠyăcóărtănhiuătinăđĕngătuyn,ă, h

ngă tuynăchoăcácă vă tríăcôngă vic tiă nhiuăcôngă tyă đcă đaălên trên các website tuynădng.ăBênăcnhăđó,ăvicătipăcnăvƠătngăhpăcác thông tin trên đƣăđcăhătrărtănhiuătừ cácăcôngăcăthuăthpădăliuă(Crawler)ăđcăphátătrinăsẵnăcóănh: Scrapy, Splash,ầTháchăthcăđặtăraăsauăkhiăthuăthpăđcădăliuălƠăphiătăchcăluătr,ăphơnătíchăvƠăkhaiăthácăthôngătinăcóăhiuăquăđăphcăvăcácămc đíchăxaăhnănh:ăthngăkê,ădăđoánăxuăhng,

XutăphátătừănhuăcuănƠy,ătrongăkhuônăkhălunăvĕnăthcăs,ăhcăviênăđăxută

thcăhinăđătƠiă"Phân tích xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên

Internet ", viămcătiêuăchínhălƠăxơyădngăhăthng đngăb,ătăchcăluătrădăliu,ătngăhpăphơnătíchăcũngănhădăbáoăxuăhngăvicălƠm

ĐiătngănghiênăcuăcaăđătƠiălƠăcácăcôngăcăhătrăđngăb,ăluătrăvƠăphơnătíchădăliuăcũngănhămôăhìnhădăđoánăxuăhngătheoăchuiăthiăgian

Phmăviănghiên cu:ăCácădăliuăđcăthuăthpătừăcácăwebsiteătuynădngăvicălàm đƣăđcăthuăthpătừăcácăchngătrìnhăCrawler

Trongălunăvĕn,ătácăgiănghiênăcuălýălunăvƠăđƣ xơyădngămtăhăthngăhoàn chỉnhătừăvicăthuăthpăthôngătinătuynădngăđnăbáoăcáoăvƠăphơnătíchăxuăhng

Trang 11

CHNG 1:  T NG QUAN V BÀI TOÁN 1.1 Đng b vƠ lu tr  liu nhi d u đnh dng

Viăsăphátă trină vƠă bùngă nă CNTTă vƠă truynăthông,ă cácă tină tcă tuynă dngăđcăđĕngătiăvƠăcpănhtăthngăxuyênătrênăcácăwebsiteătuynădngăcũngănhămngăxƣă hi,ầă cácăthông tin thngă cóă cácă đnhă dngă khôngă đngă nhtă vă cuă trúc,ă tùyăthucăvƠoămiăngunăđĕngătiăsăcóăcuătrúcădăliuăkhácănhau.ăBênăcnhăđó,ăcácătrìnhăthuăthpădăliuămiăbcăđuăgiúpăchúngătaăthuăthpăthƠnhăcác fileădăliuănguyênăgcă(raw) chaă đcăđngăbăvƠătăchcăluătrătpătrungăđăphcăvăcácăbƠiătoánătngăhp,ăphơnătíchăvƠădăđoánăxuăhng

CĕnăcăvƠoăyuătănhătrên,ăvicăcnăgiiăquytăđuătiênălƠătăchcăđngăbăvƠăluătrădăliuăvƠoăcăsădăliuătpătrung đăđmăboăvicătruyăvnăvƠăthcăhinăcácănghipăvămtăcáchăthunătinăvƠănhanhănht

1.2 T ng hp th ng kê, tr c quan s u   li

Khiădăliuăđƣăđcă thuăthpăvƠăluătr chúngătaăcnăcóăcácă côngăcă đ hpăthngăkêăvƠătrcă quanăhóaăsăliuăthƠnhăcácădngă bng,ăbiu Tuyănhiên,ăviăngună thông tin dăliu rt ln,ă thêm vƠoăđóălƠănhuăcuăthngăkê,ăbáoăcáoărt da dng,ăxoayătheo nhiuăgócănhìn VicănƠyăđòiăhiăchúngătaăcnăcácăcôngăhătrăbáoăcáoăchuyênă bit.ă rongăbƠiătoánănƠy,ătácăgiăđặtămcătiêuăcnătheoădõiăđcămtăsăcácăbáoăcáoăTthngăkêănhăsau:

Trang 12

lýăđăgimăthiuăđcăriăroănhtăcóăth TrongăbƠiătoánănƠy,ătácăgiăđặtămcătiêuăcnăđaăraăđcăcácădăđoánănhăsau:

 DăđoánănhuăcuătuynădngăngƠnhăITăcaăHƠăNi

 Dăđoánăđătuiătuynădngălaoăđngătrungăbình

1.4.Các công c, mô hình đáp ng cho bài toán

1.4.1 H thng qu n tr   vƠ lu tr c s   d li u NOSQL

Dăliuăphiăcuătrúcă(NOSQL)ăchiaăraăthƠnhă04ăloiăphăbin: Key-value, Document database, Graph database và Wide column stores

Key-value:ălƠăkiuădăliuăchung choăcácăhăqunătrăcăsădăliuăphiăcuătrúcăNoSQLăvƠălƠăkiuădăliuăđnăgi nht.ăDăliuăcaăkiuăKey valueăluătrădiădngăn -khóa (key - lƠămtăchuiăduyănht)ăliênăktăviăgiáătră(value)ăcóăthăădngăchuiăvĕnăbnăđnăginăhoặcăcácătp,ădanhăsáchădăliuăphcătpăhn.ăQuáătrìnhătìmăkimădăliuăthngăsăđcăthcăhinăthôngăquaăkey,ăđiuănƠyădnăđnăsăhnăchăvăđăchính xác Cácăcôngăcăsẵnăcó:ăRedis,ầ

Trang 13

Hình 1.1 Dữ liệu dạng Key-ValueDocument: lƠă hă că să dă liuă qună lýă vƠă luă cácă dă liuă ă dngă vĕnă bnă(Document).ăCácăvĕnăbnă(document)ăsăđcăchunăhóaăvăcácădngăchunănhăJSON (Javascript Object Notation),ă XMLă hoặcă BSONă (Binaryă JSON).ă Giáă tră caă cácă ctătrongăcácăcăsădăliuăvĕnăbnăchaădăliuăbánăcuătrúcă(Semi StructuredăData),ăđặcă-bitălƠăcặpăthucătínhăkey-value.ăCácăctăcóăthăchaănhiuăthucătính,ăsălngăvƠăloiăthucătínhăđcăluătrăcóăthăkhácănhauăgiaăcácădòng.ăThêmăvƠoăđóăcácăkiuăluătrădăliuădngăKey valueăđnăginălƠăcăkeyăvƠăvalueăđuăcóăthătìmăkimătrongăCSDLă-Document.ăCácăcôngăcăsẵnăcó:ăCouchDBă(JSON),ăMongoDBă(BSON),ầ

Hình 1.2 Dữ liệu dạng Document

Trang 14

Column-oriented databases (column-family):ă Nhìnă bă ngoƠi,ă chúngă kháăgingăviăCSDLăquanăhănhngăthcătălƠăhoƠnătoƠnăkhác.ăMtăsăsăkhácăbitădăthyănhtălƠăvicăluătrădăliuătheoădòngăđiăviăcácăHQTăCSDLăquanăhăviăvicăluătrădăliuătheoăctăcaăcácăHQTăCSDLăConlumnăFamily.ăVƠăcácătătngăcaăcăhaiăloiăCSDLănƠyăcũngăhoƠnătoƠnăkhácănhau.ăChúngătaăkhôngăthăápădngăcùngămtăgiiăphápămƠă chúngă taă đƣă să dngă trongă CSDLă quană hă vƠoă CSDLă Conlumnă Family.ă Biă vì,ăCSDLăColumnăFamilyălƠăcácăCSDLăphiăquanăhă[1].ăCácăcôngăcăsẵnăcó:ăBigTable,ầ

Hình 1.3 Dữ liệu dạng Coloumn

Graph databases:ăLƠătpăhpăcăsădăliuăcóădngăđăthătrongăđóăcóăcácănút,ăgiaăcácănútă(nodes)ăcóăquanăhă(relationships),ăthucătínhă(attributes)ăđămôătăvƠăluătră dă liu.ă Cácă côngă că sẵnă có:ă Neo4J,ă Sones,ă AllegroGraph,ă Coreă Data,ă DEX,ăFlockDB,ăInfoGrid,ăOpenLinkăVirtuoso,ầ

Hình 1.4 Dữ liệu dạng Graph [1]

Trang 15

1.4.2 Các công c trc quan hóa s u li

Trongăthiăgianătrăliăđơy giiăphápăv báo cáo thngăkê trăquaănhiuăthayăđi,ăhină nayă vică ápă dngă cácă báoă cáoă BIă (Business Intelligence) ktă hpă phơnă tíchă(Analytic) đangătrănênăphăbin.ăĐángăchúăýănhtălƠălƠăxuăhngăself-service, nó cung cpăchoăngiădùngăthôngăthngăkhănĕngătăxălýăvƠăphơnătíchăsăliuămƠăkhôngăcnănhiuăkinăthcăchuyênămônăvălpătrìnhăhayăphơnătích

TheoăbáoăcáoăđánhăgiáăcaăGartnerăvăMagicăQuadrantă2017,ăănhómădnădắtă(leaders)ăcácăcôngăcăcaăTableAUăvƠăMicrosoftă(PowerBI)ălƠănhngăhƣngăđngăđuăvăkhănĕngăđápăng,ăcungăcpădchăv

Hình 1.5 Đánh giá các công cụ trình diễn dữ liệu [2]

Power BI: LƠăphnămmăđóngăgóiăcaăMicrosoft,ăngiădùngăcóăthăcƠiăđặtătiăcácămáyăcáănhơn,ăktăniăviănhiuăloiăCSDL.ăĐimămnhăcaăsnăphmălƠăchiăphíăcƠiăđặtăthp.ăTuyănhiênăhnăchăcaăcôngăcălƠăkhănĕngăxălýădăliuăln.ăBênăcnhăđóăcácăbáoăcáoăxoayăchiuă(tngătănhăPivotăTableătrongăexcel)ăvnăchaăđcăhătr

TableAU: LƠămtătrongănhngăphnămmămnhănhtăvătíchăhpăvƠătrìnhădinădăliuă(visualization)ăcũngănhăphơnătíchătrcăquană(visualăanalysis).ăCôngăcăhătrătiăđaăchoăngiădùngă(end-user), giúp ngiădùngăcóăthăchăđngăđnhănghƿaăvƠăđiuăchỉnhăcácăbáoăcáoătrongăthiăgianăngắn.ăĐimămnhăcaăcôngăcălƠăkhănĕngăxălýădăliuăln,ăvicăthayăđi/cpănhtănhanhăchóngăviăcácăgiaoădinăkéoăthă(dragă&ădrop)

Trang 16

1.4.3 M ng n-ron nhân t o và mô hình d án   đo

1.4.3.1 Đnh nghĩa và c u trúc 

Đnh nghĩa: lƠămt môăhìnhătoánăhc hay mô hình tính toán đcăxơyădngădaătrên các mngăn-ron sinhăhc.ăNóăgmăcóămtănhómăcác n ronănhơnă to (nút)ăniă -viănhau,ăvƠăxălýăthôngătinăbằngăcáchătruynătheoăcácăktăniăvƠătínhăgiáătrămiătiăcác nút

Trongăthcătăsădng,ănhiuămngăn ronălƠăcácăcôngăc môăhìnhăhóaădăliu thngăkêăphiătuyn.ăChúngăcóăthăđcădùngăđămôăhìnhăhóaăcácămiăquanăhăphcătpăgiaădăliuăvƠoăvƠăktăquăhoặcăđ tìmăkimăcácădng/mu trongădăliu [3]

-Trongăđó,ă mtăn ronălƠă mtăthƠnhăphnă caă mngăn ronă nóăgiúpăxălýă cácă- thôngătin,ăcuătrúcănhăsau:

CácăthƠnhăphnăcăbnăcaămtăn-ron nhơnătoăbaoăgm:ăđuăvƠo,ătrngăsăliênăkt,ăhƠmătng,ăngỡngăvƠăđuăra Căth:

- Đu vƠo (Input): Là các giáătrăđuăvƠo caăn ron,ăcácătínăhiuănƠyăthngăđcăđaăvƠoădiădngămtăvectorăNăchiu.ă

Trng s liên kt (weight): MiăliênăktăđuăđcăgắnăviăcácătrngăsătaăthngăgiălƠătrngăsăliênăkt.ăTrngăsăliênăktăthngăđcăkhiătoănguănhiênăvƠăđcăcpănhtăliătrongăquáătrìnhăhcămng

- Hàm tng (Summing function): bằngătíchăcaăđu vƠoăvi trngăsăliênă kt

Trang 17

- Ngỡng (bias): lƠă mtă thƠnhăphnăcaăhƠmătruyn,ăvƠă đcă coiă nhămtăinputăbăsungăviătrngăsăluônăbằngă1

- HƠm truyn (Transfer function) : lƠă hƠmădùngăgiiă hnă đuăraă caă miăn-ron.ăNóănhnăđuăvƠoălƠăktăquăcaăhƠmătngăvƠăngỡngăđƣăcho.ăThôngăthng,ă phmă viă đuă raă caă miă n-ron đcă giiă hnă trongă đonăcác khongă[0,1] hoặcă[-1 ,1] CácăhƠmătruynăcóăthălƠăhƠmătuynătínhăhoặcăphiătuyn

Symmetrical Hard Limit

Trang 18

- Đu ra: LƠătínăhiuăđuăraăcaămtăn-ron,ăviămiăn-ron săcóătiăđaălƠămtăđuăra.ă

1.4.3.2 M ng nhi  u tng truy n th ẳng

Cóărtănhiuăloiămngăn-ron khác nhau [10], [12], [13], [17]ătrongăđóămngăn-ron truynă thẳngă nhiuă lpă đcă să dngă phă bină nhtă (MLPă- Multi Layer Perceptron).ă Đƣă cóă nhiuă nghiênă cuă să dngă mngăn-ron truynă thẳngă nhiuă lpătrongăbƠiătoánădăbáoă[14], [15], [16], [18]ăvƠăđƣ chngătăđơyălƠăhngătipăcnărtăhiuăqu

Mtămngăn ronănhiuătngătruynăthẳngăthngăsăcóănhiuăhnă2ătngă(nă>=2ătng),ătrongăđóăsătngănăbằngăn 1ăvƠă1ătngăoutput.ăRiêngătngăđuăvƠoă(input)ăkhôngă-đcătính

Kinătrúc ca mng truynăthẳng MLPăbaoăgmăcácăthƠnhăphn:

- ĐuăvƠo vƠăđuăra là các vector trong không gian nhiuăchiu

- Miăn-ronăcaăcácătngăsauăliênăktăviăttăcăcácăn ronătngălinătrcănó-

- Đuăraăcaăn-ron tngătrcălƠăđuăvƠoăcaăn ronăthucătngălinăsauănó.1.4.3.3 Hun luyn mng n-ron

Trang 19

khác gi a giá tr   th c t và giá tr  đuăraălƠăcăs cho vi c hi u ch nh   ỉtrng s ccuar m ng Quá trình hu n luy n liên t c và d ng l i khi      ừ 

mngăđtăđc giá tr sai s   nhămongămu Đin n hình cho k thu t này là m ng n -ron lan truy  năngc

o H c không giám sát (unsupervised learning):  M ng ki u này ph  i

t  tìmăraăcácăđặcătínhăcũngănhăquyălutătngăquanăgia d liuăđu vƠoăđ  t o ra d li uăđu ra Trong quá trình t  tìmăraăcácăđặcăđim,

m ng tr i qua quá trình t t    ch căđ thayăđi tham s 

o Hc tăng cng (Reinforcement learning): Đ  i v i h c có giám sát, các giá tr  đuăraăđc bi t chính xác v i m  iăđu vào Tuy nhiên,

Trang 20

trong th c t có m t s     trng h p ch bi t ít thông tin chi ti t, ch ng  ỉ   ẳ

h n m ng ch bi t r ng giá tr u ra th c s quá cao hay có th m  ỉ  ằ  đ    ng chỉ cóăđc thông tin ph n h i báo r  ằngăđu ra đúngăhayăsai.ăThut

h c d aătrênăthôngătinăđánhăgiáănƠyăđc g i là thu t h c c ng c    , thông tin phn hiăđc gi là tín hiuătĕngăcng

Bc 1:ăKhiătoătrngăsăbiăcácă giáă tră nguă nhiênănh.ă

Bc 2:ă Lặpă liă choă tiăkhiăthaămƣnăđiuăkinăktăthúc

Viă miă mu,ă thcă hinăcácăbcăsau:ă

2.1ăTínhăđuăraăoj choămi nút j:

- wji:ătrngăsătrênăxji

- bj:ăngỡngătiănútăthăjă

- oj:ăđuăraăcaănútăthăjă

- tj:ăđuăraămongămunăcaănútăthăjă

Trang 21

Đu vào Đu ra Ký hiu

Σxjiwji

2.2ă Viă miă nútă kă thucătngă ra,ă tínhă δk theo công thc:ă

δk = (tk oậ k)(1 ậ ok)ok2.3ă Viă miă nútă hă thucătngăn,ă tínhăδh theo công thc:ă

δh = oh(1 ậ oh) Σδkwkh vi

k Downstream(j) 

2.4ă Cpă nht:ăwji = wji +

Δwji TrongăđóăΔwji = ηδkxji

- Downstream(j):ă Tpă ttăcăcácănútănhnăđuăraăcaănútă thă jă lƠmă mtă giáă trăđuăvƠo.ă

- η:ătcăđăhcă

- f:ăhƠmătruynăviăf(x)ă=ă

1 / (1 + e-x)

1.4.3.4 M ng n-ron h i quy  (RNN - Recurrent Neural Network)

Đ i v i mngăn ronăthôngăthngăcácăđuăvƠoăvƠăđuăraălƠăđ - c l p và không liên

k t thành chu i M t s bài toán s không phù h p khi áp d ng mô hình này, ví d        đoánătừ  ti p theo c a m tăcơu,ătrongăđóăđ đoánăđc ta c n bi t l ch s xu t hi n các      

t ng ừ đ trcăđóă cácăvĕnăb đ n d y thi t l p cho m ng   ,ầăNhngăbƠiătoánănhătrênăphù h p v i m ng h i quy RNN, do mô hình s      thc hi n cùng m t tác v cho t t c     các ph  n t c a m t chu i v   iăđ u ra ph thuc vào c cácăphépătínhătrcăđó:

Trang 22

Hình 1.6 Mô hình mạng nơ ron hồi quy RNN- [5]

Tuyămng RNN giúpăgiiăquytăcácăbƠiătoánăcóădăliuătunătănhngăkinătrúcăcaămngăkháăđnăginănênăkhănĕngăliênăktăcácăthƠnhăphnăcóăkhongăcáchăxaătrongăcơuăkhôngătt Nguyên nhân do mngăhiăquyăRNNăchuănhăhngăbiăgradientă(đădc) băthpădnătrongăquáătrìnhăhc (vanishingăgradient).ăGradientăliălƠăthƠnhăphnăquanătrngăbcănhtătrongăvicăhunăluynăcácămodel.ăVìăthăkhiăgiáătrăcaăgradientăđcătoăbiăcácăthƠnhăphnăphíaăđuăđonăvĕnătrănênăquáănh,ănóăsăkhôngăđóng góp gìăchoăvicăhcăcaămodel.ăTừăhnăchănƠyătaănhnăthyăkinătrúcăcaămngăhiăquyăRNNăkhôngăcóăcăchălcă(filter)ăvƠăbăđiăcácăthôngătinăkhôngăcnăthit,ăđiuăđóădnăđnăbănhăsăđnăngỡngăvƠăsăbăđiănhngădăliuătrcăđóăăxaătrongăquáăkh

Đ kh c ph c các h n ch c a m ng RNN nêu trên, m t phiên bắ       năđặc bi t c a  

m ng RNN là m ng LS™ (Long Short Term Memory)   đƣăđcăraăđi:

Mng LSTM là mtădngăđặcăbităcaămôăhìnhămngăRNN Đimăchínhătrongăkină trúcă mngă caă LSTMăchínhălƠăcác memory cell viăcácăcngăchoă phépăluătrăhoặcătruyăxutăthôngătin.ăCácăcngănƠyăchoăphépăghiăđèă(inputăgate),ăloiăbădăthừaă(forgetă gate)ă vƠă truyă xută (outpută gate)ă cácă thôngă tină đcă luă tră bênă trong các memory cell

Trang 24

- Bc 3: C p nh tăcellstateăcũă ứ1 vào cell state m i  

- Bcă4:ăQuytăđnhăđuăraălƠăgì.ăChyătínăhiuăquaătngăsigmoidăđăquytăđnhăphnătănƠoăsătácăđngăđnăđuăra.ăSauăđóăđaăcellstateăđiăquaămtăhàm tanh (đyăgiáătrăvƠoăkhongă 1ăvƠă1)ăvƠănhơnăviămtăoutputăsigmoidă-gate,ăđăgiăliănhngăphnătaămunăoutputăraăngoƠi

Kt lun chng 1:

SăphátătrinăkhôngăngừngăcaăCNTT,ăcácădăliu,ăthôngătinăhinăđƣăvƠăđangăđcăsăhóaătừngăngƠy.ăVicăkhaiăthácăcácăthôngătinăvƠăngădngăvƠoăcácănhuăcuăcaăxƣăhiălƠăđiuăttăyu.ăTuyănhiên,ădoăthôngătinăthuăthpăđcătừăinternetărtăđaădngăvăcuătrúcăluătr,ăthêmăvƠoăđóăvicăphơnătíchăxuăhngăviătpădăliuălnălƠăđiuăkhôngăđnăgin

Sauăkhiănghiênăcuăthcăt,ătácăgiăđăxutăxơyădngămtăhăthngăhoƠnăchỉnhăbaoăgmăcác Mô-đunăđápăngăvicăđngăb,ăluătr,ăphân tích vƠădăbáoăxuăhngădaătrênăcácădăliuăthuăthpăđc.ăĐiăviăhăthngăCSDLăphiăđmăboătínhălinhăhot,ăcóăkhănĕngămărngănhanhăchóngăđngăthiăcóăthătruyăsutăhiuănĕngăcao.ăĐiăviăMô-đunătngăhpăthôngătinăvƠăphơnătíchădăliuăphiăđápăngăđcăcácăbƠiătoánăvăbáoăcáoăthngăkê,ăphơnătíchăxuăthăvƠădăbáoăxuăhngătrongătngălai.ăQuaăphơnătíchăđƣănêuăăcácă phnă trên,ă tácă giă đă xută să dngă hă CSDLă Non Sqlă mƠă că thă lƠă hă thngă-MongoDB (trinăkhaiătheoămôăhìnhăshardedăcluster),ăhăthngătrìnhăbƠy,ăhinăthădăliuăsăsădngălƠăTableAU.ăRiêngăđiăviăMô đunăphơnătíchătácăgiăđƣătrìnhăbƠyătngă-

Trang 25

quátăvămngăN ron,ăcáchăthcăhotăđngăvƠăđaăraăcácămôăhìnhăRNNăđăphcăvăttăchoăcôngătácădăbá trongăđóămôăhìnhăo, LS™ (Long Short Term Memory) đcăđánhăgiáălƠăcóănhiuăuăđim vƠăphùăhpăviăbƠiătoánăhinăti.ăMôăhìnhănƠyăsăđcănghiênăcuăvƠătrinăkhaiălênăhăthngădăbáoăxuăhngăăChngă2

Trang 26

-CHNG 2: XÂY DNG CHNG TRÌNH THU THP VÀ PHÂN TÍCH XU

HNG NGH NGHI P  TrongăchngănƠyătácăgiăsăphơnătíchăvƠăxơyădngăhăthng đngăbăthôngătin,ătăchcăluătrădăliuăvƠăphơnătíchăxuăthătừăcác thôngătinătuynădngătrênăinternetătừăcácămcătiêuăđƣăđcălaăchnătrcăbaoăgmăcácăbcăchínhănhăphơnătíchămcătiêuăcũngănhăthităkăhăthngăcăsădăliu;ăkinătrúcătngăquát,ầ

Trang 27

2.2 Gii quyt bài toán

2.2.2 Các công c  gi i quy t yêu c u  

2.2.2.1 Mô đun thu thp d li- u

MôăđunăthuăthpădăliuăđcăxơyădngătrênăngônăngăPythonăviăcácăthƠnhăphnăđcămôătănhătrongăHìnhă3.2

Hình 2.2 Luồng thu thập dữ liệu

HăthngăbaoăgmăcácăthƠnhăphn:

- CuăhìnhăvƠălpălchăquétăcácădăliu:

o Thitălpăcácăđngădn/folder/DBăđătinătrìnhăđnhăkỳăquét

o Đnhănghƿaăcácălută(rules)ăđăphơnăbităcácădăliuămiăsinhăđăthuăthpăv

- Chuynăđiădăliuărawăvădngăchunăhóa

o ThcăhinămappingădăliuăgiaădăliuărawăvƠădngădăliuămongă

Trang 28

- Lưu đồ các bước xử lý

Hình 2.3 Các bước thu thập dữ liệu

-Bcă1:ăLoadăcuăhìnhăvƠoăchngătrìnhăscanădăliuăbaoăgmăcácăthôngătin:ăđngădn,ăruleăphátăhinăraăcácăloiăfileămi

Bcă2:ăThitălpăchuăkỳăchyăcaătinătrìnhătheoăđnăvăthiăgianămongămună(thngăđălƠăphút).ăSauăkhiăthitălpăăsauămiăkhongăthiăgianăđcăthitălp sau khi ktăthúcăvicăquétădăliuăcaălnătrcăđó,ătinătrìnhăquétădăliuăsăđcăactiveăli

Bcă3ă&ă4:ăTừăcácăcuăhìnhăđƣăđcăđnhănghƿaătrongăfileăconfiguration,ătinătrìnhăsătruyăcpăvƠoăcácăfolder/databaseătheoăcácăđngădn

Bcă 5:ă Daă vƠoă lută phátă hină dă liuă mi,ă tină trìnhă să lyă đcă cácăfiles/recordămiăcnăđcăxălý.ăThcăhinăchuynăđiădăliuătừădngăRawăvădngămongămunăthôngăquaăcuăhìnhămappingădăliu.ăSauăkhiăthuăthpăvƠămappingădăliuăxongăsăgiăvƠăcpănhtăvƠoăcăsădăliu thông qua GatewayAPI, tinătrìnhăsăsleepătheoăcuăhình

2.2.2.2 API Gateway

Phơnă hă APIă Gatewayă đcă phátă trină trênă ngônă ngă C#ă viă cácă thƠnhă phnăđcămôătătrongăHìnhă3.4

Trang 29

Hình 2.4 Kiến trúc API Gateway

- Query №des:

o LƠăcácănodeăgnăviătngăCSDLănht,ăđcăphátătrinăđcăphátătrinăphcăvăcácămcăđíchăđặcăthùăcaănghipăv,ăcácănodeăcóăthătrinăkhaiă đcă lpă trênă cácă hă tngă khácă nhauă viă chcă nĕngă nhăInsert/Update/Delete :

 NhnăThcăhină ktă niă vƠătruyăvnălyăcácădă liuă theoăcácăđiuăkinăđcătruynăvƠo.ă

 ChunăhóaăcácănghipăvăthƠnhăcácăhƠmă(function)ăvƠăcácăbinăs.ă

Trang 30

2.2.2.3 H thng lu tr  li d u

DăliuătuynădngăđcăluătrătrênăcăsădăliuăMongoDBăvƠăđcăqunălýăbằngăMongoDBăOpsăManager

Kin trúc tng quát

Hình 2.5 Kiến trúc CSDL MongoDB [6]

H thng bao gm các thƠnh phn nh sau:

Trang 31

2.2.2.4 Công c trình din d li u

LunăvĕnăsădngăcôngăcăTableAUăchoămcăđíchătrìnhădinăcácăthôngătinăphơnătíchătuynădng

Hình 2.6 Kiến trúc công cụ phân tích, trình bày dữ liệu TableAU [7]

H thng bao gm các thƠnh phn nh sau:

- Dataă Connector:ă LƠă thƠnhă phnă choă phépă ngiă dùngă đnhă nghƿaă cácăDatasource

- Mainăcomponents:ăToăraăcácăviewănhìnădăliuăbaoăgmăcácăbiuăđăvƠădăliuăchiătit

Trang 32

2.2.2.5 Mô đun phơn tích, d đoán xu hng

 đ tài lunăvĕnănƠy,ătácăgi khôngăđiătrin khai l i các thu tătoánăcũngănhăphát tri n l i các ch  cănĕngăd báo vnăđƣăcóărt nhiuăthăvin cung c p s d ng trên   ngôn ng l p trình Python   nh:ăKeras, Tensorflow, Sklearn Tác gi s v n d ng các    thă vi n s n có nêu trên k t h p v i vi c xây d ng m t chẵ       cănĕngăcuăhìnhăđng cho phépă ngi dùng có th thi t l p b t c m t phân tích nào v i các tham s mong        mun

Mô-đun   s g m 03 chcănĕngăchính: C u hình tham s , thu th p d u và th   li c

d ng, l c theo công ty tuy n d ng, l c theo ngành ngh     ,ầ

o Thi gian l y d  liuăđ hu n luy n

Ngày đăng: 26/01/2024, 16:10

HÌNH ẢNH LIÊN QUAN

Bảng 1.1 . Các dạng dữ liệu  NoSQL - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 1.1 Các dạng dữ liệu NoSQL (Trang 12)
Hình 1.1 . Dữ liệu dạng Key - Value - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 1.1 Dữ liệu dạng Key - Value (Trang 13)
Hình 1.5 . Đánh giá các công cụ trình diễn dữ liệu  [2] - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 1.5 Đánh giá các công cụ trình diễn dữ liệu [2] (Trang 15)
Bảng 1.2 .  Nơ ron nhân tạo -  [4] - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 1.2 Nơ ron nhân tạo - [4] (Trang 16)
Bảng 1.4 . Mạng nhiều tầng truyền thẳng  [4] - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 1.4 Mạng nhiều tầng truyền thẳng [4] (Trang 18)
Bảng 1.6. Học không giám sát - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 1.6. Học không giám sát (Trang 19)
Bảng 1.5. Học giám sát - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 1.5. Học giám sát (Trang 19)
Bảng 1.7 . Học tăng cường - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 1.7 Học tăng cường (Trang 20)
Hình 1.7 . Mô hình mạng LSTM  [5] - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 1.7 Mô hình mạng LSTM [5] (Trang 23)
Hình 2.1 . Kiến trúc tổng thể hệ thống - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 2.1 Kiến trúc tổng thể hệ thống (Trang 26)
Bảng 2.1 . Bảng cấu trúc dữ liệu tuyển dụng - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 2.1 Bảng cấu trúc dữ liệu tuyển dụng (Trang 27)
Hình 2.5 . Kiến trúc CSDL Mong oDB [6] - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 2.5 Kiến trúc CSDL Mong oDB [6] (Trang 30)
Hình 2.6 . Kiến trúc công cụ phân tích, trình bày dữ liệu  TableAU [7] - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 2.6 Kiến trúc công cụ phân tích, trình bày dữ liệu TableAU [7] (Trang 31)
Bảng 2.2 . Module Phân tích dự báo - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Bảng 2.2 Module Phân tích dự báo (Trang 32)
Hình 3.2 . Thiết lập mạ ng Network - Phân tíh xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet
Hình 3.2 Thiết lập mạ ng Network (Trang 36)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w