... từ loại tiếng Việt dựa trên Conditional Random Fields và Maximum Entropy – Phan Xuân Hiếu [2] http://vlsp.vietlp.org:8080/demo/?page=resources [3] Phát triển bộ công cụ hỗ trợ xây dựng kho ... Cc công cụ phân tch văn bản ting vit Chương 3: Xây dựng phần mềm tch từ ting vit sử dụng Viettagger. 3 ! "#$%&'( ... MN+,8;OHEP+S9/8T<+8:@+,V< Dựa trên các thông tin như tần số xuất hiện của từ trong tập huấn luyện ban đầu. Hướng tiếp cận này đặc biệt dựa trên tập ngữ liệu huấn luyện, nhờ vậy nên hướng tiếp cận...
Ngày tải lên: 02/07/2015, 16:50
... giả luận văn Nguyễn Thị Thùy Dương - ii - LỜI CẢM ƠN Lời xin bày tỏ lòng biết ơn chân thành đến Ban Giám Hiệu, thầy giáo, cô giáo phòng Sau đại học trường Đại học Công Nghệ Thông Tin & Truyền ... trữ sở liệu hệ thống Hình 3.2 Văn chuẩn hóa 3.2.3 Xây dựng từ điển danh từ Từ tập liệu huấn luyện ban đầu sau trình chuẩn hóa văn ta xây dựng từ điển bao gồm danh từ Để xây dựng từ điển danh từ ... loại - FP: văn phân loại bị sai Để tính số lượng đặc trưng trung bình giảm so với số đặc trưng ban đầu phân loại, luận văn sử dụng công thức sau: = ∑ - 57 - Trong đó: - fi số đặc trưng tập test...
Ngày tải lên: 12/05/2016, 10:47
Khảo sát giá trị liên kết và ngữ nghĩa của các từ nối theo phạm trù tương phản trong văn bản tiếng việt (trên cơ sở dữ liệu truyện ngắn của ba tác giả nam cao, nguyễn huy thiệp, nguyễn ngọc tư)
... LIỆU THAM KHẢO Diệp Quang Ban (2005), Ngữ pháp tiếng Việt, NXB Giáo dục, Hà Nội Diệp Quang Ban (2009, tái bản), Văn liên kết tiếng Việt, NXB Giáo dục, Hà Nội Diệp Quang Ban (2002), Giao tiếp, Văn ... NXB Giáo dục, Hà Nội Diệp Quang Ban (2005), Ngữ pháp tiếng Việt, NXB Giáo dục, Hà Nội Diệp Quang Ban (1998), Về mạch lạc văn bản, Ngôn ngữ (1), tr.47-55 Diệp Quang Ban (1999), Hai giai đoạn ngơn ... R.Hasan (1976), I P.Gal’perin (1987), O I Moskal’skaja (1998), Trần Ngọc Thêm (1985), Diệp Quang Ban (1994), Nguyễn Thị Việt Thanh (1999), Một đặc trưng bản, quan trọng văn tính liên kết Các câu...
Ngày tải lên: 09/09/2016, 15:46
Phan loai van ban tieng viet voi bo phan loai vecto ho tro svm
... SVM Classification of Vietnamese Documents Using Support Vector Machine Nguyễn Linh Giang, Nguyễn Mạnh Hiển Abstract: In this paper, we present studies on Vietnamese document classification problem ... trường hợp sử dụng không gian ban đầu Một mặt định tuyến tính không gian tương ứng với mặt định phi tuyến không gian ban đầu Khi đó, toán quy hoạch toàn phương ban đầu trở thành: Cực đại hóa: ... applications in the field of text categorization This paper presents the results of the experiment on Vietnamese text categorization with SVM Từ khóa: Phân loại văn bản, Support Vector Machine I GIỚI...
Ngày tải lên: 04/10/2016, 20:30
Phân loại văn bản tiếng Việt bằng phương pháp phân tích cú pháp
... cp c n phng phỏp ny Nú thuc vo cỏc phng phỏp x lý ngụn ng t nhiờn Do thi gian cú hn hng tip cn ban u khụng ỳng, nờn em ng phng phỏp ny Tuy nhiờn, hng mc tiờu ca em kỡ lm lun tt nghip ti s trung ... mu cú sn) vi ni dung l mt bỏo cỏo nghiờn cu v lý thuyt thụ, kt qu hin vi ni dung nh sau: Ket qua phan tich tu tep tin "Test.txt" Ten tu khoa (so lan xuat hien) "thông tin" (40) "hàm" (34) "khai ... (Neural network) 29 Mt s cụng c phõn tớch bn ting Anh 35 III Cỏc gii phỏp ỏp dng cho Vietnamese Text Mining 39 c trng ca bn ting Vit 39 a Cỏc n v ca ting Vit 39...
Ngày tải lên: 21/11/2016, 02:11
XÂY DỰNG ỨNG DỤNG hỗ TRỢ PHÂN LOẠI văn bản TIẾNG VIỆT dựa TRÊN PHƯƠNG PHÁP POINTWISE và bộ PHÂN LOẠI SVM
... tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ tự nhiên Kho vănbản này được gọi là treebank Treebank có nhiều ứng dụng quan trọng nhưđánh giá, kiểm định các công cụ xử lý ngôn ngữ tự động, ... tiếp cận dựa trên thống kê: Dựa trên các thông tin như tần sốxuất hiện của từ trong tập huấn luyện ban đầu Hướng tiếp cận nàyđặc biệt dựa trên tập ngữ liệu huấn luyện, nhờ vậy nên hướng tiếpcận này ... theo cội nguồn (nghiên cứu lịch đại), ta có các ngữ hệ sau: Ấn-Âu: Dòng ngôn ngữ Ấn Độ, I-Ran, Bantic, Slave, Roman, HyLạp, German (Gồm Đức, Anh, Hà Lan, ) Sê-Mít: Dòng ngôn ngữ Sê-mít, Ai...
Ngày tải lên: 02/04/2017, 08:26
Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt
... Trung Hung, “Vietnamese Documents Classification Based on Dendrogram and Wikipedia”, Proceedings of Asian Conference on Information Systems 2014, ACIS 2014, December 1-3, 2014, Nha Trang, Viet Nam, ... khác 120 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Vo Duy Thanh, Vo Trung Hung, Pham Minh Tuan, Doan Van Ban, “Text classification based on semi-supervised learning”, Proceeding of the SoCPaR 2013, IEEE ... Hung Nguyen et al (2005), “Internet and Genetics Algorithm-based Text Categorization for Documents in Vietnamese“, Proceedings of 4th IEEE International Conference on Computer Science - Research,...
Ngày tải lên: 28/08/2017, 16:14
Nghiên cứu ứng dụng kỹ thuật học bán giám sát vào lĩnh vực phân loại văn bản tiếng việt (tt)
... Trung Hung, “Vietnamese Documents Classification Based on Dendrogram and Wikipedia”, Proceedings of Asian Conference on Information Systems 2014, ACIS 2014, December 1-3, 2014, Nha Trang, Viet Nam, ... khác 24 CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Vo Duy Thanh, Vo Trung Hung, Pham Minh Tuan, Doan Van Ban, “Text classification based on semi-supervised learning”, Proceeding of the SoCPaR 2013, IEEE ... phân loại văn tiếng Việt mà đảm bảo tỷ lệ phân loại Ở mức rút gọn 30%-70% so với không gian véc tơ ban đầu, tỷ lệ phân loại văn cao so với chưa phân cụm 22 Giới hạn luận án Về bản, chương trình phân...
Ngày tải lên: 28/08/2017, 16:14
DSpace at VNU: Tỉnh lược ngữ dụng và tỉnh lược toàn phần trong văn bản tiếng Việt
... Phạm Văn Tình KỶ YẾU HỘI THẢO QUỐC TẾ VIỆT NAM HOẽC LAN THệ BA TIểU BAN NGÔN NGữ Và TIếNG VIệT TỉNH LƯợC NGữ DụNG Và TỉNH LƯợC TOàN PHầN TRONG VĂN BảN TIếNG VIệT PGS.TS ... phần hư: Có chỗ vạch cách rạch ròi lại có chỗ khó nắm bắt tinh tế tính phức tạp tượng” [Diệp Quang Ban 1998: 73-74] Đây vấn đề cần phải xem xét để đưa lý giải có luận xác đáng Bởi vì, trước có nhiều...
Ngày tải lên: 16/12/2017, 01:59
Nghiên cứu lý thuyết naive bayes và ứng dụng trong phân loại văn bản tiếng việt
... Thùy Dương Trang 3- 3 -LỜI CẢM ƠN Lời đầu tiên tôi xin được bày tỏ lòng biết ơn chân thành đến Ban GiámHiệu, các thầy giáo, cô giáo phòng Sau đại học trường Đại học Công NghệThông Tin & Truyền ... chế 1.1.3 Các khái niệm cơ bản trong phân loại văn bản 1.1.3.1 Tập văn bản huấn luyện (Training documents set) Tập văn bản huấn luyện là một tập hợp các dữ liệu được sử dụng trongcác quá trình tìm ... khoảng cách đến nó là: 1 Khi các điểm khác bị xóa đi thì vẫn không ảnh hưởng đến kết || w || quả ban đầu 1.2 Các nghiên cứu liên quan Các nghiên cứu về phân loại văn bản tập trung vào việc áp dụng...
Ngày tải lên: 09/01/2019, 21:09
ĐỀ CƯƠNG PHÂN TÍCH văn bản TIẾNG VIỆT
... Câu 1: khái niêm vban, đặc trưng văn bản, đặc điểm văn xã hội + khái niệm văn :- theo nguyễn minh thuyết: “ văn tập ... điểm quan điểm thống với điểm sau Coi đoạn văn thành tố cấu trúc văn Là đơn vị có hthuc rõ rang vban viết Là kết phân đoạn mặt phong cách logic , biểu thị nội dung tương đối độc lập có hình thức...
Ngày tải lên: 17/11/2020, 14:24
Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec
... Nguyen, Tham T.T Hong, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen “Deep Learning versus Traditional Classifiers on Vietnamese Students’ Feedback Corpus”, (2018) [21] Kiet Van Nguyen, Vu Duc Nguyen, ... Comparative Study on Vietnamese Text Classification Methods," IEEE International Conference on Research, Innovation and Vision for the Future, Hanoi, 2007, pp 267-273 [2] T.V Trung, Python Vietnamese Core ... (2019), Online: https://github.com/trungtv/pyvi [3] Stopwords/Vietnamese stopwords (2019), Online: https://github.com/stopwords/vietnamese-stopwords [4] Ting K.M., “Confusion Matrix,” In Sammut...
Ngày tải lên: 19/11/2020, 08:15
Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt
... Nguyen, X-H Phan, and T-T Nguyen, ―JVnTextPro: A Java-based Vietnamese Text Processing Tool‖, 2010 http://jvntextpro.sourceforge.net [28] D-D Pham, G-B Tran, S-B Pham, ―A hybrid approach to Vietnamese ... machines‖,Advances in Kernel Methods: Support Vector Learning, pp 255-268, 1999 [20] H-P Le, T-M-H., Nguyen, A Roussanaly, and T V Ho, ―A hybrid approach to word segmentation of Vietnamese texts‖, ... of Electrical Engineering, Nagaoka University of Technology, 2012 http://viet.jnlp.org/dongdu [24] C Manning, P Raghavan, andH Schütze, ―Introduction to Information Retrieval‖, Cambridge University...
Ngày tải lên: 26/11/2020, 00:04
Phân cụm văn bản tiếng việt bằng phương pháp k means
... k-means phụ thuộc nhiều vào tham số đầu vào như: số cụm k k trọng tâm khởi tạo ban đầu Trong trường hợp trọng tâm khởi tạo ban đầu mà lệch so với trọng tâm cụm tự nhiên Page 25 kết phân cụm k-means ... bình đối tượng liệu cụm Nó xem trung tâm cụm Như vậy, cần khởi tạo tập trung tâm trung tâm cụm ban đầu, thông qua lặp lại bước gồm gán đối Page 22 tượng tới cụm mà trung tâm gần, tính toán tung ... cho đối tượng Quá trình lặp dừng trung tâm hội tụ Hình: Các thiết lập để xác định ranh giới cụm ban đầu Trong phương pháp K-means, chọn giá trị k sau chọn ngẫu nhiên k trung tâm đối tượng liệu...
Ngày tải lên: 13/03/2016, 11:21
Phát triển bộ công cụ hỗ trợ xây dựng kho ngữ liệu cho phân tích văn bản tiếng Việt
... hạn treebank tiếng Anh chọn báo Wall Street Journal, treebank tiếng Trung chọn báo XinHua Thực gán nhãn Với tiếng Việt, treebank nghiên cứu xây dựng khuôn khổ đề tài VLSP có tên vietreebank Mục ... dựng treebank cho tiếng Việt 3.2 Nội dung quy trình dựng kho ngữ liệu có giải cú pháp (treebank) Kho ngữ liệu (treebank) ngân hàng câu giải cấu trúc ngữ pháp Quy trình xây dựng treebank thường ... xây dựng khuôn khổ đề tài VLSP có tên vietreebank Mục tiêu vietreebank xây dựng lược đồ giải thích cú pháp 10.000 câu Tập nhãn vietreebank thiết kế gồm có: • Tập nhãn từ loại Về nguyên tắc, thông...
Ngày tải lên: 12/04/2013, 15:44
Một cách tiếp cận trong phân tích văn bản tiếng Việt. doc
... sanh cac t ir van ban va t ir die'n [6], VO'i tieng Viet , cluing ta co BKED, VIETRES dua tren lu~t cau t ao am tiet cua tieng Vi~t de' tlrn cac chir khOng phai la am tiet tieng Vi~t, VIET BIT su: ... trlnh phan tich cll phap, Hinh ve du'ai day se cho ta thay bu:c tranh ve qua trlnh xac dinh t5 hq-p tir dung ctl.a m ABGDE Phan lai (tail) se dtroc quan ly thOng qua bien expect (di kern theo m6i phan tti' cua bang] Tai hrct phan tich sau cua bang phan tich,...
Ngày tải lên: 04/04/2014, 04:20
XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU
... biểu diễn phương pháp tần suất là: D = (0,0,1,1,1,1) 2.4 Mô hình nghịch đảo tần số văn (Inverse Document Frequency - IDF) Trong phương pháp này, giá trị wij tính theo công thức sau: m log h = ... loại văn Quy trình toán phân loại văn dựa kỹ thuật học máy biểu diễn qua bước sau: - Từ tập liệu ban đâu, chuẩn bị tập liệu huấn luyện (Training Data) tập liệu kiểm tra (Test Data) - Tách từ văn ... mong muốn đánh giá hiệu phân loại chúng Bởi vậy, trước xây dựng phân loại người ta chia tập văn ban 15 đầu thành tập hợp, số văn hai tập hợp không thiết phải nhau: - Tập huấn luyện (training (-and-validation)...
Ngày tải lên: 19/06/2014, 09:35
Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU ỨNG DỤNG TẬP PHỔ BIẾN VÀ LUẬT KẾT HỢP VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN TIẾNG VIỆT CÓ XEM XÉT NGỮ NGHĨA" pdf
... ASSOCIATION RULES TO SEMANTIC VIETNAMESE DOCUMENT CLASSIFICATION Do Phuc Center of Information Technology Development, VNU-HCM ABSTRACT: Today, the volume of electronic documents in the Internet is ... Diệp Quang Ban, Hoàng Văn Thung (2000), Ngữ pháp tiếng Việt, NXB Giáo dục Trang 31 Science & Technology Development, Vol 9, No.2 - 2006 [5] Dinh Dien, Nguyen Van Toan, Hoang Kiem (2001), Vietnamese ... association rules to the document classification problem We have applied these algorithms in i) Using the frequent sets and association rules for generating the document feature vectors, and...
Ngày tải lên: 22/07/2014, 10:22
Bạn có muốn tìm thêm với từ khóa: