1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu STATLOG (Vehicle Silhouettes)

16 791 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai phá dữ liệu: Sử dụng phần mềm weka khai phá bộ dữ liệu statlog (vehicle silhouettes)
Tác giả Vũ Tuấn Anh
Người hướng dẫn GVHD: Hồ Nhật Quang
Trường học University of Information Technology
Chuyên ngành Data Mining
Thể loại tiểu luận
Năm xuất bản 2011
Thành phố Hồ Chí Minh
Định dạng
Số trang 16
Dung lượng 678,68 KB

Nội dung

. Mô tả bài toán-Mục đích là để phân loại một hình bóng xem là loại xe nào trong bốn loại xe, bằng cách sử dụng một tập hợp các các tính năng được chiết xuất từ hình bóng của xe. Chiếc xe có thể được xem từ nhiều góc độ khác nhau. -Giải quyết bài toán :Sử dụng J48 trong Weka dựa vào các thuộc tính để đưa ra cây quyết định xem đó là bóng của loại xe nào2.Xây dựng cơ sở dữ liệu-Dataset sử dụng: STATLOG (Vehicle Silhouettes)-Thông tin dataset: -Các thuộc tính:COMPACTNESS (average perim)**2/area CIRCULARITY (average radius)**2/area DISTANCE CIRCULARITY area/(av.distance from border)**2

Trang 1

BTL KHAI PHÁ DỮ LIỆU

Đề bài : STATLOG (Vehicle Silhouettes)

Sinh viên thực hiện: Vũ Tuấn Anh Lớp : HTTT6

GVHD :Hồ Nhật Quang

1 Mô tả bài toán

-Mục đích là để phân loại một hình bóng xem là loại xe nào trong bốn loại xe, bằng cách sử dụng một tập hợp các các tính năng được chiết xuất từ hình bóng của xe Chiếc xe có thể được xem từ nhiều góc độ khác nhau

Trang 2

-Giải quyết bài toán :Sử dụng J48 trong Weka dựa vào các thuộc tính để đưa ra cây quyết định xem đó là bóng của loại xe nào

2.Xây dựng cơ sở dữ liệu

-Dataset sử dụng: STATLOG (Vehicle Silhouettes)

-Thông tin dataset:

-Các thuộc tính:

COMPACTNESS (average perim)**2/area

CIRCULARITY (average radius)**2/area

DISTANCE CIRCULARITY area/(av.distance from border)**2

Cáclớp

Trang 3

RADIUS RATIO (max.rad-min.rad)/av.radius

PR.AXIS ASPECT RATIO (minor axis)/(major axis)

MAX.LENGTH ASPECT RATIO (length perp max length)/(max

length)

SCATTER RATIO (inertia about minor axis)/(inertia about major axis) ELONGATEDNESS area/(shrink width)**2

PR.AXIS RECTANGULARITY area/(pr.axis length*pr.axis width)

MAX.LENGTH RECTANGULARITY area/(max.length*length perp to this)

SCALED VARIANCE (2nd order moment about minor axis)/area

ALONG MAJOR AXIS

SCALED VARIANCE (2nd order moment about major axis)/area

ALONG MINOR AXIS

SCALED RADIUS OF GYRATION (mavar+mivar)/area

SKEWNESS ABOUT (3rd order moment about major

axis)/sigma_min**3

MAJOR AXIS

Trang 4

SKEWNESS ABOUT (3rd order moment about minor

axis)/sigma_maj**3

MINOR AXIS

KURTOSIS ABOUT (4th order moment about major

axis)/sigma_min**4

MINOR AXIS

KURTOSIS ABOUT (4th order moment about minor

axis)/sigma_maj**4

MAJOR AXIS

HOLLOWS RATIO (area of hollows)/(area of bounding polygon) -Training data

Trang 5

3.Tiến hành trong Weka

-Đưa dữ liệu vào Weka

-Sử dụng toàn bộ dữ liệu để Training:

Trang 6

*Nội dung kếtquả

=== Run information ===

Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2

Relation: Statlog

Instances: 94

Attributes: 19

COMPACTNESS

Trang 7

CIRCULARITY

DISTANCE CIRCULARITY

RADIUS RATIO

PR.AXIS ASPECT RATIO

MAX.LENGTH ASPECT RATIO

SCATTER RATIO

ELONGATEDNESS

PR.AXIS RECTANGULARITY

MAX.LENGTH RECTANGULARITY

SCALED VARIANCE

SCALED VARIANCE

SCALED RADIUS OF GYRATION

SKEWNESS ABOUT

SKEWNESS ABOUT

KURTOSIS ABOUT

KURTOSIS ABOUT

HOLLOWS RATIO

STATLOG

Test mode: evaluate on training data

Trang 8

=== Classifier model (full training set) ===

J48 pruned tree

-ELONGATEDNESS <= 40

| MAX.LENGTH ASPECT RATIO <= 7: bus (11.0)

| MAX.LENGTH ASPECT RATIO > 7

| | COMPACTNESS <= 103

| | | SKEWNESS ABOUT <= 4

| | | | PR.AXIS RECTANGULARITY <= 23

| | | | | KURTOSIS ABOUT <= 18: saab (6.0)

| | | | | KURTOSIS ABOUT > 18: opel (2.0)

| | | | PR.AXIS RECTANGULARITY > 23: opel (2.0)

| | | SKEWNESS ABOUT > 4: opel (9.0)

| | COMPACTNESS > 103: saab (8.0/1.0)

ELONGATEDNESS > 40

| COMPACTNESS <= 80

| | PR.AXIS RECTANGULARITY <= 18: opel (3.0)

| | PR.AXIS RECTANGULARITY > 18: saab (3.0/1.0)

Trang 9

| COMPACTNESS > 80

| | DISTANCE CIRCULARITY <= 77

| | | ELONGATEDNESS <= 46

| | | | MAX.LENGTH RECTANGULARITY <= 134: saab (3.0/1.0)

| | | | MAX.LENGTH RECTANGULARITY > 134: bus (16.0/1.0)

| | | ELONGATEDNESS > 46

| | | | SKEWNESS ABOUT <= 4: van (7.0)

| | | | SKEWNESS ABOUT > 4

| | | | | SKEWNESS ABOUT <= 6: saab (2.0)

| | | | | SKEWNESS ABOUT > 6: van (6.0/1.0)

| | DISTANCE CIRCULARITY > 77: van (16.0)

Number of Leaves : 14

Size of the tree : 27

Time taken to build model: 0.08 seconds

=== Evaluation on training set ===

Trang 10

=== Summary ===

Correctly Classified Instances 89 94.6809 %

Incorrectly Classified Instances 5 5.3191 %

Kappa statistic 0.9284

Mean absolute error 0.0423

Root mean squared error 0.1455

Relative absolute error 11.3724 %

Root relative squared error 33.7281 %

Total Number of Instances 94

=== Detailed Accuracy By Class ===

TP Rate FP Rate Precision Recall F-Measure ROC Area Class

1 0.015 0.966 1 0.982 0.999 van

0.95 0.041 0.864 0.95 0.905 0.989 saab

1 0.015 0.963 1 0.981 0.996 bus

0.8 0 1 0.8 0.889 0.98 opel WeiA0.947 0.017 0.95 0.947 0.946 0 992

Trang 11

=== Confusion Matrix ===

a b c d < classified as

28 0 0 0 | a = van

1 19 0 0 | b = saab

0 0 26 0 | c = bus

0 3 1 16 | d = opel

-Câyquyếtđịnh:

Trang 12

-95% dữliệuđểxâydựng, 5% test

-90% dữliệuđểxâydựng, 10% test

Trang 13

-85% dữliệuđểxâydựng, 15% test

Trang 14

-80% dữliệuđểxâydựng, 20% test

Trang 15

-60% dữliệuđểxâydựng, 40% test

Ngày đăng: 03/12/2013, 16:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w