. Mô tả bài toán-Mục đích là để phân loại một hình bóng xem là loại xe nào trong bốn loại xe, bằng cách sử dụng một tập hợp các các tính năng được chiết xuất từ hình bóng của xe. Chiếc xe có thể được xem từ nhiều góc độ khác nhau. -Giải quyết bài toán :Sử dụng J48 trong Weka dựa vào các thuộc tính để đưa ra cây quyết định xem đó là bóng của loại xe nào2.Xây dựng cơ sở dữ liệu-Dataset sử dụng: STATLOG (Vehicle Silhouettes)-Thông tin dataset: -Các thuộc tính:COMPACTNESS (average perim)**2/area CIRCULARITY (average radius)**2/area DISTANCE CIRCULARITY area/(av.distance from border)**2
Trang 1BTL KHAI PHÁ DỮ LIỆU
Đề bài : STATLOG (Vehicle Silhouettes)
Sinh viên thực hiện: Vũ Tuấn Anh Lớp : HTTT6
GVHD :Hồ Nhật Quang
1 Mô tả bài toán
-Mục đích là để phân loại một hình bóng xem là loại xe nào trong bốn loại xe, bằng cách sử dụng một tập hợp các các tính năng được chiết xuất từ hình bóng của xe Chiếc xe có thể được xem từ nhiều góc độ khác nhau
Trang 2-Giải quyết bài toán :Sử dụng J48 trong Weka dựa vào các thuộc tính để đưa ra cây quyết định xem đó là bóng của loại xe nào
2.Xây dựng cơ sở dữ liệu
-Dataset sử dụng: STATLOG (Vehicle Silhouettes)
-Thông tin dataset:
-Các thuộc tính:
COMPACTNESS (average perim)**2/area
CIRCULARITY (average radius)**2/area
DISTANCE CIRCULARITY area/(av.distance from border)**2
Cáclớp
Trang 3RADIUS RATIO (max.rad-min.rad)/av.radius
PR.AXIS ASPECT RATIO (minor axis)/(major axis)
MAX.LENGTH ASPECT RATIO (length perp max length)/(max
length)
SCATTER RATIO (inertia about minor axis)/(inertia about major axis) ELONGATEDNESS area/(shrink width)**2
PR.AXIS RECTANGULARITY area/(pr.axis length*pr.axis width)
MAX.LENGTH RECTANGULARITY area/(max.length*length perp to this)
SCALED VARIANCE (2nd order moment about minor axis)/area
ALONG MAJOR AXIS
SCALED VARIANCE (2nd order moment about major axis)/area
ALONG MINOR AXIS
SCALED RADIUS OF GYRATION (mavar+mivar)/area
SKEWNESS ABOUT (3rd order moment about major
axis)/sigma_min**3
MAJOR AXIS
Trang 4SKEWNESS ABOUT (3rd order moment about minor
axis)/sigma_maj**3
MINOR AXIS
KURTOSIS ABOUT (4th order moment about major
axis)/sigma_min**4
MINOR AXIS
KURTOSIS ABOUT (4th order moment about minor
axis)/sigma_maj**4
MAJOR AXIS
HOLLOWS RATIO (area of hollows)/(area of bounding polygon) -Training data
Trang 53.Tiến hành trong Weka
-Đưa dữ liệu vào Weka
-Sử dụng toàn bộ dữ liệu để Training:
Trang 6*Nội dung kếtquả
=== Run information ===
Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2
Relation: Statlog
Instances: 94
Attributes: 19
COMPACTNESS
Trang 7CIRCULARITY
DISTANCE CIRCULARITY
RADIUS RATIO
PR.AXIS ASPECT RATIO
MAX.LENGTH ASPECT RATIO
SCATTER RATIO
ELONGATEDNESS
PR.AXIS RECTANGULARITY
MAX.LENGTH RECTANGULARITY
SCALED VARIANCE
SCALED VARIANCE
SCALED RADIUS OF GYRATION
SKEWNESS ABOUT
SKEWNESS ABOUT
KURTOSIS ABOUT
KURTOSIS ABOUT
HOLLOWS RATIO
STATLOG
Test mode: evaluate on training data
Trang 8=== Classifier model (full training set) ===
J48 pruned tree
-ELONGATEDNESS <= 40
| MAX.LENGTH ASPECT RATIO <= 7: bus (11.0)
| MAX.LENGTH ASPECT RATIO > 7
| | COMPACTNESS <= 103
| | | SKEWNESS ABOUT <= 4
| | | | PR.AXIS RECTANGULARITY <= 23
| | | | | KURTOSIS ABOUT <= 18: saab (6.0)
| | | | | KURTOSIS ABOUT > 18: opel (2.0)
| | | | PR.AXIS RECTANGULARITY > 23: opel (2.0)
| | | SKEWNESS ABOUT > 4: opel (9.0)
| | COMPACTNESS > 103: saab (8.0/1.0)
ELONGATEDNESS > 40
| COMPACTNESS <= 80
| | PR.AXIS RECTANGULARITY <= 18: opel (3.0)
| | PR.AXIS RECTANGULARITY > 18: saab (3.0/1.0)
Trang 9| COMPACTNESS > 80
| | DISTANCE CIRCULARITY <= 77
| | | ELONGATEDNESS <= 46
| | | | MAX.LENGTH RECTANGULARITY <= 134: saab (3.0/1.0)
| | | | MAX.LENGTH RECTANGULARITY > 134: bus (16.0/1.0)
| | | ELONGATEDNESS > 46
| | | | SKEWNESS ABOUT <= 4: van (7.0)
| | | | SKEWNESS ABOUT > 4
| | | | | SKEWNESS ABOUT <= 6: saab (2.0)
| | | | | SKEWNESS ABOUT > 6: van (6.0/1.0)
| | DISTANCE CIRCULARITY > 77: van (16.0)
Number of Leaves : 14
Size of the tree : 27
Time taken to build model: 0.08 seconds
=== Evaluation on training set ===
Trang 10=== Summary ===
Correctly Classified Instances 89 94.6809 %
Incorrectly Classified Instances 5 5.3191 %
Kappa statistic 0.9284
Mean absolute error 0.0423
Root mean squared error 0.1455
Relative absolute error 11.3724 %
Root relative squared error 33.7281 %
Total Number of Instances 94
=== Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F-Measure ROC Area Class
1 0.015 0.966 1 0.982 0.999 van
0.95 0.041 0.864 0.95 0.905 0.989 saab
1 0.015 0.963 1 0.981 0.996 bus
0.8 0 1 0.8 0.889 0.98 opel WeiA0.947 0.017 0.95 0.947 0.946 0 992
Trang 11=== Confusion Matrix ===
a b c d < classified as
28 0 0 0 | a = van
1 19 0 0 | b = saab
0 0 26 0 | c = bus
0 3 1 16 | d = opel
-Câyquyếtđịnh:
Trang 12-95% dữliệuđểxâydựng, 5% test
-90% dữliệuđểxâydựng, 10% test
Trang 13-85% dữliệuđểxâydựng, 15% test
Trang 14-80% dữliệuđểxâydựng, 20% test
Trang 15-60% dữliệuđểxâydựng, 40% test