پایان نامه با کلید واژه های شخص ثالث

ابزاري که کارايي بالاتري از Rapidminer داشت statistica بود که متن باز نبوده و استفاده از آن نيازمند تقبل هزينه آن است]صنيعي آباده 1391[.
در يازدهمين و دوازدهمين بررسي سالانه KDDnuggets Data Mining / Analytics راي گيري با طرح اين سوال که کدام ابزار داده کاوي را ظرف يک سال گذشته براي يک پروژه واقعي استفاده کرده ايددر سال 2010 از بين 912 نفر و در سال 2011 ازبين 1100 نفر انجام شد. توزيع راي دهندگان بدين صورت بوده است:
اروپاي غربي 37%
آمريکاي شمالي 35%
اروپاي شرقي 10%
آسيا 6%
اقيانوسيه 4%
آمريکاي لاتين 4%
آفريقا و خاورميانه %4
نتايج به شرح جدول 3-1 بوده است :
جدول شماره 3-1: نتايج راي گيري استفاده از نرم افزارهاي داده کاوي
2011 Vote
2010 Vote
Software name
37. 8%
27. 7%
Rapidminer
29. 8%
23. 3%
R
24. 3%
21. 8%
Excel
12. 1%
13. 6%
SAS
18. 4%
12. 1%
Your own code
19. 2%
12. 1%
KNIMe
14. 4%
11. 8%
WEKA
1. 6%
10. 6%
Salford
6. 3%
8. 5%
Statistica
همانطور که نتايج راي گيري مشخص ميکند نرم افزار Rapidminer بيشترين استفاده کننده را دارد.
در اين پايان نامه نيز عمليات داده کاوي توسط اين نرم افزار انجام مي شود. ناگفته نماند در قسمتهايي از نرم افزار minitab و Clementine12 نيز براي بهينه کردن پاسخ بدست آمده و بالابردن کيفيت نتايج استفاده شده است.
داده ها
داده هاي مورد استفاده در اين پژوهش شامل مجموعه بيمه نامه هاي شخص ثالث صادر شده استان کهگيلويه و بويراحمد در سال 1390 شمسي بوده که بيمه نامه هاي منجر شده به خسارت نيز در اين ليست مشخص گرديده اند. تعداد کل رکوردها حدود 20 هزار رکورد بوده که از اين تعداد تقريباً 7. 5 درصد يعني حدود 1500 رکوردمنجر به خسارت گرديده اند.
3-2-1- انتخاب داده
داده مورد استفاده در اين پژوهش شامل دو مجموعه داده به شرح زير بوده است:
صدور: اطلاعات بيمه نامه هاي صادره
خسارت: جزئيات خسارت پرداختي ازمحل هر بيمه نامه که خسارت ايجاد کرده
3-2-2-فيلدهاي مجموعه داده صدور
اين فيلدها در حالت اوليه 137 مورد به شرح جدول 3-2 بوده است.
3-2-3-کاهش ابعاد22
در اين پژوهش بخاطر موثرنبودن فيلدهايي اقدام به حذف اين مشخصه ها کرده و فيلدهاي موثر نهايي به 42 فيلد کاهش يافته که به شرح جدول 3-3 بدست آمده اند. کاهش ابعاد ميتواند شامل حذف فيلدهاي موثر که داراي اثر بسيار ناچيز درمقابل ديگر فيلدها است نيز باشد.
جدول شماره 3-2: فيلدهاي اوليه داده هاي صدور
رديف
نام فيلد
رديف
نام فيلد
رديف
نام فيلد
1
بيمه‌نامه
33
مدت بيمه
65
تعهدمازاد
2
سال‌صدوربيمه‌نامه
34
زمان‌شروع
66
كدنوع‌تعهدسرنشين
3
رشته‌بيمه
35
شغل‌بيمه‌گذار
67
ميزان‌تعهدسرنشين
4
نمايش سند
36
سن‌بيمه‌گذار
68
حق‌بيمه‌ثالث‌قانوني
5
مكانيزه
37
سال‌كارت
69
ثالث قانوني+تعددديات
6
دستي
38
سريال‌كارت
70
حق‌بيمه‌بند4
7
وب‌بنيان
39
كدوسيله‌نقليه
71
حق‌بيمه‌ماده1
8
نام‌استان
40
كدزيررشته‌آمار
72
حق‌بيمه‌مازاد
9
نام‌شعبه
41
نوع‌وسيله‌نقليه
73
حق‌بيمه‌سرنشين
10
كدشعبه
42
سيستم
74
ماليات
11
شعبه‌محل‌صدور
43
سال ساخت
75
مازادجاني
12
شعبه
44
رنگ
76
حق‌بيمه‌مازادمالي
13
نمايندگي‌محل‌صدور
45
شماره‌شهرباني
77
عوارض‌ماده92
14
كددولتي
46
شماره‌موتور
78
حق‌بيمه‌دريافتي
15
نمايندگي
47
شماره‌شاسي
79
tadodflg
16
دولتي
48
تعدادسيلندر
80
حق‌بيمه‌تعددخسارت
17
صادره‌توسط شعبه
49
كدواحدظ‌رفيت
81
جريمه‌بيمه‌مركزي
18
كارمندي
50
ظرفيت
82
حق‌بيمه‌صادره‌شعبه
19
كدصادره‌توسط شعبه
51
شرح‌مورداستفاده
83
حق‌بيمه‌صادره‌نمايندگي
20
سريال‌بيمه‌نامه
52
يدك‌دارد؟
84
كداضافه‌نرخ‌حق‌بيمه
21
شماره‌بيمه‌نامه
53
اتاق‌وسيله‌نقليه
85
اضافه‌نرخ‌ثالث
22
نام‌بيمه‌گذار
54
نوع‌پلاك
86
اضافه‌نرخ‌بند4
23
آدرس‌بيمه‌گذار
55
جنسيت
87
اضافه‌نرخ‌مازاد
24
تلفن‌بيمه‌گذار
56
كدنوع‌بيمه‌نامه
88
تعددديات
25
كدسازمان
57
نوع‌بيمه
89
اضافه‌نرخ‌تعددديات
26
نام‌سازمان
58
بيمه‌نامه‌سال‌قبل
90
اضافه‌نرخ‌ماده‌يك
27
كدنوع‌بيمه
59
انقضاسال‌قبل
91
ديركردجريمه
28
cbrn. cod
60
بيمه‌گرقبل
92
كدملي‌بيمه‌گذار
29
نوع‌بيمه
61
شعبه‌قبل
93
صادره‌توسط شعبه
30
تاريخ‌صدور
62
خسارت‌داشته‌؟
94
نوع‌مستند1
31
تاريخ‌شروع
63
تعهدمالي
95
شماره‌مستند1
32
تاريخ‌انقضا
64
تعهدبدني
96
تاريخ‌مستند1
ادامه جدول شماره 3-2: فيلدهاي اوليه داده هاي صدور
رديف
نام فيلد
رديف
نام فيلد
رديف
نام فيلد
97
مبلغ‌مستند1
111
تخفيف ايمني
125
كداقتصادي
98
شماره‌حساب1
112
سايرتخفيف ها
126
كدملي
99
بانك1
113
ملاحظات
127
تاريخ‌ثبت
100
نوع‌مستند2
114
نام‌كاربر
128
كدشعبه‌صادركننده‌اصلي
101
شماره‌مستند2
115
تاريخ‌سند
129
كدنمايندگي‌صادركننده‌اصلي
102
تاريخ‌مستند2
116
كدشهرباني
130
كدسازمان‌صادركننده‌اصلي
103
مبلغ‌مستند2
117
شعبه‌محل‌نصب
131
سال
104
شماره‌حساب2
118
كدمحل‌نصب
132
ماه
105
بانك2
119
دستي/مكانيزه
133
نوع
106
تخفيف‌نرخ‌اجباري
120
تيك‌باحسابداري
134
crecno
107
تخفيف‌نرخ‌اختياري
121
سال‌انتقال
135
type_ex
108
تخفيف عدم خسارت
122
ماه‌انتقال
136
updflg
109
تخفيف صفركيلومتر
123
sysid
137
hsab_sync
110
تخفيف گروهي
124
trsid
كداقتصادي
جدول شماره 3-3: فيلدهاي نهايي داده هاي صدور
رديف
نام فيلد
رديف
نام فيلد
رديف
نام فيلد
1
ماه
15
تعهدمازاد
29
تاريخ‌شروع
2
سال
16
تعهدبدني
30
تاريخ‌صدور
3
كدنمايندگي‌صادركننده‌اصلي
17
تعهدمالي
31
نام‌سازمان
4
تخفيف گروهي
18
بيمه‌نامه‌سال‌قبل
32
شماره‌بيمه‌نامه
5
تخفيف عدم خسارت
19
نوع‌بيمه
33
كارمندي
6
نوع‌مستند1
20
نوع‌پلاك
34
صادره‌توسط شعبه
7
ديركردجريمه
21
شرح‌مورداستفاده
35
دولتي
8
كداضافه‌نرخ‌حق‌بيمه
22
ظرفيت
36
نمايندگي‌محل‌صدور
9
حق‌بيمه‌دريافتي
23
تعدادسيلندر
37
خسارتي؟
10
عوارض‌ماده92
24
سال ساخت
38
مبلغ خسارت
11
ماليات
25
سيستم
39
تاريخ ايجادحادثه
12
حق‌بيمه‌سرنشين
26
نوع‌وسيله‌نقليه
40
بيمه گر زيانديده اول
13
حق‌بيمه‌مازاد
27
مدت بيمه
41
تعداد زيانديدگان مصدوم
14
حق‌بيمه‌ثالث‌قانوني
28
تاريخ‌انقضا
42
تعداد زيانديدگان متوفي
در کاهش ابعاد اين مساله براي حذف فيلدهاي مختلف نظرات کارشناسان بيمه نيز لحاظ شده است. جدول 3-4 فيلدهاي حذف شده و علت حذف آنها را بيان کرده است.
جدول شماره 3-4: فيلدهاي حذف شده داده هاي صدور و علت حذف آنها
نام فيلد حذف شده
علت حذف
Crecno-type_ex-updflg-hsab_sync-كدمحل‌نصب-دستي/مكانيزه-تيك‌باحسابداري-سال‌انتقال-ماه‌انتقال-sysid-trsid-کدزيررشته آمار-نمايش سند-مكانيزه-دستي-وب‌بنيان-Cbrn. cod
کاربرد آماري
نوع-کد شعبه صادرکننده-شعبه محل نصب-کدشهرباني-سايرتخفيف ها-تخفيف ايمني-تخفيف صفر کيلومتر-تخفيف نرخ اختياري-تخفيف نرخ اجباري-خسارت داشته؟-شعبه قبل-جنسيت-کد نوع بيمه نامه-يدک دارد-
اتاق وسيله نقليه-سن بيمه گذار-شغل بيمه گذار-زمان شروع-کد نوع بيمه
داراي مقدار يکسان يا null
کد سازمان صادر کننده-کد نوع تعهد سرنشين-کدواحدظرفيت-کد وسيله نقليه-کد سازمان-کد صادره توسط-نمايندگي-کد دولتي
بجاي اين کد از فيلد اسمي معادل آن استفاده شده است و يا برعکس زيرا در نتايج خروجي قابل فهم تر خواهد بود.
تاريخ ثبت-تاريخ سند-بيمه گر قبل-مبلغ -مستند 1و2-اضافه‌نرخ‌ثالث-4اضافه‌نرخ‌بند-
اضافه‌نرخ‌مازاد-ميزان تعهد سرنشين-تعددديات-اضافه‌نرخ‌تعددديات-اضافه‌نرخ‌ماده‌يك-تاريخ مستند1و2-شماره -حساب 1و2-بانک1و2
داراي مقدار تکراري
کدملي-بيمه نامه-کداقتصادي-نوع مستند2-
شماره مستند1و2-نام کاربر-ملاحظات-
کدملي بيمه گذار-شماره شاسي-شماره موتور-
شماره شهرباني-سريال کارت-سال کارت-
نام‌استان-نام‌شعبه-كدشعبه-شعبه‌محل‌صدور
شعبه-سال‌صدوربيمه‌نامه-رشته‌بيمه-رنگ-تلفن بيمه گذار-نام بيمه گذار-آدرس بيمه گذار-سريال بيمه نامه
بدون تاثير
حق‌بيمه‌تعددخسارت-جريمه‌بيمه‌مركزي-
حق‌بيمه‌صادره‌شعبه-حق‌بيمه‌صادره‌نمايندگي-
مازادجاني-حق‌بيمه‌مازادمالي-حق بيمه ماده1-
حق بيمه ماده4-ثالث قانوني + تعدد ديات- انقضا سال قبل
بخشي از فيلد انتخاب شده
جدول 3-5: فيلدهاي استخراج شده از داده هاي خسارت
مبلغ خسارت
تاريخ ايجادحادثه
بيمه گر زيانديده اول
تعداد زيانديدگان مصدوم
تعداد زيانديدگان متوفي
3-2-4- فيلدهاي مجموعه داده خسارت
از مجموعه داده خسارت فقط فيلدهاي مشخص کننده ميزان خسارت و جزئيات لازم استخراج شده است. متاسفانه اطلاعات مفيد تري مثل سن راننده مقصر، ميزان تحصيلات و. . . در اين مجموعه داده وجود نداشته است و چون هنگام ثبت خسارت براي يک بيمه نامه از اطلاعات کليدي داده هاي صدور استفاده مي شود، با توجه به اينکه از مرحله قبل مهمترين فيلدهاي داده هاي صدور را در دسترس داريم بنابراين با ادغام فيلدهاي خسارت و صدور به اطلاعات جامعي در خصوص يک بيمه نامه خاص دسترسي خواهيم داشت. مشخصه ها استخراج شده از داده هاي خسارت طبق جدول 3-5 است.
3-2-5-پاکسازي داده ها
داده ها در دنياي واقعي ممکن است داراي خطا23، مقادير از دست رفته24، مقادير پرت و دورافتاده25 باشند [Jiawei Han, 2010]. در مرحله پاکسازي با توجه به نوع داده ممکن است يک يا چند روش پاکسازي بر روي داده اعمال شود.
3-2-6- رسيدگي به داده هاي از دست رفته
در اين قسمت از کار اقدام به رفع Missing data نموده که خود مرحله مهمي از پاکسازي داده بحساب مي آيد. در مرحله ابتدايي با مرتب سازي تمام ويژگي هاي قابل مرتب سازي در نرم افزار Microsoft Excel اقدام به کشف مقادير از دست رفته کرده و از طريق ديگر ويژگي هاي هر رکورد مقدار از دست رفته را حدس زده ايم. همچنين درحين انتقال داده به محيط داده کاوي مقادير از دست رفته نيز مشخص مي گردند. در بعضي موارد بدليل تعداد زياد ويژگي هاي از دست رفته اقدام به حذف کامل رکورد نموديم. اين کار براي زماني که داده ها در حجم انبوهي وجود دارند مفيد واقع ميشوند اما زماني که تعداد رکوردها کم مي باشد اجتناب از اين عمل توصيه مي شود. براي ويژگي نوع بيمه که از نوع چند اسمي بوده است فقط دو مقدار”کارمندي” و “عادي” وجود داشته که تعداد 49 مورد فاقد مقدار بوده است. کل تعداد بيمه کارمندي 27 مورد بوده است. با توجه به کم بودن تعداد داده هاي ازدست رفته اين فيلد و پس از مقايسه نام بيمه گذاران با اسم کارمندان مشخص شد هيچ کدام از موارد فوق کارمندي نبوده و همه از نوع عادي بوده اند.
از جمله فيلدهاي داراي مقادير از دست رفته و روش رفع ايراد آنها عبارتند از:
سيستم*** 70 مورد***تشخيص با توجه به ديگر ويژگي ها
نوع وسيله نقليه***33مورد***تشخيص با توجه به ديگر ويژگي ها
شرح مورد استفاده***11مورد***تشخيص با توجه به ديگر ويژگي ها
تعدادسيلندر***2مورد***تشخيص با توجه به ديگر ويژگي ها
دولتي***28 مورد***تشخيص از روي پلاک
ماه***130 مورد***تشخيص از روي تاريخ صدور
نوع

دیدگاهتان را بنویسید

Close Menu