پایان نامه با کلید واژه های [(Q3، Q1)، ويژگي

بيمه***49مورد***تشخيص از روي نام بيمه گذار
تعداد رکوردهايي که مقاديرازدست رفته در چند ويژگي مهم را داشته اند و حذف شده اند حدود 350 مورد بوده است.
3-2-7-کشف داده دور افتاده26
بعضي از مقادير بسته به نوع داده علي رغم پرت تشخيص داده شدن مقادير صحيحي مي باشند. بنابراين حذف اينگونه داده ها براي کاستن پيچيدگي مساله ميتواند موجب حذف قوانين مهمي در الگوريتم هاي مبتني برقانون يا درختهاي تصميم شود. پس بررسي خروجي الگوريتم توسط يک فردخبره در موضوع مساله مي تواند مانع از اين اتفاق شود. نوع برخورد با داده پرت ميتواند شامل حذف داده پرت، تغيير مقدار، حذف رکورد و در مواردي حذف مشخصه27 باشد.
براي تشخيص داده پرت از نمودار boxplot نرم افزار minitab 15 استفاده گرديد. در اين نمودار از مفهوم درصدک استفاده ميشود که داده هاي بين 25% تا 75% که به ترتيب با Q1 و Q3 نشان داده مي شوند مهم ترين بخش داده ها هستند. X50% نيز ميانه را نشان مي دهد و با يک خط در وسط نمودار مشخص مي شود. Interquartile range (IQR) نيز مفهوم ديگري است که برابر است با IQR = Q3-Q1 .
مقادير بيشتر از Q3 + [(Q3 – Q1) X 1. 5] و کمتر از Q1 – [(Q3 – Q1) X 1. 5]داده پرت محسوب مي شوند. براي انجام اينکار نمودار boxplot را روي تک تک مشخصه هاي داده ها به اجرا در آورده و نتايج مطابق جدول 3-6 حاصل گرديد.
جدول 3-6: نتايج نمودار boxplot
نام فيلد
محاسبه مقادير پرت
توضيحات
تعداد زيانديدگان متوفي
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقدار 1و2 نشان داده شده صحيح مي باشد
تعداد زيانديدگان مصدوم
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
1و2و3 نشان داده شده صحيح مي باشد
بيمه گر زيانديده اول
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقدار 1و2و3و. . . نشان داده شده صحيح مي باشد و عدد 99 مقداري صحيح است که به معني ندارد استفاده ميگردد
مبلغ خسارت
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مبلغ خسارت 1.658.398.000 ريال و 900.000.000 ريال واقعا پرداخت گرديده است
تعداد سيلندر
Q1=4, Q3=4, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=4
Q1 – [(Q3 – Q1) X 1. 5]=4
مقدار 5 به عنوان تعداد سيلندر ناصحيح مي باشد
ظرفيت
Q1=5, Q3=5, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=5
Q1 – [(Q3 – Q1) X 1. 5]=5
مقادير بين 1 تا 96 ظرفيتهاي منطقي بر اساس تناژ يا سرنشين بوده و صحيح است اما مقدار 750 نا صحيح است
نوع پلاک
Q1=3, Q3=3, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=3
Q1 – [(Q3 – Q1) X 1. 5]=3
مقادير با مفهوم بوده و دور افتاده نيست
بيمه نامه سال قبل
Q1=1, Q3=1, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=1
Q1 – [(Q3 – Q1) X 1. 5]=1
مقادير عددي 0 يا 1 به معني داشتن يا نداشتن بوده و صحيح است
تعهدات مالي
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقادير با مفهوم بوده و دور افتاده نيست
حق بيمه ثالث قانوني
Q1=1992600, 3=3332500, IQR=1339900
Q3 + [(Q3 – Q1) X 1. 5]=5342350
Q1 – [(Q3 – Q1) X 1. 5]=17250
مقادير با مفهوم بوده و دور افتاده نيست
حق بيمه مازاد
Q1=0, Q3=9100, IQR=9100
Q3 + [(Q3 – Q1) X 1. 5]=22750
Q1 – [(Q3 – Q1) X 1. 5]=13650
مقادير با مفهوم بوده و دور افتاده نيست
ديرکرد جريمه
Q1=0, Q3=0, IQR=0
Q3 + [(Q3 – Q1) X 1. 5]=0
Q1 – [(Q3 – Q1) X 1. 5]=0
مقادير با مفهوم بوده و دور افتاده نيست
تخفيف عدم خسارت
Q1=610080, Q3=1495200, IQR=885120
Q3 + [(Q3 – Q1) X 1. 5]=2822880
Q1 – [(Q3 – Q1) X 1. 5]=717600
مقادير با مفهوم بوده و دور افتاده نيست
3-2-8-انبوهش داده
با ادغام کردن داده هاي صدور و خسارت به خلق ويژگيهاي28 جديدي دست زده ايم. چون داده ها در دو فايل جدا گانه بوده و حجم داده زياد بوده است براي ادغام از پرس و جوي نرم افزار Microsoft Access استفاده شد. براي تشخيص بيمه نامه هاي خسارت ديده از فيلد شماره بيمه نامه که در هردوفايل مشترک بود استفاده کرديم.
3-2-9- ايجاد ويژگي دسته
در اين مرحله پس از ادغام ويژگي هاي مختلف اقدام به ايجاد يک فيلد براي تمام رکوردهايي که منجر به خسارت شده اند مي نماييم. اين فيلد در الگوريتمهاي دسته بندي مورد استفاده قرار خواهد گرفت. براي انجام اين کار از يک پر و جوي Microsoft Access استفاده ميکنيم.
3-2-10-تبديل داده
جهت استفاده کاربردي تر از برخي ويژگي ها بايد مقادير آن ويژگي تغيير کند. يک نمونه از اين کار تغيير مقدار ويژگي ” ديرکرد جريمه ” است. مقدار اين فيلد مبلغ جريمه ديرکرد بيمه گذار بوده است که با تقسيم اين مبلغ به عدد 13000 تعداد روزهاي تاخير در تمديد بيمه نامه افراد مشخص مي شود، زيرا به ازاي هر روز تاخير مبلغي حدود 13000ريال در سال 1390 به عنوان جريمه ديرکرد از فرد متقاضي بيمه نامه دريافت مي گرديد.
3-2-11-انتقال داده به محيط داده کاوي
پس از انجام پاکسازي، داده بايد به محيط داده کاوي منتقل شود. در خلال اين انتقال نياز به تعريف و يا تغيير نوع داده وجود دارد. در طول اين تغيير داده ممکن است مقاديري از داده ها بدليل ناسازگاري و يا دلايل مشابه به عنوان داده از دست رفته مشخص گردد و يا داده از دست رفته اي که قبلاً قابل تشخيص نبوده مشخص گردد. (شکل 3-1)
شکل شماره3-1: داده از دست رفته فيلد” نوع بيمه ” پس از انتقال به محيط داده کاوي
3-2-12-انواع داده تعيين شده
پس از انتقال داده به محيط داده کاوي، هر ويژگي به نوع خاصي از داده توسط نرم افزار تشخيص داده شد. پس از آن نوع داده تشخيصي مورد بررسي قرار گرفت و اشتباهات پيش آمده تصحيح گرديدند. همچنين گروهي از ويژگي ها که به هيچ نوع داده اي اختصاص داده نشده بود بصورت دستي به بهترين نوع ممکن اختصاص داده شد. چون برخورد الگوريتم ها با انواع داده ها متفاوت است با توجه به موضوع پژوهش بهترين نوع داده که بتواند نسبت به الگوريتم موثرترواقع شود براي هر ويژگي درنظر گرفته شد.
جدول نوع داده هاي مورد استفاده در اين پژوهش به شرح جدول 3-7 است:
جدول 3-7: انواع داده استفاده شده
نام فيلد
نوع فيلد
ماه-سال-كدنمايندگي‌صادركننده‌اصلي- تعداد زيانديدگان مصدوم- نوع‌پلاك- ظ‌رفيت- تعدادسيلندر- سال ساخت- مدت بيمه- نمايندگي‌محل‌صدور- تعداد زيانديدگان متوفي-حق‌بيمه‌ثالث‌قانوني-تعهدمازاد-تعهدبدني-تعهدمالي
Integer
– نوع‌بيمه- شرح‌مورداستفاده- بيمه گر زيانديده اول نوع‌مستند1- سيستم نوع‌وسيله‌نقليه- نام‌سازمان-دولتي
polynominal
ديركردجريمه-كداضافه‌نرخ‌حق‌بيمه-حق‌بيمه‌دريافتي-عوارض‌ماده92-ماليات-حق‌بيمه‌سرنشين-حق‌بيمه‌مازاد- تخفيف گروهي-تخفيف عدم خسارت- مبلغ خسارت
real
بيمه‌نامه‌سال‌قبل- كارمندي- صادره‌توسط شعبه- خسارتي؟
binominal
تاريخ‌انقضا-تاريخ‌شروع-تاريخ‌صدور- تاريخ ايجادحادثه
date
شماره‌بيمه‌نامه
text
3-2-13-عمليات انتخاب ويژگيهاي موثرتر
در برخورد با برخي از الگوريتمها که با بيشتر شدن تعداد ويژگي پيچيدگي بيشتري نيز پيدا ميکنند، مانند درختهاي تصميم، svm، Regression و شبکه هاي عصبي بايد از ويژگي هاي کمتري استفاده کنيم. درکل انتخاب ويژگي براي استفاده در الگوريتم هاي دسته بندي تکنيک کارآمدي است. دراينجا ازتکنيکهاي کاهش ويژگي و يا وزن دهي استفاده کرده و فيلدهاي منتخبي که وزن بيشتري را دارند به عنوان ورودي الگوريتمها انتخاب گرديدند.
با توجه به اينکه احتمال ارزش دهي به يک ويژگي در تکنيکهاي مختلف متغير است و ممکن است ويژگي خاصي توسط يک تکنيک باارزش قلمداد شده و توسط تکنيکي ديگر بدون ارزش تلقي شود، نتيجه تمام تکنيکها Union, شده و فيلدهاي حاصل به عنوان ورودي الگوريتم مشخص گرديد.
3-3-نتايج اعمال الگوريتم PCA و الگوريتم هاي وزن دهي
نتايج حاصل از اين تکنيک ها در شکل هاي 3-2 الي3-5 نمايش داده شده است.
شکل 3-2: نتايج الگوريتمPCA
در ارزشدهي به ويژگي ها
شکل 3-3: نتايج الگوريتم SVM Weighting
در ارزشدهي به ويژگي ها
شکل 3-4: نتايج الگوريتم
Weighting Deviation در ارزشدهي به ويژگي ها
شکل 3-5: نتايج الگوريتم Weighting Correlation
در ارزشدهي به ويژگي ها
3-4-ويژگي هاي منتخب جهت استفاده در الگوريتمهاي حساس به تعداد ويژگي
لازم به توضيح است در تمام الگوريتمهايي که از 24 ويژگي جدول 3-8 استفاده شده است از تمام ويژگي ها نيز استفاده شده و نتايج با هم مقايسه گرديده اند و مشخص شد که وجود برخي ويژگي ها که در آن جدول قرار ندارند باعث کاهش دقت الگوريتم شده و در برخي الگوريتم ها نيز تفاوتي ميان دو مقايسه مشخص نشد.
جدول 3-8: نتايج حاصل از اجتماع فيلدهاي با بالاترين وزن در الگوريتمهاي مختلف
نام فيلد
نوع فيلد
تعهدمازاد- تعهدبدني- تعهدمالي- نوع‌پلاك- ظ‌رفيت- تعدادسيلندر- سال ساخت- مدت بيمه- تعداد زيانديدگان مصدوم- تعداد زيانديدگان متوفي
Integer
شرح‌مورداستفاده- سيستم- نوع‌وسيله‌نقليه- بيمه گر زيانديده اول
polynominal
ديركردجريمه- كداضافه‌نرخ‌حق‌بيمه- حق‌بيمه‌دريافتي- ماليات- حق‌بيمه‌سرنشين- حق‌بيمه‌ثالث‌قانوني- مبلغ خسارت
real
بيمه‌نامه‌سال‌قبل- كارمندي- صادره‌توسط شعبه
binominal
3-5-معيارهاي ارزيابي الگوريتمهاي دسته بندي
در اين بخش توضيحاتي درخصوص چگونگي ارزيابي الگوريتم هاي دسته بندي و معيار هاي آن ارائه خواهد شد.
3-6-ماتريس درهم ريختگي29
ماتريس در هم ريختگي چگونگي عملکرد دسته بندي را با توجه به مجموعه داده ورودي به تفکيک نشان ميدهد که:
TN: تعدادرکوردهايي است که دسته واقعي آنها منفي بوده و الگوريتم نيز دسته آنها را به درستي منفي تشخيص داده است.
FP: تعدادرکوردهايي است که دسته واقعي آنها منفي بوده و الگوريتم دسته آنها را به اشتباه مثبت تشخيص داده است.
FN: تعدادرکوردهايي است که دسته واقعي آنها مثبت بوده و الگوريتم دسته آنها را به اشتباه منفي تشخيص داده است.
TP: تعدادرکوردهايي است که دسته واقعي آنها مثبت بوده و الگوريتم نيز دسته آنها را به درستي مثبت تشخيص داده است.
جدول 3-9: ماتريس در هم ريختگي
رکوردهاي تخميني(Predicted Records)
دسته+
دسته-
FP
TN
دسته-
TP
FN
دسته+
مهمترين معيار براي تعيين کارايي يک الگوريتم دسته بندي معياردقت دسته بندي30 است. اين معيارنشان مي دهد که چند درصد ازکل مجموعه رکوردهاي آموزشي بدرستي دسته بندي شده است.
دقت دسته بندي بر اساس رابطه زير محاسبه مي شود:
CA=(TN+TP)/(TN+FN+TP+FP)
3-7-معيار 31AUC
اين معيار براي تعيين ميزان کارايي يک دسته بند بسيار موثر است. اين معيار نشان دهنده سطح زير نمودار ROC32 است. هرچقدرعدد AUC مربوط به يک دسته بند بزرگتر باشد، کارايي نهايي دسته بند مطلوب تر است. در ROC نرخ تشخيص صحيح دسته مثبت روي محور Y و نرخ تشخيص غلط دسته منفي روي محورX رسم ميشود. اگر هر محور بازه اي بين 0و1 باشد بهترين نقطه در اين معيار (0, 1) بوده و نقطه (0, 0) نقطه اي است که دسته بند مثبت و هشدار غلط هيچگاه توليد نمي شود.
3-8-روشهاي ارزيابي الگوريتم هاي دسته بندي
در روشهاي يادگيري با ناظر، دو مجموعه داده مهم به اسم داده هاي آموزشي و داده هاي آزمايشي وجود

دیدگاهتان را بنویسید

Close Menu