پایان نامه با کلید واژه های احتمال خسارت، شخص ثالث

جدول 3-10: قوانين استخراج شده توسط الگوريتم Fpgrowth
قانون
نتيجه
Support
Confidence
تعهدات مازاد نداشته، کد اضافه نرخ حق بيمه =0
خسارتي
32%
41%
الگوريتم Weka Apriori
قوانين حاصل از اين الگوريتم طبق جدول 3-11 مي باشد.
جدول 3-11: قوانين استخراج شده توسط الگوريتم Weka Apriori
قانون
نتيجه
Support
Confidence
مورد استفاده=بارکش، سيستم = نيسان
خسارتي
6%
38%
تخفيف عدم خسارت کمتر از 1. 5ميليون ريال، نوع وسيله نقليه=سواري، سال ساخت بيشتر از 1386
خسارتي
47%
40%
3-11-معيارهاي ارزيابي الگوريتمهاي خوشه بندي
ارزيابهاي الگوريتمهاي خوشه بندي به دو دسته تقسيم مي شوند. يک دسته شاخص هاي بدون ناظر يا داخلي هستند که کيفيت عمليات خوشه بندي را با توجه به اطلاعات موجود در مجموعه داده تعيين مي نمايد. دسته ديگر که با ناظر يا خارجي ناميده مي شود، با توجه به اطلاعاتي خارج از مجموعه داده هاي مورد بررسي، عملکرد الگوريتم خوشه بندي را موردبررسي قرار مي دهد. در اين پژوهش از يک معيار بدون ناظر استفاده شده است. اين معيار Average Silhouette Coefficient که به اختصار ASC نام دارد.
همانطور که ميدانيم وظيفه يک الگوريتم خوشه بندي کمينه کردن فاصله درون خوشه اي يا تراکم (coh)34 و بيشينه کردن فاصله ميان خوشه اي يا جدايي(Sep)35 است. چون معيارهاي بدون ناظر زيادي وجود دارد، هر معيار دو عامل فوق را به شکلي خاص تعريف مي نمايد. معيار ASC اين دو عامل را به شرح زير تعريف مي کند:
Coh=1/m_i ?_?(x ?ci@y?ci )?dist(x, y)
Sep=?(min@j?nC)?(j?1)?{1/m_i ?_?(?x?C?_i@?y?C?_j )?dist(x, y) }
بنابر اين ASC يا Silhouette Measure به شکل زير تعريف ميگردد:
ASC=1/n_C ?_(i=1)^(n_C)?(Sep(i)-Coh(i))/(max?(Sep(i)-Coh(i)))
حداکثر مقدار براي اين معيار عدد 1 و حداقل آن 1- مي باشد.
در فرمول فوق dist(x, y) نشان دهنده ي فاصله نقاط(رکوردهاي) x, y از يکديگر است که براي محاسبه آن از فاصله اقليدسي که توضيح داده خواهد شد استفاده مي شود. همچنين nc, mi, ci به ترتيب بيان کننده مرکز خوشه i ام، تعداد اعضاي خوشه i ام و تعداد کل خوشه هاي تشکيل شده براي نقاط مورد بررسي مي باشد.
فاصله اقليدسي به شکل زير است:
d_e (x, y)=?(?_(k=1)^n??(x_k-y_k ?) )^2
در رابطه فوق، n بيانگر تعداد ويژگي ها(ابعاد مساله)، y_k و x_k به ترتيب مبين k امين ويژگي هاي دو رکورد x و y هستند.
3-12-الگوريتم هاي خوشه بندي
در اين بخش هدف استفاده از الگوريتم هاي خوشه بندي K-Means, Kohonen و دوگامي روي داده مي باشد و بررسي اين موضوع که آيا اين الگوريتم ها بر روي اين داده خروجي مطلوبي را خواهد داشت يه خير؟ پس از اجراي الگوريتم، خروجي با معيار ASC ارزيابي خواهد شد.
3-12-1- الگوريتم K-Means
بهترين کارايي بدست آمده براي اين الگوريتم با تنظيمات پارامترهاي زير بوده است:
جدول 3-12: تنظيمات پارامترهاي الگوريتم K-Means
Partitioning
% Test Partition
%train Partition
k
Iteration
YES
90
10
9
8
طبق شکل 3-23، پس از 8مرتبه اجراي الگوريتم به درصد خطاي صفر دست يافته ايم.
شکل 3-23 : رسيدن درصد خطا به صفر پس از 8مرتبه
اجرا براي 9 خوشه در الگوريتم K-Means
12 فيلد موثرتر طبق تشخيص اين الگوريتم براي خوشه بندي در شکل 3-24 تعيين شده است:
شکل 3-24 : Predictor Importance for K-Means
همچنين اندازه اين خوشه ها مطابق شکل 3-25 بوده است.
شکل 3-25 : اندازه خوشه ها و نسبت کوچکترين خوشه
به بزرگترين خوشه در الگوريتم K-Means
کيفيت خوشه بندي نيز مطابق شکل 3-26 نسبتاً خوب تعيين شده است.
شکل 3-26 : کيفيت خوشه ها در الگوريتمMeans K-
همانطور که مشخص است بهترين کيفيت مشخص شده طبق معيار Silhouette Measure برابر 0. 4 بوده است که قابل قبول نيز مي باشد.
3-12-2-الگوريتم Kohonen
بهترين کارايي بدست آمده براي اين الگوريتم با تنظيمات پارامترهاطبق جدول 3-13بوده است.
جدول 3-13: تنظيمات پارامترهاي الگوريتم Kohonen
Partitioning
% Test Partition
%train Partition
YES
60
40
بهترين تعداد خوشه ها طبق تشخيص الگوريتم 8 خوشه بوده است.
12 فيلد موثرتر طبق تشخيص اين الگوريتم براي خوشه بندي مطابق شکل 3-27 تعيين شده است.
شکل 3-27 : Predictor Importance for Kohonen
همچنين اندازه اين خوشه ها مطابق شکل 3-28 بوده است.
شکل 3-28 : اندازه خوشه ها و نسبت کوچکترين خوشه
به بزرگترين خوشه در الگوريتم Kohonen
کيفيت خوشه بندي نيز مطابق شکل 3-29 نسبتاً خوب تعيين شده است.
شکل 3-29 : کيفيت خوشه ها در الگوريتمMeans K-
همانطور که مشخص است بهترين کيفيت مشخص شده طبق معيار Silhouette Measure برابر 0. 3 بوده است که قابل قبول نيز مي باشد.
اين الگوريتم ازنوع شبکه هاي عصبي بوده و به همين دليل لايه ورودي را 76 نرون و لايه خروجي را شامل 12 نرون تشخيص داده است. (شکل 3-30)
شکل 3-30 : تعداد نرون هاي ورودي
و خروجي در Kohonen
3-12-3-الگوريتم دوگامي
بهترين کارايي بدست آمده براي اين الگوريتم با تنظيمات پارامترهاي جدول 3-14 بوده است.
جدول 3-14: تنظيمات پارامترهاي الگوريتم دوگامي
Partitioning
% Test Partition
%train Partition
YES
60
40
بهترين تعداد خوشه ها طبق تشخيص الگوريتم 3 خوشه بوده است.
12 فيلد موثرتر طبق تشخيص اين الگوريتم براي خوشه بندي در شکل 3-31 نشان داده شده است.
شکل 3-31 : Predictor Importance for دوگامي
همچنين اندازه اين خوشه ها در شکل 3-32 قابل مشاهده است.
شکل 3-32 : اندازه خوشه ها و نسبت کوچکترين خوشه
به بزرگترين خوشه در الگوريتم دوگامي
کيفيت خوشه بندي نيز مطابق شکل 3-33 ضعيف تعيين شده است.
شکل 3-33 : کيفيت خوشه ها در الگوريتم دوگامي
همانطور که مشخص است بهترين کيفيت مشخص شده طبق معيار Silhouette Measure برابر 0. 2 بوده است که کمتر از حالت نرمال مي باشد.
فصل چهارم
ارزيابي و نتيجه گيري
هدف اين پايان نامه ارائه مدلي براي شناسايي عوامل اثرگذار و ضريب تاثير آنها در سود و زيان بيمه شخص ثالث خودرو شرکتهاي بيمه بوسيله روشهاي داده کاوي بوده که نتايج در ادامه همين بحث تحليل مي شوند. در اين تحقيق توانستيم اثبات کنيم که با روشهاي داده کاوي مي توان مدلي هايي ارائه داد که عوامل موثر در احتمال به بار آوردن خسارت يک مشتري را با توجه به ميزان تاثير آن عوامل مشخص کند. اين موضوع از طريق الگوريتم هاي کاهش ويژگي و وزن دهي و شبکه عصبي مهيا شد. همچنين الگوريتم هاي خوشه بندي نيز نتايج مشابهي را ارائه داده اند. علاوه بر اين، الگوريتم هاي دسته بندي با تشخيص عوامل اثر گذار توانسته اند مدلي را ارائه دهند که با دقت بسيار بالايي احتمال خسارتي بودن يک بيمه نامه را تشخيص مي دهد.
الگوريتم هاي درخت تصميم نيز با دقت بالايي در تشخيص عوامل موثر در خسارتي بودن يک بيمه نامه و ارائه مدل و قوانين لازم موفق عمل کرده اند. الگوريتم هاي مبتني بر قانون اگرچه قوانين بسيار محدودي ارائه داده اند اما درصد تشخيص عوامل اثر گذار و دقت قوانين استخراج شده قابل اطمينان بوده است. جدول 4-4 اين فصل عوامل اثر گذار را بيان کرده است. همچنين در فصل 3 اين عوامل در الگوريتم هاي مختلف با ضريب تشخيصي متفاوت قيد شده است. عوامل اثر گذار استخراج شده عمدتاً به تنهايي موثر نبوده بلکه داراي اثرات وابسته به ديگر عوامل بوده است که اين موضوع در درختهاي تصميم و قواعد تلازمي(مبتني بر قانون) به وضوح مشخص است و بيان شده است.
مقايسه نتايج
در اين پژوهش از8 الگوريتم دسته بندي شامل KNN, Naïve bayes, Neural Network, SVM Linear, Meta Decision Tree, Wj48, Random Forest و رگرسيون لجستيک استفاده شده است که تعداد 3 الگوريتم آن درخت تصميم بوده است. همچنين دو الگوريتم مبتني بر قانون Apriori, Fp Growthو 3 الگوريتم خوشه بندي K-Means، دوگامي و Kohonen نيز مورد استفاده قرار گرفته اند. در اين قسمت نتايج الگوريتمهاي دسته بند غير درخت با هم مقايسه مي شوند و به ترتيب بهترين مدلها مشخص ميگردند. همچنين سه الگوريتم دسته بند درختي با هم ديگر مقايسه شده و بهترين نتايجي که خسارتي بودن يک رکورد را مشخص ميکند پس از مشاوره با يک متخصص و کارشناس در امور بيمه از هر درخت استخراج مي گردد و به ترتيب دقت نهايي آن الگوريتم اعلام ميگردد. در خصوص الگوريتم هاي مبتني بر قانون نيز دو الگوريتم با هم ديگر مقايسه شده و بهترين قوانيني که خسارتي بودن يک رکورد را مشخص ميکند پس از مشاوره با يک متخصص و کارشناس در امور بيمه از هر الگوريتم استخراج و اعلام ميگردد.
الگوريتمهاي دسته بندي
در جدول زير نام الگوريتمها به همراه درصد دقت آنها در تشخيص خسارتي بودن يک رکورد آمده است:
جدول 4-1: مقايسه الگوريتم هاي دسته بند
نام الگوريتم
دقت تشخيص%
بهترين مدل ارزيابي
رگرسيون لجستيک
98.54
Split Validation
SVM خطي
98.54
Split Validation
Naïve Bayes
96.09
Split Validation
Neural Network
91.25
Split Validation
KNN
91.23
Split Validation
همانطور که مشخص است الگوريتم هاي رگرسيون لجستيک و الگوريتم SVMبا 98.54 درصد توانايي تشخيص صحيح پيش بيني خسارتي بودن يک رکورد را دارند. پس از آن الگوريتم بيزساده با 96.09 درصد و پس از آن الگوريتم هاي شبکه عصبي و k نزديکترين همسايه با دقتي تقريبا مشابه توانايي تشخيص و پيش بيني خسارتي بودن يک پرونده بيمه اي را دارند.
الگوريتم هاي دسته بندي درخت تصميم
جدول 4-2: مقايسه الگوريتم هاي دسته بند درخت تصميم
نام الگوريتم
دقت تشخيص%
بهترين مدل ارزيابي
Wj48
99.52
10 Fold Validation
Random Forest
96.72
Split Validation
Meta Decision Tree
96.64
Split Validation
مقايسه نتايج نشان ميدهد که درخت تصميمWj48 با دقت بسيار بالايي قادر به تشخيص و پيش بيني وقوع خسارت يک بيمه نامه خواهد بود. پس از آن دو الگوريتم ديگر نيز با دقت بالا و مشابهي اين توانايي را خواهند داشت. بهترين نتايج شهودي اين درختها پس از بررسي کارشناسان بيمه به شرح زير بوده است:

دیدگاهتان را بنویسید

Close Menu