پایان نامه با کلید واژه های شخص ثالث، کتابخانه ها، ساختار زبان

توزيع مناسب بدست آيد.
در اين پژوهش با توجه به کمتر بودن نسبت نمونه نادر يعني منجر به خسارت شده به نمونه شايع از روش نمونه برداري تضعيفي استفاده گرديد که کل تعداد نمونه ها به حدود 3 هزار رکورد تقليل پيدا کرد و توزيع نمونه ها به نسبت مساوي بوده است. شايان ذکر است اين نمونه برداري پس از انجام مرحله پاک سازي داده ها انجام شد که خود مرحله پاکسازي با عث تقليل تعداد نمونه هاي اصلي نيز گرديده بود.
پيشينه تحقيق
سالهاست که محققان در زمينه بيمه و مسائل مرتبط با آن به تحقيق پرداخته اند و از جمله مسائلي که براي محققان بيشتر جذاب بوده است مي توان به کشف تقلب اشاره کرد.
Brockett و همکاران [Brockett et. al 1998] ابتدا به کمک الگوريتم تحليل مولفه هاي اصلي (PCA) به انتخاب ويژگي ها پرداختند و سپس با ترکيب الگوريتم هاي خوشه بندي و شبکه هاي عصبي به کشف تقلبات بيمه اتومبيل اقدام کردند. مزيت اين کار ترکيب الگوريتمها و انتخاب ويژگي بوده که منجر به افزايش دقت خروجي بدست آمده گرديد.
Phua و همکاران [ Phua et. al 2004] با ترکيب الگوريتم هاي شبکه هاي عصبي پس انتشاري ، بيزساده و درخت تصميم c4.5 به کشف تقلب در بيمه هاي اتومبيل پرداختند.نقطه قوت اين کار ترکيب الگوريتم ها بوده اما بدليل عدم کاهش ويژگي ها و کاهش ابعاد مساله ميزان دقت بدست آمده در حد اعلي نبوده است.
Allahyari Soeini و همکاران [Allahyari Soeini et. al 2012] نيز يک متدلوژي با استفاده از روشهاي داده کاوي خوشه بندي ودرخت تصميم براي مديريت مشتريان ارائه دادند. از ايرادات اين روش ميتوان عدم استفاده از الگوريتم هاي دسته بندي و قوانين انجمني را نام برد.
مورکي علي آباد ] موركي علي‌آباد1390[ تحقيقي داشته است که اخيراً در زمينه بيمه صورت گرفته و درمورد طبقه‌بندي مشتريان صنعت بيمه با هدف شناسايي مشتريان بالقوه با استفاده از تكنيك‌هاي داده‌كاوي (مورد مطالعه: بيمه‌گذاران بيمه آتش‌سوزي شركت بيمه كارآفرين (که هدف آن دسته بندي مشتريان صنعت بيمه بر اساس ميزان وفاداري به شرکت، نوع بيمه نامه هاي خريداري شده، موقعيت جغرافيايي مکان هاي بيمه شده و ميزان جذب به شرکت بيمه در بازه زماني 4 سال گذشته بوده است. روش آماري مورد استفاده از تکنيک هاي داده کاوي نظير درخت تصميم و دسته بندي بود. اين تحقيق نيز چون نمونه آن قبلا انجام شده بوده از الگوريتم هاي متفاوت استفاده نکرده است. همچنين سعي بر بهبود تحقيق قبلي نيز نداشته است. وجه تمايز اين تحقيق با نمونه قبلي استفاده از ويژگي هاي متفاوت بوده است.
عنبري ]عنبري 1389[ نيز پژوهشي در خصوص طبقه بندي ريسك بيمه گذاران در رشته بيمه بدنه اتومبيل با استفاده از داده كاوي داشته است که هدف استفاده از داده هاي مربوط به بيمه نامه بدنه از کل شرکتهاي بيمه (بانک اطلاعاتي بيمه خودرو) بوده و سعي بر آن شده است تا بررسي شود که آيا ميتوان بيمه گذاران بيمه بدنه اتومبيل را از نظر ريسک طبقه بندي کرد؟ و آيا درخت تصميم براي طبقه بندي بيمه گذاران بهترين ابزار طبقه بندي مي باشد؟ و آيا سن و جنسيت از موثرترين عوامل در ريسک بيمه گذار محسوب مي شود؟ نتايج اين طبقه بندي به صورت درخت تصميم و قوانين نشان داده شده است. ونتايج حاصل از صحت مدل درخت تصميم با نتايج الگوريتم هاي شبکه عصبي و رگرسيون لجستيک مورد مقايسه قرار گرفته است. از مزيت هاي اين تحقيق استفاده از الگوريتم هاي متفاوت و مقايسه نتايج حاصله براي بدست آوردين بهترين الگوريتم ها بوده است.
رستخيز پايدار]رستخيز پايدار 1389[ تحقيقي ديگر در زمينه بخش بندي مشتريان بر اساس ريسک با استفاده از تکنيک داده کاوي (مورد مطالعه: بيمه بدنه اتومبيل بيمه ملت) داشته است. با استفاده از مفاهيم شبکه خود سازمانده بخش بندي بر روي مشتريان بيمه بدنه اتومبيل بر اساس ريسک صورت گرفت. در اين تحقيق عوامل تأثيرگذار بر ريسک بيمه گذاران طي دو مرحله شناسايي گرديد. در مرحله اول هيجده فاکتور ريسک در چهار گروه شامل مشخصات جمعيت شناختي، مشخصات اتومبيل، مشخصات بيمه نامه و سابقه راننده از بين مقالات علمي منتشر گرديده در ژورنال هاي معتبر در بازه سال هاي 2000 الي 2009 استخراج گرديد و در مرحله دوم با استفاده از نظرسنجي از خبرگان فاکتورهاي نهايي تعيين گرديد. مشتريان بيمه بدنه اتومبيل در اين تحقيق با استفاده از شبکه هاي عصبي خودسازمانده به چهار گروه مشتريان با ريسک هاي متفاوت بخش بندي گرديدند. مزيت اين تحقيق استفاده از نظر خبرگان بيمه بوده و ايراد آن عدم استفاده از ويژگي هاي بيشتر و الگوريتم هاي انتخاب ويژگي بوده است.
ايزدپرست ]ايزدپرست1389[ همچنين تحقيقي در مورد ارائه چارچوبي براي پيش بيني خسارت مشتريان بيمه بدنه اتومبيل با استفاده از راهکار داده کاوي انجام داده است که چارچوبي براي شناسايي مشتريان بيمه بدنه اتومبيل ارائه مي‌گردد كه طي آن ميزان خطرپذيري مشتريان پيش‌بيني شده و مشتريان بر اساس آن رده‌بندي مي‌گردند. در نتيجه با استفاده از اين معيار (سطح خطرپذيري) و نوع بيمه‌نامه مشتريان، ميتوان ميزان خسارت آنان را پيش‌بيني کرده و تعرفه بيمه‌نامه متناسب با ريسک آنان تعريف نمود. که اين مطلب مي‌تواند کمک شاياني براي شناسايي مشتريان و سياستگذاري‌هاي تعرفه بيمه نامه باشد. در اين تحقيق از دو روش خوشه‌بندي و درخت‌تصميم استفاده مي‌گردد. در روش خوشه‌بندي مشتريان بر اساس ويژگي هايشان در خوشه هايي تفکيک شده، سپس ميانگين سطح خسارت در هر يک از اين خوشه‌ها را محاسبه ميکند. حال مشتريان آتي با توجه به اينکه به کداميک از اين خوشه‌ها شبيه تر هستند در يکي از آنها قرار مي‌گيرند تا سطح خسارتشان مشخص گردد. در روش درخت‌تصميم با استفاده از داده‌هاي مشتريان، درختي را بر اساس مجموعه‌اي از قوانين که بصورت “اگر-آنگاه” مي‌باشد ايجاد کرده و سپس مشتريان جديد با استفاده از اين درخت رده‌بندي مي‌گردند. در نهايت هر دو اين مدلها مورد ارزيابي قرار مي‌گيرد. ايراد اين روش در عدم استفاده از دسته بند ها بوده است. چون ماهيت تحقيق پيش بيني بوده است استفاده از دسته بند ها کمک شاياني به محقق در تولبد خروجي هاي حذاب تر مي کرد.
خلاصه فصل
عمده پژوهشهايي که درخصوص داده هاي بيمه اي صورت گرفته کمتر به سمت پيش بيني سود و زيان شرکتهاي بيمه بوده است. در موارد مشابه نيزپيش بيني خسارت مشتريان انجام شده که هدف دسته بندي مشتريان بوده است. موضوع اين پژوهش اگرچه از نوع همسان با تحقيقات گفته شده است اما در جزئيات بيمه شخص ثالث را پوشش مي دهد که درکشور ما يک بيمه اجباري تلقي مي شود. همچنين تعداد خصيصه هايي که در صدور يا خسارت اين بيمه نامه دخالت دارند نسبت به ساير بيمه هاي ديگر بيشتر بوده ضمن اينکه بررسي سود يا زيان بيمه شخص ثالث با استفاده از دانش نوين داده کاوي کارتقريبا جديدي محسوب مي شود.
فصل سوم
شرح پژوهش
در اين فصل هدف بيان مراحل انجام اين پژوهش و تحليل خروجي هاي بدست آمده مي باشد.
انتخاب نرم افزار
در اولين دهه آغاز به کار داده کاوي و در ابتداي امر، هنوز ابزار خاصي براي عمليات کاوش وجود نداشت و تقريبا نياز بود تا تمامي تحليل گران، الگوريتمهاي موردنظر داده کاوي و يادگيري ماشين را با زبان هاي برنامه نويسي مانند c يا java يا ترکيبي از چند زبان پياده سازي کنند. اما امروزه محيط هاي امکان پذير براي اين امر، با امکانات مناسب و قابليت محاوره گرافيکي زيادي را مي توان يافت]صنيعي آباده 1391[.
Rapidminer
اين نرم افزار يک ابزار داده کاوي متن باز است که به زبان جاوا نوشته شده و از سال 2001 ميلادي تا به حال توسعه داده شده است. در اين نرم افزار سعي تيم توسعه دهنده بر اين بوده است که تا حد امکان تمامي الگوريتم هاي رايج داده کاوي و همچنين يادگيري ماشين پوشش داده شوند. بطوري که حتي اين امکان براي نرم افزار فراهم شده است تا بتوان ساير ابزارهاي متن باز داده کاوي را نيز به آن الحاق نمود. رابط گرافيکي شکيل و کاربر پسند نرم افزار نيز آن را يک سرو گردن بالاتر از ساير ابزارهاي رقيب قرار ميدهد]صنيعي آباده 1391[.
مقايسه RapidMiner با ساير نرم افزار هاي مشابه
در اينجا دو نرم افزار مشهور متن باز را با RapidMiner مقايسه خواهيم کرد و معايب و مزاياي آنها را بررسي مي کنيم.
الف-R
يک زبان برنامه نويسي و يک پکيج داده کاوي به همراه توابع آماري است و بر پايه زبان هاي s و scheme پياده سازي شده است. اين نرم افزار متن باز، حاوي تکنيک هاي آماري مانند: مدل سازي خطي و غيرخطي، آزمون هاي کلاسيک آماري، تحليل سري هاي زماني، دسته بندي، خوشه بندي، و همچنين برخي قابليت هاي گرافيکي است. R را مي توان در محاسبات ماتريسي نيز بکار برد که اين امر منجر به استفاده از آن در علم داده کاوي نيز مي شود.
-مزايا:
شامل توابع آماري بسيار گسترده است.
بصورت بسيارمختصر قادر به حل مسائل آماري است.
دربرابر ساير نرم افزار هاي مرسوم کار با آرايه مانند Mathematica, PL, MATLAB, LISP/Scheme قدرت مند تر است.
با استفاده از ويژگي Pipeline قابليت ترکيب بالايي را با ساير ابزارها و نرم افزارها دارد.
توابع نمودار مناسبي دارد.
-معايب:
فقدان واسط کاربري گرافيک
فقدان سفارشي سازي لزم جهت داده کاوي
ساختار زباني کاملا متفاوت نسبت به زبان هاي برنامه نويسي مرسوم مانندc, PHP, java, vb, c#.
نياز به آشنايي با زبانهاي آرايه اي
قديمي بودن اين زبان نسبت به رقبا. اين زبان در 1990 ساخته شده است.
ب- Scipy
يک مجموعه از کتابخانه هاي عددي متن باز براي برنامه نويسي به زبان پايتون20 است که برخي از الگوريتم هاي داده کاوي را نيز پوشش مي دهد.
-مزايا
براي کاربردهاي رياضي مناسب است.
عمليات داده کاوي در اين نرم افزار چون به زبان پايتون است راحت انجام مي شود.
-معايب
الگوريتم هاي يادگيري مدل در اين کتابخانه هنوز به بلوغ کامل نرسيده اند و درحال تکامل هستند.
براي پياده سازي الگوريتم هاي داده کاوي توسط اين ابزار بايد از ترکيب هاي متفاوت آنچه در اختيار هست استفاده کرد.
ج-WEKA21
ابزار رايج و متن باز داده کاوي است که کتابخانه هاي آماري و داده کاوي بسياري را شامل ميشود. اين نرم افزار بوسيله جاوا نوشته شده است و در دانشگاه وايکاتو در کشور نيوزلند توسعه داده شده است.
-مزايا
داراي بسته هاي فراوان يادگيري ماشين.
داراي نماي گرافيکي مناسب.
مشخصا به عنوان يک ابزار داده کاوي معرفي شده است.
کار کردن با آن ساده است.
اجراي همزمان چندين الگوريتم و مقايسه نتايج.
همانطور که مشخص شد weka در مقابل ديگر نرم افزار هاي بيان شده به لحاظ قدرت و کاربر پسندي به Rapidminer نزديک تر است و شباهت هاي زيادي به هم دارند زيرا که:
هردو به زبان جاوا نوشته شده اند.
هردو تحت مجوزGPL منتشر شده اند.
Rapidminer بسياري از الگوريتمهاي weka را در خود بارگذاري ميکند.
اما weka معايبي نسبت به Rapidminer دارد از جمله اينکه:
در اتصال به فايلهاي حاوي داده Excel و پايگاه هاي داده که مبتني بر جاوا نيستند ضعيف عمل ميکند.
خواندن فايلهاي csv به شکل مناسبي سازماندهي نشده است.
به لحاظ ظاهري در رده پايينتري قرار دارد.
در نهايت بعد از بررسي هاي انجام شده حتي در ميان نرم افزار هاي غيرمتن باز تنها

دیدگاهتان را بنویسید

Close Menu