پایان نامه با کلید واژه های سلسله مراتب، بهره بردار

د ]صنيعي آباده 1391[.
روشهاي توصيف داده ها8
هدف اين روشها ارائه يک توصيف کلي از داده هاست که معمولا به شکل مختصر ارائه مي شود. هر چند توصيف داده ها يکي از انواع روشهاي داده کاوي است ولي معمولا هدف اصلي نيست واغلب از اين روش براي تجزيه و تحليل نياز هاي اوليه و شناخت طبيعت داده ها و پيدا کردن خصوصيات ذاتي داده ها يا براي ارائه نتايج داده کاوي استفاده مي شود [Sirikulvadhana 2002] .
روشهاي تجزيه و تحليل وابستگي 9
هدف اين روشها پيدا کردن ارتباطات قابل توجه بين تعداد زيادي از متغير ها يا صفات مي باشد[Gupta 2006] . يکي از روشهاي متداول براي کشف قواعد وابستگي مدل Apriori است که نسبت به ساير مدلهاي کشف قواعد وابستگي سريعتر بوده و محدوديتي از نظر تعداد قواعد ندارد [Xindong et al 2007] . کاوش قواعد تلازمي يکي از محتواهاي اصلي تحقيقات داده کاوي در حال حاضر است و خصوصا بر يافتن روابط ميان آيتم هاي مختلف در پايگاه داده تاکيد دارد [Patil et. al 2012] . سه مدل CARMA و GRI و Fpgrowth سه الگوريتم ديگر از قواعد وابستگي هستند.
روشهاي دسته بندي و پيشگويي10
دسته بندي يک فرآيند يافتن مدل است که براي بخش بندي داده به کلاس هاي مختلف برطبق بعضي محدوديت ها استفاده شده است. به بيان ديگر ما مي توانيم بگوييم که دسته بندي يک فرآيند تعميم داده بر طبق نمونه هاي مختلف است. چندين نمونه اصلي الگوريتم هاي طبقه بندي شامل C4. 5 ، K نزديکترين همسايه11، بيز ساده و SVM است [Kumar and Verna 2012].
يکي از اين نوع الگوريتم ها نظريه بيز مي باشد. اين دسته بند از يک چارچوب احتمالي براي حل مساله استفاده مي کند. يک رکورد مفروض با مجموعه ويژگي هاي (A1, A2…. An) را درنظر بگيريد. هدف تشخيص دسته اين رکورد است. در واقع از بين دسته هاي موجود به دنبال دسته اي هستيم که مقدارP(C|A1, A2…. An) را بيشينه کند. پس اين احتمال را براي تمامي دسته هاي موجود محاسبه کرده و دسته اي که اين احتمال به ازاي آن بيشينه شود را به عنوان دسته رکورد جديد در نظر مي گيريم.
P(C?A)=(P(A?C) P(C))/P(A)
رگرسيون نيز نوع ديگري از اين الگوريتم ها است. پيش بيني مقدار يک متغير پيوسته بر اساس مقادير ساير متغيرها بر مبناي يک مدل وابستگي خطي يا غير خطي رگرسيون نام دارد. درواقع يک بردار X داريم که به يک متغير خروجي y نگاشت شده است. هدف محاسبه y يا همان F(X) است که از روي تخمين تابع مقدار آن محاسبه مي شود.
درخت تصميم12
درخت تصميم از ابزارهاي داده کاوي است که در رده بندي داده هاي کيفي استفاده مي شود. در درخت تصميم، درخت کلي به وسيله خرد کردن داده ها به گره هايي ساخته مي شود که مقاديري از متغير ها را در خود جاي مي دهند. با ايجاد درخت تصميم بر اساس داده هاي پيشين که رده آنها معلوم است، مي توان داده هاي جديد را دسته بندي کرد. روش درخت تصميم به طور کلي براي دسته بندي استفاده مي شود، زيرا يک ساختار سلسله مراتبي ساده براي فهم کاربر و تصميم گيري است. الگوريتم هاي داده کاوي گوناگوني براي دسته بندي مبتني بر شبکه عصبي مصنوعي، قوانين نزديکترين همسايگي و دسته بندي بيزين در دسترس است اما درخت تصميم يکي از ساده ترين تکنيک هاست [Patil et. al 2012] . از انواع درخت هاي تصميم مي توان C4. 5 و C5 و Meta Decision Tree و Random Forest وJ48 را نام برد.
2-3-5-شبکه عصبي13
روش پرکاربرد ديگر در پيشگويي نتايج استفاده از شبکه هاي عصبي مي باشد. شبکه هاي عصبي مدل ساده شده اي است که بر مبناي عملکرد مغز انسان کار مي کند. اساس کار اين شبکه شبيه سازي تعداد زيادي واحد پردازشي کوچک است که با هم در ارتباط هستند. به هريک از اين واحد ها يک نرون گفته مي شود. نرون ها بصورت لايه لايه قرار دارند و در يک شبکه عصبي معمولا سه لايه وجود دارد [Gupta 2006] . اولين لايه )لايه ورودي ( ، دومين )لايه نهان (و سومين )لايه خروجي (. لايه نهان مي تواند متشکل از يک لايه يا بيشتر باشد [Pradhan et. al 2011 ] .
2-3-6- استدلال مبتني بر حافظه14
توانايي انسان در استدلال براساس تجربه، به توانايي او در شناخت و درک نمونه هاي مناسبي که مربوط به گذشته است، بستگي دارد. افراد در ابتدا تجارب مشابهي که در گذشته داشته را شناسايي و سپس دانشي که از آن ها کسب کرده است را براي حل مشکل فعلي به کار مي گيرند. اين فرآيند اساس استدلال مبتني بر حافظه است. يک بانک اطلاعاتي که از رکوردهاي شناخته شده تشکيل شده است مورد جستجو قرار مي گيرد تارکوردهاي از قبل طبقه بندي شده و مشابه با رکورد جديد يافت شود.
از اين همسايه ها براي طبقه بند ي و تخمين زدن استفاده مي شود. 15KNN يک نمونه از اين الگوريتم هاست. فرض کنيد که يک نمونه ساده شده با يک مجموعه از صفت هاي مختلف وجود دارد، اما گروهي که اين نمونه به آن متعلق است نامشخص است. مشخص کردن گروه مي تواند از صفت هايش تعيين شود. الگوريتم هاي مختلفي مي تواند براي خودکار سازي فرآيند دسته بندي استفاده بشود. يک دسته بند نزديک ترين همسايه يک تکنيک براي دسته بندي عناصر است مبتني بردسته بندي عناصر در مجموعه آموزشي که شبيه تر به نمونه آزمايشي هستند.
باتکنيک Kنزديکترين همسايه، اين کار با ارزيابي تعداد K همسايه نزديک انجام مي شود. [Tan et al 2006] . تمام نمونه هاي آموزشي در يک فضاي الگوي چند بعدي ذخيره شده اند. وقتي يک نمونه ناشناخته داده مي شود، يک دسته بند نزديکترين همسايه در فضاي الگو براي K نمونه آموزشي که نزديک به نمونه ناشناخته هستند جستجو مي کند. نزديکي بر اساس فاصله اقليدسي تعريف مي شود [Wilson and Martinez 1997] .
2-3-7-ماشين هاي بردار پشتيباني
SVM 16 اولين بار توسط Vapnik در سال 1990 معرفي شد و روش بسيار موثري براي رگرسيون و دسته بندي و تشخيص الگو است [Ristianini and Shawe 2000] .
SVM به عنوان يک دسته بند خوب در نظر گرفته مي شود زيرا کارايي تعميم آن بدون نياز به دانش پيشين بالاست حتي وقتيکه ابعاد فضاي ورودي بسيار بالاست. هدف SVM يافتن بهترين دسته بند براي تشخيص ميان اعضاي دو کلاس در مجموعه آموزشي است [Kumar and Verna 2012] .
رويکرد SVM به اين صورت است که در مرحله آموزش سعي دارد مرز تصميم گيري را به گونه اي انتخاب نمايد که حداقل فاصله آن با هر يک از دسته هاي مورد نظر را بيشينه کند. اين نوع انتخاب مرز بر اساس نقاطي بنام بردارهاي پشتيبان انجام مي شوند.
2-3-8-روشهاي خوشه بندي 17
هدف اين روشها جداسازي داده ها با خصوصيات مشابه است. تفاوت بين دسته بندي و خوشه بندي اين است که در خوشه بندي از قبل مشخص نيست که مرز بين خوشه ها کجاست و برچسبهاي هر خوشه از پيش تعريف شده است ولي در دسته بندي از قبل مشخص است که هر دسته شامل چه نوع داده هايي مي شود و به اصطلاح برچسب هاي هر دسته از قبل تعريف شده اند. به همين دليل به دسته بندي يادگيري همراه با نظارت و به خوشه بندي يادگيري بدون نظارت گفته مي شود [Osmar 1999] .
2-3-9- روش K-Means
يکي از روش هاي خوشه بندي مدل K-Means است که مجموعه داده ها را به تعدادثابت و مشخصي خوشه، خوشه بندي مي کند. روش کار آن به اين صورت است که تعداد ثابتي خوشه در نظر ميگيرد و رکوردها را به اين خوشه ها اختصاص داده و مکرراً مراکز خوشه ها را تنظيم مي کند تا زمانيکه بهترين خوشه بندي بدست آيد[Xindong et al 2007].
2-3-10-شبکه کوهنن
شبکه کوهنن نوعي شبکه عصبي است که در اين نوع شبکه نرون ها در دو لايه ورودي و خروجي قرار دارند و همه نرون هاي ورودي به همه نرون هاي خروجي متصل اندو اين اتصالات داراي وزن هستند. لايه خروجي در اين شبکه ها بصورت يک ماتريس دو بعدي چيده شده و به آن نقشه خروجي گفته مي شود. مزيت اين شبکه نسبت به ساير انواع شبکه هاي عصبي اين است که نياز نيست دسته يا خوشه داده ها از قبل مشخص باشد، حتي نياز نيست تعداد خوشه ها از قبل مشخص باشد. شبکه هاي کوهنن با تعداد زيادي نرون شروع مي شود و به تدريج که يادگيري پيش مي رود، تعداد آنها به سمت يک تعداد طبيعي و محدود کاهش مي يابد.
2-3-11-روش دو گام18
اين روش در دو گام کار خوشه بندي را انجام مي دهد. در گام اول همه داده ها يک مرور کلي مي شوند و داده هاي ورودي خام به مجموعه اي از زير خوشه هاي قابل مديريت تقسيم مي شوند. گام دوم با استفاده از يک روش خوشه بندي سلسله مراتبي بطور مداوم زير خوشه ها را براي رسيدن به خوشه هاي بزرگتر با هم ترکيب مي کند بدون اينکه نياز باشد که جزئيات همه داده ها را مجددا مرور کند.
2-3-12-روشهاي تجزيه و تحليل نويز19
بعضي از داده ها که به طور بارز و مشخصي از داده هاي ديگر متمايز هستند اصطلاحاً بعنوان داده خطا يا پرت شناخته مي شوند که بايد قبل از ورود به فاز مدلسازي و در فاز آماده سازي داده ها برطرف شوند. با وجود اين زمانيکه شناسايي داده هاي غير عادي يا غير قابل انتظار مانند موارد تشخيص تقلب هدف اصلي باشد، همين نوع داده ها مفيد هستند که در اين صورت به آنها نويز گفته مي شود [Osmar 1999].
دسته هاي نامتعادل]صنيعي آباده 1391[.
مجموعه داده هايي که در آنها ويزگي دسته داراي توزيع نامتعادل باشد بسيار شايع هستند. مخصوصاً اين مجموعه داده ها در کاربردها و مسائل واقعي بيشتر ديده مي شوند.
در چنين مسائلي با وجود اينکه تعداد رکوردهاي مربوط به دسته نادر بسيار کمتر از دسته هاي ديگر است، ولي ارزش تشخيص دادن آن به مراتب بالاتر از ارزش تشخيص دسته هاي شايع است. در داده کاوي براي برخورد با مشکل دسته هاي نامتعادل از دو راهکار استفاده مي شود:
راهکار مبتني بر معيار
راهکار مبتني بر نمونه برداري
راهکار مبتني بر معيار
در دسته بندي شايع ترين معيار ارزيابي کارايي دسته بند، معيار دقت دسته بندي است. در معيار دقت دسته بندي فرض بر يکسان بودن ارزش رکوردهاي دسته هاي مختلف دسته بندي است. در راهکار مبتني بر معيار بجاي استفاده از معيار دقت دسته بندي از معيارهايي بهره برداري مي شود که بتوان بالاتر بودن ارزش دسته هاي نادر و کمياب را در آنها به نحوي نشان داد. بنابراين با لحاظ نمودن معيارهاي گفته شده در فرآيند يادگيري خواهيم توانست جهت يادگيري را به سمت نمونه هاي نادر هدايت نماييم. از جمله معيارهايي که براي حل مشکل عدم تعادل دسته ها بکار مي روند عبارتند از Recall, Precession, F-Measure, AUC و چند معيار مشابه ديگر.
2-4-2-راهکار مبتني بر نمونه برداري
نمونه برداري يکي از راهکارهاي بسيار موثربراي مواجهه با مشکل دسته هاي نامتعادل است. ايده اصلي نمونه برداري آن است که توزيع نمونه ها را به گونه اي تغيير دهيم که دسته کمياب به نحو پررنگ تري در مجموعه داده هاي آموزشي پديدار شوند. سه روش براي اين راهکار وجود دارد که عبارتند از:
الف- نمونه برداري تضعيفي:
در اين روش نمونه برداري، توزيع نمونه هاي دسته هاي مساله به گونه اي تغيير مي يابند که دسته شايع به شکلي تضعيف شود تا از نظرفراواني با تعداد رکوردهاي دسته نادر برابري کند. به اين ترتيب هنگام اجراي الگوريتم يادگيري، الگوريتم ارزشي مساوي را براي دو نوع دسته نادر و شايع درنظر مي گيرد.
ب- نمونه برداري تقويتي:
اين روش درست برعکس نمونه برداري تضعيفي است. بدين معني که نمونه هاي نادر کپي برداري شده و توزيع آنها با توزيع نمونه هاي شايع برابر مي شود.
ج- نمونه برداري مرکب:
در اين روش از هردو عمليات تضعيفي و تقويتي بصورت همزمان استفاده ميشود تا

دیدگاهتان را بنویسید

Close Menu