مروری بر روش های داده كاوی در پایگاه داده های بزرگ

امروزه به دلیل وجود ابزار های مختلف برای جمع آوری داده ها و پیشرفت قابل قبول تكنولوژی پایگاه داده ، حجم انبوهی از اطلاعات در انبار داده های مختلف ذخیره شده است . این رشد انفجاری داده ها ، احتیاج به یك سری تكنیك ها و ابزار های جدید كه توانایی پردازش هوشمندانه اطلاعات را دارا باشند ، نمایان می سازد .

داده كاوی با پیدا كردن مجموعه ای از الگوهای جالب از دل داده های موجود در انباره ها ، می تواند چنین نیازی را مرتفع كند .

در حال حاضر داده كاوی در پایگاه داده های بزرگ ، توسط بسیاری از محققان به عنوان یك موضوع تحقیقاتی مهم به شمار می آید .

محققان در بسیاری از رشته ها نظیر پایگاه داده ها ، یادگیری ماشین و آمار ، این موضوع را پیگیری كرده و تكنیك های مختلفی را برای داده كاوی ، تكنیك ها و روش های مختلف ارائه شده در این زمینه را معرفی كرده و آنها را طبقه بندی كند .

داده كاوی یكی از مهم ترن مراحل فرایند استخراج دانش در پایگاه داده به حساب می آید . مراحل مختلف استخراج دانش در پایگاه داده ها به شرح ذیل است :

۱. درك دامنه مسئله : شامل دانش های موجود و اهداف مسئله .

۲. استخراج یك مجموعه داده : شامل انتخاب یك مجموعه داده ای و تمركز ر روی قسمتی از داده ها .

۳. آماده سازی و پاكسازی داده ها : شامل عملیات پایه ای نظیر حذف و تغییر داده های دارای اشكال .

۴. یكپارچه سازی داده ها : شامل یكپارچه كردن منابع داده ای ناهمگون .

۵. كاهش و تغییر شكل داده ها : شامل روش هایی برای تغییر شكل و كاهش ابعاد داده ها .

۶. انتخاب نوع كاوش داده ها : شامل تعمیم و تقلیل ، طبقه بندی ، رگرسیون ، گروه بندی ، وب كاوی ، بازیابی تصویر ، كشف قوانین پیوندی و وابستگی های تابعی ، استخراج قوانین و یا تركیبی از اینها .

۷. انتخاب الگوریتم كاوش داده ها : شامل انتخاب متدهایی برای جست و جوی الگوها .

۸. كاوش داده ها : شامل جست و جوی الگوهای جالب .

۹. تفسیر : شامل تفسیر ، بازنمایی و آنالیز الگوی كشف شده .

۱۰. استفاده از دانش كشف شده : شامل پیاده سازی دانش كشف شده در سیستم های اجرایی و اتخاذ تصمیماتی برپایه دانش مراحل مختلف كشف دانش .

● تكنیك های مختلف داده كاوی .

تكنیك های مختلف داده كاوی را می توان بر اساس نوع عملیاتی كه انجام می دهند به دو دسته « پیش بینی كننده » و « تشریح كننده » تقسیم كرد . تكنیك های پیش بینی كننده با ساخت مدلی برای پیگاه داده ، وظیفه پیش بینی موارد ناشناخته را بر عهده دارند . در حالی كه تكنیك های تشریح كننده ، الگوهایی قابل فهم از داده ها را برای انسان كشف می كنند .

● طبقه بندی .

هدف از طبقه بندی ، مشخص كردن ویژگی هایی است كه بتوان توسط آن ، كلاس های مختلف را از یكدیگر متمایز كرد طبقه بندی در داده كاوی طی دو مرحله انجام می گیرد .

ابتدا از روی داده های قدیمی ، كلاس های مختلف تشخیص داده شده و سپس تعلق داشتن داده های جدید به كلاس های موجود ، پیش بینی می شود . طبقه بندی جزو تكنیك های یادگیری با ناظر است زیرا با در اختیار داشتن یك مجموعهداده آموزشی ( به عنوان راهنما ) ، داده های جدید را طبقه بندی می كند .

این روش جزو روش های پیش بینی كننده نیز به شمار می آید .

در ادامه به روش های مختلف طبقه بندی داده ها می پردازیم .

● درخت تصمیم .

متد طبقه بندی بر اساس تولید درخت تصمیم ، یكی از روش های یادگیری ماشین به حساب می آید كه به دلیل استفاده از یك مجموعه آموزشی اولیه ، جزو روش های یادگیری با ناظر است .

برای تولید درخت تصمیم ، ابتدا یك مجموعه اولیه در نظر گرفته می شود و درخت تصمیم آن ساخته می شود . چنانچه این درخت پاسخگوی همه حالات نبود ، با انتخاب مجموعه ای دیگر ، درخت توسعه داده می شود . این فرایند تا تكمیل درخت برای پاسخگویی به همه حالات ادامه می یابد . درخت تصمیم تولید شده ، درختی است كه برگ های آن كلاس های مختلف و گره های میانی ، ویژگی ها و حالات مختلف آنها را نشان می دهد .

● شبكه های عصبی .

شبكه عصبی نیز از جمله روش های یادگیری ماشین برای انجام طبقه بندی است . در این روش یك نگاشت از ورودی به خروجی به صورت غیر خطی انجام می گیرد . هدف اصلی در این روش ، پیدا كردن مجموعه وزن های مناسب برای شبكه به نحوی است كه كلیه داده های آموزشی اولیه را به صورت صحیح طبقه بندی كند .

از مزایای این روش می توان به دقت پیش بینی بالا و توان مقاومت در بابر خطاهای داده های آموزشی اشاره كرد . زمان یادگیری طولانی و مشكل بودن فهم تابع یاد گرفته شده توسط شبكه نیز از معایب این روش به حساب می آید .

● تئوری بیز .

تئوری بیز یكی از روش های آماری برای طبقه بندی به شمار می آید . در این روش كلاس های مختلف ، هر كدام به شكل یك فرضیه دارای احتمال در نظر گرفته می شوند .

هر ركورد آموزشی جدید ، احتمال درست بودن فرضیه های پیشین را افزایش و یا كاهش می دهد و در نهایت ، فرضیاتی كه دارای بالاترین احتمال شوند ، به عنوان یك كلاس در نظر گرفته شده و برچسبی بر آنها زده می شود . این تكنیك با تركیب تئوری بیز و رابطه سببی بین داده ها ، به طبقه بندی می پردازد .

● رگرسیون .

رگرسیون نیز یكی از روش های آماری برای طبقه بندی به شمار می آید . هدف از رگرسیون ، پیش بینی مقدار یك متغیر پیوسته بر اساس مقادیر متغیر های دیگر است . رگرسیون به دو دسته خطی و غیر خطی تقسیم می شود .

برای مثال می توان پیش بینی میزان فروش یك محصول جدید را بر اساس میزان تبلیغات صورت گرفته بر روی آن ، از روش رگرسیون انجام داد .

به جز روش های ذكر شده ، روش های دیگری نیز برای طبقه بندی موجود است كه می توان به K_ Nearest Neighborhood ، Case_ Based Reasoning و الگوریتم ژنتیك اشاره كرد .

● گروه بندی داده ها .

به فرایند دسته بندی اشیای فیزیكی یا انتزاعی به كلاس هایی از اشیاء متشابه ، گروه بندی ( طبقه بندی بدون ناظر ) می گویند .

گروه بندی جزو روش های تشریح كننده به حساب می آید . این روش با تفكر تقسیم و حل ، به دسته بندی داده های موجود در یك سیستم بزرگ پرداخته و آنها را به مولفه های كوچك تر تقسیم می كند .

یك گروه بندی را زمانی مناسب گویند كه اشیای داده ای درون هر گروه بسیار به یكدیگر شبیه بوده و با اشیای گروه های دیگر تفاوت بسیار داشته باشند . معیار شباهت و تفاوت بین اشیای داده ای توسط یك تابع فاصله مشخص می شود . بسته به نوع داده ، توابع فاصله متفاوتی موجود است كه از آن جمله می توان به تابع فاصله Minkowski ، تابع فاصله اقلیدسی ضریب Jaccark اشاره كرد . در ادامه به روش های مختلف برای گروه بندی داده ها پرداخته می شود.

● بخش بندی

در این تكنیك یك بخش بندی از پایگاه داده D با n شیء به k گروه انجام می گیرد . این كار توسط معیاری كه برای گروه بندی در نظر گرفته شده ، انجام می شود . روش های مختلفی از جمله K_ means ، K_ medoids ، PAM ، CLARA و CLARANS برای دسته بندی موجود است .

● سلسله مراتبی .

این تكنیك از فاصله ماتریسی به عنوان شرط گروه گروه بندی استفاده می كند . این روش به جای مشخص كردن تعداد گروه ها در ابتدای كار ، احتیاج به یك شرط خاتمه برای پایان دادن به عملیات گروه بندی دارد .

روش های مختلفی نیز برای این تكنیك مطرح شده است كه از آن جمله می توان به روش AGNES ، DLANA ، BLRCH ، CURE و CHAMELEON اشاره كرد .

● گروه بندی بر اساس تراكم .

در این تكنیك ، گروه بندی بر اساس میزان تراكم نقاط به هم پیوسته مشخص می شود . دو پارامتر Eps و MinPts در این تكنیك در نظر گرفته می شود كه Eps مشخص كننده ماكزیمم شعاع همسایگی و MinPts مشخص كننده مینمم تعداد نقاط درون همسایگی Eps است .

روش های مختلفی نظیر DBSCAN ، OPTLCS ، DENCLUE و CLlQUE نیز در این تكنیك مورد مطالعه قرار گرفته است.