یکشنبه, ۳ تیر, ۱۴۰۳ / 23 June, 2024
مجله ویستا


تکنیکها و عملیات کاوش داده


تکنیکها و عملیات کاوش داده
کاوش داده اغلب با نوشتن مقدار زیادی گزارش و تحقیق و استعلام از آنها اشتباه میشود. اما در واقع کاوش داده هیچکدام از اینها را شامل نمی شود. کاوش داده از طریق تجهیزات مخصوصی انجام میشود که عملیات کاوش از پیش تعریف شده را بر اساس مدلهای تجزیه و تحلیل انجام میدهند.
کاوش داده، بررسی داده ها با تمایل به کشف نکات با ارزش و مفید اطلاعات در مقدار متنابهی از داده ها که در طول کار و تجارت بدست آمده است میباشد. کاوش داده با آنالیزهای متداول آماری نیز متفاوت است. در زیر تفاوتهای کاوش داده و آنالیز آماری آمده است.
● آنالیز آماری
▪ آمارشناسان همیشه با یک فرضیه شروع به کار میکنند.
▪ آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط شود.
▪ آنها از داده های عددی استفاده میکنند.
▪ آنها میتوانند داده های نابجا و نادرست را در طول آنالیز تشخیص دهند.
▪ آنها میتوانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند.
● کاوش داده
▪ به فرضیه احتیاجی ندارد.
▪ الگوریتمهای کاوش داده در ابزارها بطور اتوماتیک روابط را ایجاد میکنند.
▪ ابزارهای کاوش داده از انواع مختلف داده و نه فقط عددی میتوانند استفاده کنند.
▪ کاوش داده به داده های صحیح و درست طبقه بندی شده بستگی دارد.
▪ نتایج کاوش داده ها آسان نیست و همچنان به متخصصان آمار برای تحلیل آنها و بیان آنها به مدیران نیاز است.
دومثال زیر اولی در مورد شناخت کلاهبرداری بیمه و دومی بررسی بازار، تفاوت بین روش بررسی سنتی و کاوش داده را نشان میدهد.
● مثال اول
▪ روش بررسی سنتی
یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه میشود. بر اساس این فرضیه مفسر یک سری خواسته ها و سوالات می سازد تا این موضوع را بررسی کند. اگر نتایج قاطع و مسلم نبود مفسر با اصلاح فرضیه و یا با یک فرضیه دیگر مجدد شروع میکند. این روش نه تنها وقت گیر است بلکه به قدرت تحلیلی مفسر نیز بستگی دارد. بعلاوه و مهمتر اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که، مفسر به آنها مظنون نشده و در فرضیه جا نداده، پیدا نمی کند.
▪ روش کاوش داده
یک مفسر وسایل کاوش داده را آماده میکند و آنرا طوری تنظیم میکند که تمام الگوهای غیر عادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری مالیاتی شوند را پیدا کند. نتایج کاوش داده شرایط مختلفی را که مفسر باید در مراحل بعدی تحقیق کند را نشان میدهد. در مراحل بعدی مفسر میتواند درستی و اثبات این شرایط را بررسی کند. این تلاشها یک مدل ایجاد میکند که میتواند مشتریهایی را که امکان کلاهبرداری دارند پیش بینی نماید.
● مثال دوم
▪ روش آنالیز سنتی
یک مفسر میخواهد به مطالعه رفتار خرید یک طبقه مشخص از مشتریها (مثلا معلمان بازنشسته) برای طراحی Target Market بپردازد. ابتدا مفسر از خصوصیات شناخته شده این طبقه مشتری استفاده کرده و سعی می کند آنها را در گروهایی ردیف کند. سپس به بررسی رفتار خرید یکسان در هر یک از این گروها می پردازد. او این کار را آنقدر انجام میدهد تا به گروه بندی مناسب و مورد رضایتی برسد.
▪ کاوش داده
کاوش داده به مطالعه بانک داده ها برای مشخص کردن تمام گروهایی که الگوی خرید مشخص دارند می پردازد. بعد از کاوش ان داده ها، مفسر میتواند این نتایج را گزارش دهد و یا برای بررسی مجدد به ابزارهای تحلیلی دیگری دهد.
▪ کاوش داده و منابع داده
انبار داده Data warehouse از جمله منابع معمول برای بکارگیری کاوش داده هستند زیرا شامل منابع با ارزشی از داده های داخلی که بوسیله روشهای استخراج/ انتقال/ بارگزاری (ETL) جمع آوری، یکپارچه و تایید شده اند.
انبار داده ها همچنین میتوانند شامل داده های با ارزش خارجی مانند قوانین و ضوابط، جمعیت شناسی یا داده های جغرافیایی باشند که وقتی با داده های داخل سازمانی مخلوط میشوند اساس کاوش داده را پی ریزی میکنند.
اما وقتی داده برای انبار داده خلاصه شد، داده های مخفی و روابط و پیوستگی داده ها دیگر قابل تمییز نمی باشند. برای مثال یک ابزار نمیتواند دیگر به بررسی معمولی که بر روی سبد خرید مشتریها با داده های فروش که در هفته خلاصه شده بپردازد زیرا در خلاصه شدن جزییات و روابط و پیوستگیها از بین رفته است. به همین دلیل فایلها و بانکهای داده عملیاتی نیز بعنوان یک منبع معمول هستند زیرا شامل جزییات مبادلاتی و هزاران داده های مخفی هستند.
ابزارهای کاوش داده با بانکهای داده عملیاتی و انبار داده ها بطور مستقیم بدون ساخت بانک داده دست پیدا میکنند. اما بعضی از ابزارهای کاوش داده مثلا روابطی مانند Oracle ، طبقه بندی مانند IMS و حتی فایلهای مسطح مانند VSAM ترجیح میدهند خود نیز یک بانک داده داشته باشند. اما دسترسی مستقیم به انبار داده ها و داده های عملیاتی اصولا توصیه نمی شود زیرا:
حوضچه های داده Data Pool باید قادر باشند بسته به ابزار کاوش داده تغییر کنند اما تعویض جزئیات یک داده عملیاتی و یا بانکهای اطلاعاتی انبار داده ممکن نمیباشد.
عملکرد داده های عملیاتی و یا بانک داده با عملیاتهای جستجوی داده تحت تاثیر قرار میگیرند. این برای داده های عملیاتی غیر قابل قبول و برای انبار داده ها مطلوب نیست.
یک عملیات کاوش داده ممکن است به جزئیات تاریخی داده احتیاج داشته باشد. بانکهای اطلاعاتی عملیاتی جزئیات تاریخی را نگه نمی دارند و انبار داده ها جزئیات مطلوب را ندارد.سازمانها داده ها را برای کاوش داده با توجه به هدف کاوش از انبار داده و یا بانک داده عملیاتی استخراج می کنند.تکنیکهای کاوش داده کاربردهای خاصی از الگوریتمها هستند و شش تکنیک معمول برای کاوش داده وجود دارد.
● Association
آنالیز پیوندی که برای تشخیص رفتار یک رویداد و یا پروسه خاص بکار میرود. یک مثال میتواند تشخیص رفتار خریداران قهوه باشد که بر طبق آن افرادی که قهوه با مارکهای عالی میخرند احتمال اینکه سیگار عالی نیز بخرند سه برابر بیشتر از افرادیست که قهوه معمولی می خرند.
این آنالیز بر اساس قوانینی مانند زیر استوار است . اگر یک مشتری اسنک بخرد، ۸۵% احتمال دارد که نوشابه بدون الکل بخرد. یا مثلا اگر یک مشتری برای تمام اعضای خانواده اش بلیط هواپیما برای تعطیلات بخرد، ۹۵% احتمال دارد که آن فرد یک خودرو بزرگ در آنجا کرایه کند.
با کمک اسکنرها، سوپر مارکتها فرضیاتی را برای الگوی خرید ایجاد میکنند. بخاطر نوع فروش سوپر مارکتها این نوع آنالیز را آنالیز سبد خرید نیز می گویند.
● Sequence
روش زنجیره ای مانند روش پیوندی است اما در اینجا زمان را نیز در نظر میگیرند. برای مثال این روش ممکن است پیشبینی کند فردی که ماشین لباسشویی می خرد ۶۵% امکان دارد در مدت ۶ ماه ماشین خشک کن نیز بخرد. بخاطر همین پیش بینی فروشنده برای افرادی که در ۳ یا ۴ ماه علاوه بر خرید ماشین لباسشویی خشک کن نیز بخرند ۱۰% تخفیف در نظر میگیرد.
● Classification
روش طبقه بندی مرسوم ترین روش کاوش داده است. این روش به رفتارها و ویژگیهای گروهایی که در حال حاضر ایجاد شده میپردازد. مثلا این گروهها میتواند شامل افرادی که به ندرت پرواز میکنند، افرادی که ولخرج هستند، مشتریهای دائم و افرادی که درد کمر دارند باشد. این روش میتواند با کمک یک سری قوانین طبقه بندیهای جدیدی از این گروها ایجاد کند. این قوانین بر روی تمام داده ها نیز اعمال میشود تا مجدد طبقه بندی شوند. مثال این روش میتوتند یافتن خصوصیات مشتریهایی که احتمال خرید یک محصول خاصی را دارند باشد. با یافتن این خصوصیات هزینه تبلیغات بصورت چشمگیری کاهش می یابد.
● Cluster
روش خوشه ای میتواند برای یافتن گروهای مختلف در داده ها بکار رود. این روش شبیه روش طبقه بندی است با این تفاوت که هیچ گروهی قبلا تعریف و مشخص نشده است. این روش اغلب از شبکه های عصبی و یا روش آماری استفاده می کند. این روش اقلام را به گروهایی بر اساس شباهتهایی که ابزار کاوش داده می یابد گروه بندی می کند. اقلام جمع آوری شده در یک گروه باید خیلی شبیه به هم باشند اما خود گروهها باید کاملا فرق داشته باشند. این روش معمولا برای مشکلاتی مانند نقص در تولید و یا گروهایی که تمایل استفاده از کارت اعتباری دارند می باشد.
● Regression
روش پس گرایی یک روش پیشبینی است که از داده های مطلق دانسته برای پیشبینی رویداد در آینده بر اساس آمار و رویه های قبلی استفاده میکند. برای مثال میزان فروش لوازم جانبی خودروهای اسپورت می تواند بر اساس میزان خودرو اسپورت فروخته شده پیشبینی شود.
● Time series
روش سریهای زمانی یکی دیگر از روشهای پیشبینی است. تفاوت این روش با روش پس گرایی این است که در اینجا از داده های مطلق که به زمان بستگی دارند استفاده میشود. برای مثال میزان تصادفات در روزهای تعطیل بر اساس میزان تصادفات در همین زمان در سالهای پیش تخمین زده میشود.
● عملیات کاوش داده
ابزارهای کاوش داده آمار شناسان را قادر می سازد تا مدلهایی تحلیلی بسازند که ابزارها در طول عملیات کاوش داده استفاده کنند. یک موتور پیشبینی یک لیست ورودی میخواهد و بعد با تعقیب مراحل و روابط در مدل تحلیلی به پیشبینی میپردازد. نتایج عملیاتهای کاوش داده بصورت جدول و فایل هستند که حاوی داده های تحلیلی هستند و میتوانند به ابزارهای تهیه گزارش منتقل شوند. چهار عملیات کاوش داده وجود دارد:
▪ Predictive & Classification Modelling
این عملیات برای پیشبینی یک رویداد خاص بکار میرود. این روش فرض میکند که تحلیل گر سوالاتی برای پرسیدن دارد. این مدل، پاسخ سوالات را بوسیله رتبه بندی که در واقع احتمال وقوع کلاسهای مختلف را تعیین میکند استوار است. برای مثال اگر یک بانک بخواهد مشتریهایی که احتمال بستن حساب خود را دارند پیشبینی کند باید دو نوع داده به این مدل وارد کند. داده های مربوط به آن دسته از مشتریها که حسابهای خود را بسته اند و داده های مربوط به آن دسته که حسابهای خود را نگه داشته اند. این ابزار با یافتن متغیرها و تعیین کلاسها از مشخصات این دو دسته مشتریها میپردازد. جواب آنالیز این میتواند باشد:
مشتریهای زن بالای ۴۰ سال که در آمد بیشتر از ۱۵۰۰۰۰$ در سال دارند و صاحب خانه نیز هستند، ۳۵% احتمال دارد حساب خود را ببندند.
▪ Link Analysis
این رو ش روابطی را بین داده های بانکهای داده پیدا میکند. برای مثال میتواند بگوید چه افلامی با هم به فروش میرسند. مانند شیر و گندم بو داده.
▪ Database segmentation
این روش داده های مربوط به هم را در بخشهای مختلف گروه بندی میکند. این گروه بندی اغلب اولین قدم در پیدا کردن داده مناسب قبل از آغاز عملیات کاوش داده است. برای مثال این روش افرادی را که بندرت پرواز میکنند و افرادی را که دائما پرواز میکنند گروه بندی میکند.
▪ Deviation Detection
این روش داده هایی را که از نرم خارج هستند پیدا و دلایل انحراف را پیشنهاد میکند. برای مثال افرادی که مشتری دائم بودند اما برای مدت طولانی دیگر خرید نمی کنند، یا از آن محل رفته اند و یا شرکت رقیبی محصولی مشابه با کیفیت بهتر و با قیمت ارزان تر ارائه داده است.
● در آخر اینکه
اغلب سازمانها بر روی معادن طلا نشسته اند. این طلا داده های جمع شده از مشتریها و ارباب رجوعان و محصولات فروخته شده هستند. در این داده ها رفتار های خرید و نوع علایق مشتریها به کالا ها نهفته است. استفاده نکردن از این منابع ارزشمند اتلاف منابع است. اما باید این را هم در نظر داشت که این تکنولوژی جدید و خیره کننده فقط در زمانهایی بهتر است استفاده شود که تجارت به آن احتیاج مبرم دارد و به اصطلاح ارزش صرف زمان و هزینه را بابت این تکنولوژی و سیستمها دارد.
منبع : مدیریت تکنولوژی