شنبه, ۸ اردیبهشت, ۱۴۰۳ / 27 April, 2024

مجله ویستا

تکنیکها و عملیات کاوش داده

کاوش داده اغلب با نوشتن مقدار زیادی گزارش و تحقیق و استعلام از آنها اشتباه میشود. اما در واقع کاوش داده هیچکدام از اینها را شامل نمی شود. کاوش داده از طریق تجهیزات مخصوصی انجام میشود که عملیات کاوش از پیش تعریف شده را بر اساس مدلهای تجزیه و تحلیل انجام میدهند.
کاوش داده، بررسی داده ها با تمایل به کشف نکات با ارزش و مفید اطلاعات در مقدار متنابهی از داده ها که در طول کار و تجارت بدست آمده است میباشد. کاوش داده با آنالیزهای متداول آماری نیز متفاوت است. در زیر تفاوتهای کاوش داده و آنالیز آماری آمده است.
● آنالیز آماری
▪ آمارشناسان همیشه با یک فرضیه شروع به کار میکنند.
▪ آمارشناسان باید رابطه هایی را ایجاد کنند که به فرضیه آنها مربوط شود.
▪ آنها از داده های عددی استفاده میکنند.
▪ آنها میتوانند داده های نابجا و نادرست را در طول آنالیز تشخیص دهند.
▪ آنها میتوانند نتایج کار خود را تفسیر کنند و برای مدیران بیان کنند.
● کاوش داده
▪ به فرضیه احتیاجی ندارد.
▪ الگوریتمهای کاوش داده در ابزارها بطور اتوماتیک روابط را ایجاد میکنند.
▪ ابزارهای کاوش داده از انواع مختلف داده و نه فقط عددی میتوانند استفاده کنند.
▪ کاوش داده به داده های صحیح و درست طبقه بندی شده بستگی دارد.
▪ نتایج کاوش داده ها آسان نیست و همچنان به متخصصان آمار برای تحلیل آنها و بیان آنها به مدیران نیاز است.
دومثال زیر اولی در مورد شناخت کلاهبرداری بیمه و دومی بررسی بازار، تفاوت بین روش بررسی سنتی و کاوش داده را نشان میدهد.
● مثال اول
▪ روش بررسی سنتی
یک مفسر ممکن است متوجه الگوی رفتاری شود که سبب کلاهبرداری بیمه میشود. بر اساس این فرضیه مفسر یک سری خواسته ها و سوالات می سازد تا این موضوع را بررسی کند. اگر نتایج قاطع و مسلم نبود مفسر با اصلاح فرضیه و یا با یک فرضیه دیگر مجدد شروع میکند. این روش نه تنها وقت گیر است بلکه به قدرت تحلیلی مفسر نیز بستگی دارد. بعلاوه و مهمتر اینکه این روش هیچ وقت الگوهای کلاهبرداری دیگری را که، مفسر به آنها مظنون نشده و در فرضیه جا نداده، پیدا نمی کند.
▪ روش کاوش داده
یک مفسر وسایل کاوش داده را آماده میکند و آنرا طوری تنظیم میکند که تمام الگوهای غیر عادی را که از حالت عادی و نرمال انحراف دارند و ممکن است منجر به کلاهبرداری مالیاتی شوند را پیدا کند. نتایج کاوش داده شرایط مختلفی را که مفسر باید در مراحل بعدی تحقیق کند را نشان میدهد. در مراحل بعدی مفسر میتواند درستی و اثبات این شرایط را بررسی کند. این تلاشها یک مدل ایجاد میکند که میتواند مشتریهایی را که امکان کلاهبرداری دارند پیش بینی نماید.
● مثال دوم
▪ روش آنالیز سنتی
یک مفسر میخواهد به مطالعه رفتار خرید یک طبقه مشخص از مشتریها (مثلا معلمان بازنشسته) برای طراحی Target Market بپردازد. ابتدا مفسر از خصوصیات شناخته شده این طبقه مشتری استفاده کرده و سعی می کند آنها را در گروهایی ردیف کند. سپس به بررسی رفتار خرید یکسان در هر یک از این گروها می پردازد. او این کار را آنقدر انجام میدهد تا به گروه بندی مناسب و مورد رضایتی برسد.
▪ کاوش داده
کاوش داده به مطالعه بانک داده ها برای مشخص کردن تمام گروهایی که الگوی خرید مشخص دارند می پردازد. بعد از کاوش ان داده ها، مفسر میتواند این نتایج را گزارش دهد و یا برای بررسی مجدد به ابزارهای تحلیلی دیگری دهد.
▪ کاوش داده و منابع داده
انبار داده Data warehouse از جمله منابع معمول برای بکارگیری کاوش داده هستند زیرا شامل منابع با ارزشی از داده های داخلی که بوسیله روشهای استخراج/ انتقال/ بارگزاری (ETL) جمع آوری، یکپارچه و تایید شده اند.
انبار داده ها همچنین میتوانند شامل داده های با ارزش خارجی مانند قوانین و ضوابط، جمعیت شناسی یا داده های جغرافیایی باشند که وقتی با داده های داخل سازمانی مخلوط میشوند اساس کاوش داده را پی ریزی میکنند.
اما وقتی داده برای انبار داده خلاصه شد، داده های مخفی و روابط و پیوستگی داده ها دیگر قابل تمییز نمی باشند. برای مثال یک ابزار نمیتواند دیگر به بررسی معمولی که بر روی سبد خرید مشتریها با داده های فروش که در هفته خلاصه شده بپردازد زیرا در خلاصه شدن جزییات و روابط و پیوستگیها از بین رفته است. به همین دلیل فایلها و بانکهای داده عملیاتی نیز بعنوان یک منبع معمول هستند زیرا شامل جزییات مبادلاتی و هزاران داده های مخفی هستند.
ابزارهای کاوش داده با بانکهای داده عملیاتی و انبار داده ها بطور مستقیم بدون ساخت بانک داده دست پیدا میکنند. اما بعضی از ابزارهای کاوش داده مثلا روابطی مانند Oracle ، طبقه بندی مانند IMS و حتی فایلهای مسطح مانند VSAM ترجیح میدهند خود نیز یک بانک داده داشته باشند. اما دسترسی مستقیم به انبار داده ها و داده های عملیاتی اصولا توصیه نمی شود زیرا:
حوضچه های داده Data Pool باید قادر باشند بسته به ابزار کاوش داده تغییر کنند اما تعویض جزئیات یک داده عملیاتی و یا بانکهای اطلاعاتی انبار داده ممکن نمیباشد.
عملکرد داده های عملیاتی و یا بانک داده با عملیاتهای جستجوی داده تحت تاثیر قرار میگیرند. این برای داده های عملیاتی غیر قابل قبول و برای انبار داده ها مطلوب نیست.
یک عملیات کاوش داده ممکن است به جزئیات تاریخی داده احتیاج داشته باشد. بانکهای اطلاعاتی عملیاتی جزئیات تاریخی را نگه نمی دارند و انبار داده ها جزئیات مطلوب را ندارد.سازمانها داده ها را برای کاوش داده با توجه به هدف کاوش از انبار داده و یا بانک داده عملیاتی استخراج می کنند.تکنیکهای کاوش داده کاربردهای خاصی از الگوریتمها هستند و شش تکنیک معمول برای کاوش داده وجود دارد.
● Association
آنالیز پیوندی که برای تشخیص رفتار یک رویداد و یا پروسه خاص بکار میرود. یک مثال میتواند تشخیص رفتار خریداران قهوه باشد که بر طبق آن افرادی که قهوه با مارکهای عالی میخرند احتمال اینکه سیگار عالی نیز بخرند سه برابر بیشتر از افرادیست که قهوه معمولی می خرند.
این آنالیز بر اساس قوانینی مانند زیر استوار است . اگر یک مشتری اسنک بخرد، ۸۵% احتمال دارد که نوشابه بدون الکل بخرد. یا مثلا اگر یک مشتری برای تمام اعضای خانواده اش بلیط هواپیما برای تعطیلات بخرد، ۹۵% احتمال دارد که آن فرد یک خودرو بزرگ در آنجا کرایه کند.
با کمک اسکنرها، سوپر مارکتها فرضیاتی را برای الگوی خرید ایجاد میکنند. بخاطر نوع فروش سوپر مارکتها این نوع آنالیز را آنالیز سبد خرید نیز می گویند.
● Sequence
روش زنجیره ای مانند روش پیوندی است اما در اینجا زمان را نیز در نظر میگیرند. برای مثال این روش ممکن است پیشبینی کند فردی که ماشین لباسشویی می خرد ۶۵% امکان دارد در مدت ۶ ماه ماشین خشک کن نیز بخرد. بخاطر همین پیش بینی فروشنده برای افرادی که در ۳ یا ۴ ماه علاوه بر خرید ماشین لباسشویی خشک کن نیز بخرند ۱۰% تخفیف در نظر میگیرد.
● Classification
روش طبقه بندی مرسوم ترین روش کاوش داده است. این روش به رفتارها و ویژگیهای گروهایی که در حال حاضر ایجاد شده میپردازد. مثلا این گروهها میتواند شامل افرادی که به ندرت پرواز میکنند، افرادی که ولخرج هستند، مشتریهای دائم و افرادی که درد کمر دارند باشد. این روش میتواند با کمک یک سری قوانین طبقه بندیهای جدیدی از این گروها ایجاد کند. این قوانین بر روی تمام داده ها نیز اعمال میشود تا مجدد طبقه بندی شوند. مثال این روش میتوتند یافتن خصوصیات مشتریهایی که احتمال خرید یک محصول خاصی را دارند باشد. با یافتن این خصوصیات هزینه تبلیغات بصورت چشمگیری کاهش می یابد.
● Cluster
روش خوشه ای میتواند برای یافتن گروهای مختلف در داده ها بکار رود. این روش شبیه روش طبقه بندی است با این تفاوت که هیچ گروهی قبلا تعریف و مشخص نشده است. این روش اغلب از شبکه های عصبی و یا روش آماری استفاده می کند. این روش اقلام را به گروهایی بر اساس شباهتهایی که ابزار کاوش داده می یابد گروه بندی می کند. اقلام جمع آوری شده در یک گروه باید خیلی شبیه به هم باشند اما خود گروهها باید کاملا فرق داشته باشند. این روش معمولا برای مشکلاتی مانند نقص در تولید و یا گروهایی که تمایل استفاده از کارت اعتباری دارند می باشد.
● Regression
روش پس گرایی یک روش پیشبینی است که از داده های مطلق دانسته برای پیشبینی رویداد در آینده بر اساس آمار و رویه های قبلی استفاده میکند. برای مثال میزان فروش لوازم جانبی خودروهای اسپورت می تواند بر اساس میزان خودرو اسپورت فروخته شده پیشبینی شود.
● Time series
روش سریهای زمانی یکی دیگر از روشهای پیشبینی است. تفاوت این روش با روش پس گرایی این است که در اینجا از داده های مطلق که به زمان بستگی دارند استفاده میشود. برای مثال میزان تصادفات در روزهای تعطیل بر اساس میزان تصادفات در همین زمان در سالهای پیش تخمین زده میشود.
● عملیات کاوش داده
ابزارهای کاوش داده آمار شناسان را قادر می سازد تا مدلهایی تحلیلی بسازند که ابزارها در طول عملیات کاوش داده استفاده کنند. یک موتور پیشبینی یک لیست ورودی میخواهد و بعد با تعقیب مراحل و روابط در مدل تحلیلی به پیشبینی میپردازد. نتایج عملیاتهای کاوش داده بصورت جدول و فایل هستند که حاوی داده های تحلیلی هستند و میتوانند به ابزارهای تهیه گزارش منتقل شوند. چهار عملیات کاوش داده وجود دارد:
▪ Predictive & Classification Modelling
این عملیات برای پیشبینی یک رویداد خاص بکار میرود. این روش فرض میکند که تحلیل گر سوالاتی برای پرسیدن دارد. این مدل، پاسخ سوالات را بوسیله رتبه بندی که در واقع احتمال وقوع کلاسهای مختلف را تعیین میکند استوار است. برای مثال اگر یک بانک بخواهد مشتریهایی که احتمال بستن حساب خود را دارند پیشبینی کند باید دو نوع داده به این مدل وارد کند. داده های مربوط به آن دسته از مشتریها که حسابهای خود را بسته اند و داده های مربوط به آن دسته که حسابهای خود را نگه داشته اند. این ابزار با یافتن متغیرها و تعیین کلاسها از مشخصات این دو دسته مشتریها میپردازد. جواب آنالیز این میتواند باشد:
مشتریهای زن بالای ۴۰ سال که در آمد بیشتر از ۱۵۰۰۰۰$ در سال دارند و صاحب خانه نیز هستند، ۳۵% احتمال دارد حساب خود را ببندند.
▪ Link Analysis
این رو ش روابطی را بین داده های بانکهای داده پیدا میکند. برای مثال میتواند بگوید چه افلامی با هم به فروش میرسند. مانند شیر و گندم بو داده.
▪ Database segmentation
این روش داده های مربوط به هم را در بخشهای مختلف گروه بندی میکند. این گروه بندی اغلب اولین قدم در پیدا کردن داده مناسب قبل از آغاز عملیات کاوش داده است. برای مثال این روش افرادی را که بندرت پرواز میکنند و افرادی را که دائما پرواز میکنند گروه بندی میکند.
▪ Deviation Detection
این روش داده هایی را که از نرم خارج هستند پیدا و دلایل انحراف را پیشنهاد میکند. برای مثال افرادی که مشتری دائم بودند اما برای مدت طولانی دیگر خرید نمی کنند، یا از آن محل رفته اند و یا شرکت رقیبی محصولی مشابه با کیفیت بهتر و با قیمت ارزان تر ارائه داده است.
● در آخر اینکه
اغلب سازمانها بر روی معادن طلا نشسته اند. این طلا داده های جمع شده از مشتریها و ارباب رجوعان و محصولات فروخته شده هستند. در این داده ها رفتار های خرید و نوع علایق مشتریها به کالا ها نهفته است. استفاده نکردن از این منابع ارزشمند اتلاف منابع است. اما باید این را هم در نظر داشت که این تکنولوژی جدید و خیره کننده فقط در زمانهایی بهتر است استفاده شود که تجارت به آن احتیاج مبرم دارد و به اصطلاح ارزش صرف زمان و هزینه را بابت این تکنولوژی و سیستمها دارد.

شنبه, ۸ اردیبهشت, ۱۴۰۳ / 27 April, 2024

تکنیکها و عملیات کاوش داده

pameranian.com

فیلتر تصفیه آب

قیمت خرید تلفن صنعتی تحت شبکه

نمایندگی زیمنس | فروش محصولات فشار ضعیف و اتوماسیون زیمنس

مثال‌هایی از موضوعات مدیریتی فناوری

اصول مانی

سیستم‌های اطلاعات

شرکتهای مجازی و شبکه آنها

شبکه های عصبی و الگوریتم های ژنتیک در تجارت

به سوی جامعه اطلاعاتی

سیستمهای ERP‌ وفرآیندپیاده سازی آن

نقش اطلاعات در مدیریت موثر

مدیریت در شبکه جهانی

مباحث و دیدگاه‌های موجود در زمینه تعامل انتقال فناوری و توسعه در کشورهای در حال توسعه

آشنایی با سیستم‌های اطلاعات

سیستم اطلاعات سازمانی یک سیستم اطلاعات برای کار بر روی اطلاعاتی است که به خود سازمان مربوط می‌شوند.

نقش سیستمهای اطلاعات مدیریت(MIS) برعناصرفرهنگ سازمانی دانشگاه

امروزه نظامهای اطلاعات تأثیر شگرفی بر ساختار سلسله مراتبی سازمانها دارند؛ به گونهای که مدیران سطوح مختلف، خود را بینیاز از این اطلاعات نمیدانند.

هوش بازرگانی

در عصری که زمان کلید اصلی در تجارت است، شرکتها به استفاده از ابزارهای اطلاعاتی روی آورده اند که بتواند اطلاعات مورد نظر را به سرعت ازمنابع استخراج کند.

برنامه ریزی منابع سازمانی ( ERP )

مدیریت فناوری یک رویکرد فرایندی

در دیدگاه سنتی، مدیریت فناوری بیشتر بر تحقیق و توسعه متمرکز شده است. علاوه بر آن، نیز صرفاً به موضوعهایی مانند منابع و مدیریت پروژه های تحقیق و توسعه توجه می شود.

توسعه‌ یک ذهنیت اینترنتی در سازمان

ERP (برنامه ریزی منابع سازمانی) چیست ؟

کلمه ERP در اصل مخفف واژگان Enterprise Resource Planning یا سامانه تخصیص منابع سازمان است که طیف وسیعی از فعالیتهای مختلفی را که به بهبود عملکرد سازمان منتهی می شود در بر دارد.

ده مسئولیت اصلی مدیر فناوری اطلا‌عات

دیکشنری داده و مزایای آن در مدیریت

ارزیابی عملکرد در پروژه های فناوری اطلاعات

شاخص های راهبری اطلاعات در سازمان

گام به گام به سوی شرکتهای سیار

نکاتی در مورد نوشتن رزومه مؤثر

مدیریت ایرانی، IT ایرانی

روش نگارش یک رزومه کامل

در رزومه معمولاً باید تعریف کامل و مشخصی از خودتــــان بدهید و این یکی از مهمترین مسائل در شناسنامه کـاری شماست.

چهار فرصت برای عملکرد بهتر مدیران

شش وظیفه کلیدی در مدیریت منابع فناوری

آیا شما مدیر یک وب سایت هستید، یا مدیر یک انبار اطلاعاتی؟

امروزه، دو دسته از افراد به فعالیت‌ در زمینه‌ی وب مشغولند. افرادی که آن را به عنوان یک نوع دارایی تلقی می‌کنند و دسته‌ای که این فعالیت را به شکل یک کالا می بینند.

تکنیکها و عملیات کاوش داده

روش طبقه بندی مرسوم ترین روش کاوش داده است. این روش به رفتارها و ویژگیهای گروهایی که در حال حاضر ایجاد شده میپردازد.

IT و راهبردهای موثر مدیریت کسب و کار

مکانیک سیار باطری سازی سیار(نصب باطری اتمی …

نمایندگی زیمنس | فروش محصولات فشار ضعیف و …

نمایندگی کابل سیمند(سیمند کابل)

فروش سیم‌کارت 912 به صورت اقساط

مردم کیست؟

نمایشگاه وسط شهر

پشت‌صحنه پیامک «آبفا»

تهدید به بازنگری در دکترین هسته‌ای؛ پس از درگیری ایران و اسرائیل، …

صندوق ما و صندوق دیگران

شبح ویتنامی دیگر بر سر آمریکا

زنی امروزی که شیفته مدرن بودن سیدمصطفی شد

3 سال انتظار برای ارشاد مدیران

استارت عصر جدید خودرو از پکن

زیان 3 میلیارد دلاری صنعت فولاد؟

موفقیت هند ماندگار است؟

یک حکم پرهزینه برای نظام!

جنجال بزرگ یاران رائفی‌پور علیه رئیس مجلس

جولان سرخوشانه دلال‌ها در فرودگاه امام!

پس لرزه های تجمع روحانیون قم با لباس نظامی / ابطحی: ضربه سنگین بر …

پیمانکاران؛ پیروز همیشگی نبرد فقر و غنا

نوه امام خمینی در خارج از کشور چه کاره است؟ / خاطرات عروس بزرگ امام …

دسته‌گل «خودرو‌های نرم‌تن»!

آیا اعراب در مقابل ایران، هوای اسرائیل را دارند؟

گیر واردات خودروهای کارکرده کجاست؟

لباس نظامی روحانیون در جنگ با که؟!

روایت دختر کیومرث پوراحمد از مرگ مشکوک او؛ پدرم می‌دانست چه بلایی …

چگونه ایالات متحده میان کشورهای عربی حاشیه خلیج فارس بی‌اعتبار شد؟

جایگاه ایران در میان دارندگان بزرگترین ذخایر نفتی جهان

آمار هولناک از وضعیت فقر مطلق /پرداختی‌ها چقدر از هزینه پایین‌ترین‌دهک‌ها …

آمار رهن و اجاره آپارتمان از شمال تا جنوب تهران + جدول

تصاویری متفاوت از حاضران در تجمع حمایت از گشت ارشاد در قم

گزارش ویدیویی اختصاصی نمایشگاه خودرو پکن 2024 / معرفی جدیدترین ها …

مالیات بر عایدی سرمایه باعث کتمان معاملات می‌شود؟

ارزا‌ن‌ترین خودرو ۷ نفره در ایران

قوت روزهای رکود؛ چگونه رکود اقتصادی رفتار غذایی مردم را تغییر می‌دهد؟

اجلاس بین المللی با امکانات دهه ۶۰ / باز هم کوتاهی در حق رسانه ها