داده کاوی

داده کاوی

پستتوسط rahele » 1391-شهريور ماه -4GMT15:58:15+00:00

داده کاوی

داده کاوی فرایندی تحلیلی است که برای کاوش داده ها (معمولا حجم عظیمی از داده ها - در زمینه های کسب و کار و بازار-) صورت میگیرد و یافته ها با به کارگیری الگوهایی، احراز اعتبار می شوند. هدف اصلی داده کاوی پیش بینی است. فرایند داده کاوی شامل سه مرحله می باشد: 1. کاوش اولیه. 2. ساخت مدل یا شناسایی مدل الگو با کمک احراز اعتبار / تایید. 3. بهره برداری.

مرحله 1. کاوش: معمولا این مرحله با آماده سازی داده ها صورت میگیرد که ممکن است شامل پاکسازی داده ها، تبدیل داده ها و انتخاب زیر مجموعه هایی از رکوردها با حجم عظیمی از متغیرها (فیلدها) باشد. سپس با توجه به ماهیت مسأله تحلیل، این مرحله به مدلهای پیش بینی ساده یا مدلهای آماری و گرافیکی برای شناسایی متغیرهای موردنظر و تعیین پیچیدگی مدلها برای استفاده در مرحله بعدی نیاز دارد.

مرحله 2. ساخت و احراز اعتبار مدل: این مرحله به بررسی مدلهای مختلف و گزینش بهترین مدل با توجه به کارایی پیش بینی آن میپردازد. شاید این مرحله ساده به نظر برسد اما اینطور نیست. تکنیکهای متعددی برای رسیدن به این هدف توسعه یافتند و "ارزیابی رقابتی مدلها" نام گرفتند. بدین منظور مدلهای مختلف برای مجموعه داده ها یکسان به کار میروند تا کارایی شان با هم مقایسه شود، سپس مدلی که بهترین کارایی را داشته باشد انتخاب میشود. این تکنیکها عبارتند از: Bagging، Boosting، Stacking و Meta- learning.

مرحله 3. بهره برداری: آخرین مرحله، مدلی را که در مرحله قبل انتخاب شده است، در داده های جدید به کار میگیرد تا پیش بینی های خروجی های مورد انتظار را تولید نماید. داده کاوی به عنوان ابزار مدیریت اطلاعات برای تصمیم گیری، عمومیت یافته است. اخیراً، توسعه تکنیکهای تحلیلی جدید در این زمینه مورد توجه قرار گرفته است (مثلا Classification Trees)، اما هنوز داده کاوی مبتنی بر اصول آماری نظیر Exploratory Data Analysis (EDA) میباشد.

با این وجود تفاوت عمده ای بین داده کاوی و EDA وجود دارد. داده کاوی بیشتر به برنامه های کاربردی گرایش دارد تا ماهیت اصلی پدیده. به عبارتی داده کاوی کمتر با شناسایی روابط بین متغیرها سروکار دارد.


مفاهیم اساسی در داده کاوی

Bagging: این مفهوم برای ترکیب رده بندیهای پیش بینی شده از چند مدل به کار میرود. فرض کنید که قصد دارید مدلی برای رده بندی پیش بینی بسازید و مجموعه داده های مورد نظرتان کوچک است. شما میتوانید نمونه هایی (با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل از درخت رده بندی (مثلا C&RT و CHAID) استفاده کنید. به طور کلی برای نمونه های مختلف به درختهای متفاوتی خواهید رسید. سپس برای پیش بینی با کمک درختهای متفاوت به دست آمده از نمونه ها، یک رأی گیری ساده انجام دهید. رده بندی نهایی، رده بندی ای خواهد بود که درختهای مختلف آنرا پیش بینی کرده اند.

Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی) به کار میرود. Boosting نیز از روش C&RT یا CHAID استفاده و ترتیبی از classifier ها را تولید خواهد کرد.

Meta- learning: این مفهوم برای ترکیب پیش بینی های حاصل از چند مدل به کار میرود و هنگامی که انواع مدلهای موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل Trees classifier ها نظیر C&RT و CHAID، تحلیل خطی و شبکه های عصبی است. هریک از کامپیوترها، رده بندیهایی را برای نمونه ها پیش بینی کرده اند. تجربه نشان میدهد که ترکیب پیش بینیهای چند روش دقیقتر از پیش بینیهای هر یک از روشهاست. پیش بینی های حاصل از چند classifier را میتوان به عنوان ورودی meta- linear مورد استفاده قرار داد. meta- linear پیش بینی ها را ترکیب میکند تا بهترین رده بندی پیش بینی حاصل شود.


کاش دستان خدا پیدا بود!
تا در آن وقت که بیحوصله و تنهایی
و دلت از غم دنیا مملو،
بزنی تکیه بر آن
و بخندی به همه رنج جهان...

برای نویسنده این مطلب rahele تشکر کننده ها: 3
Maryam-Mohammadian (1391-بهمن ماه -6GMT13:57:05+00:00), biosta (1391-بهمن ماه -6GMT13:57:05+00:00), saaman (1391-بهمن ماه -6GMT13:57:05+00:00)
رتبه: 27.27%
 
نماد کاربر
rahele
کاربر جدید
کاربر جدید
 
پست ها : 9
تاريخ عضويت: 1391-مرداد ماه -12GMT00:00:00+00:00
تشکر کرده: 60 بار
تشکر شده: 19 بار
تشکر کرده: 60 بار
تشکر شده: 19 بار
امتياز: 4225

برای نویسنده این مطلب rahele:
Maryam-Mohammadian (1391-بهمن ماه -6GMT13:57:05+00:00), biosta (1391-بهمن ماه -6GMT13:57:05+00:00), saaman (1391-بهمن ماه -6GMT13:57:05+00:00)

داده کاوی

پستتوسط mnstat » 1391-شهريور ماه -19GMT23:34:25+00:00

داده کاوی

عضويت  / ورود
انجام پروژه های آماری
spss-pro.ir

برای نویسنده این مطلب mnstat تشکر کننده ها: 3
Maryam-Mohammadian (1391-بهمن ماه -6GMT13:57:05+00:00), rahele (1391-بهمن ماه -6GMT13:57:05+00:00), tt63 (1391-بهمن ماه -6GMT13:57:05+00:00)
رتبه: 27.27%
 
نماد کاربر
mnstat
کاربر نیمه فعال
کاربر نیمه فعال
 
پست ها : 35
تاريخ عضويت: 1391-شهريور ماه -3GMT00:00:00+00:00
تشکر کرده: 48 بار
تشکر شده: 57 بار
تشکر کرده: 48 بار
تشکر شده: 57 بار
امتياز: 3660

برای نویسنده این مطلب mnstat:
Maryam-Mohammadian (1391-بهمن ماه -6GMT13:57:05+00:00), rahele (1391-بهمن ماه -6GMT13:57:05+00:00), tt63 (1391-بهمن ماه -6GMT13:57:05+00:00)

داده کاوی

پستتوسط mnstat » 1391-شهريور ماه -30GMT17:04:18+00:00

دانلود مقاله داده کاوی


عضويت  / ورود
انجام پروژه های آماری
spss-pro.ir

برای نویسنده این مطلب mnstat تشکر کننده ها:
Maryam-Mohammadian (1391-بهمن ماه -6GMT13:57:05+00:00)
رتبه: 9.09%
 
نماد کاربر
mnstat
کاربر نیمه فعال
کاربر نیمه فعال
 
پست ها : 35
تاريخ عضويت: 1391-شهريور ماه -3GMT00:00:00+00:00
تشکر کرده: 48 بار
تشکر شده: 57 بار
تشکر کرده: 48 بار
تشکر شده: 57 بار
امتياز: 3660

برای نویسنده این مطلب mnstat:
Maryam-Mohammadian (1391-بهمن ماه -6GMT13:57:05+00:00)


بازگشت به مقاله های آماری

چه کسي حاضر است ؟

کاربران حاضر در اين انجمن: بدون كاربران آنلاين و 0 مهمان

cron