جولای 31, 2020

آشنایی با داده کاوی (Data Mining)

برای مشاهده آموزش کامل دوره مقدماتی داده کاوی کلیک کنید

داده کاوی (Data Mining)

تجزیه و تحلیل داده کاوی (Data Mining) ها فرایندی برای بازرسی ، پاکسازی ، تبدیل و مدل سازی داده ها با هدف کشف اطلاعات مفید ، اطلاع رسانی در مورد نتیجه گیری و حمایت از تصمیم گیری است. تجزیه و تحلیل داده ها دارای چندین جنبه و رویکرد است که تکنیک های متنوعی را تحت نام های مختلفی شامل می کند و در حوزه های مختلف تجاری ، علمی و علوم اجتماعی مورد استفاده قرار می گیرد. در دنیای تجارت امروز ، تجزیه و تحلیل داده ها در تصمیم گیری علمی تر و کمک به مشاغل موثرتر عمل می کند.

داده کاوی (Data Mining) یک تکنیک تجزیه و تحلیل داده خاص است که در مدل سازی آماری و کشف دانش برای اهداف پیش بینی و نه صرفاً توصیفی تمرکز دارد ، در حالی که هوش تجاری تجزیه و تحلیل داده ها را که به شدت به تجمیع متکی است ، متمرکز می کند و عمدتا بر اطلاعات تجاری متمرکز است. در برنامه های آماری ، تجزیه و تحلیل داده ها را می توان به آمار توصیفی ، تجزیه و تحلیل داده های اکتشافی (EDA) و تجزیه و تحلیل داده های تأییدی (CDA) تقسیم کرد. EDA در کشف ویژگیهای جدید در داده ها متمرکز است در حالی که CDA بر تأیید یا جعل فرضیه های موجود تمرکز دارد. تجزیه و تحلیل پیش بینی تمرکز بر استفاده از مدل های آماری برای پیش بینی پیش بینی یا طبقه بندی ، در حالی که تجزیه و تحلیل متن از تکنیک های آماری ، زبانی و ساختاری برای استخراج و طبقه بندی اطلاعات از منابع متنی ، گونه ای از داده های غیرساختار استفاده می کند. همه موارد فوق انواع مختلفی از تجزیه و تحلیل داده ها است.

روند تجزیه و تحلیل داده کاوی ها

تحلیل به شکستن یک کل در اجزای جداگانه آن برای معاینه فردی اشاره دارد. تجزیه و تحلیل داده ها فرآیندی برای بدست آوردن داده های خام و تبدیل آن به اطلاعات مفید برای تصمیم گیری توسط کاربران است. داده ها برای پاسخ به سؤالات ، آزمون فرضیه ها یا تئوری های رد شده جمع آوری و تجزیه و تحلیل می شوند.

آماریست جان توکی تجزیه و تحلیل داده ها را در سال 1961 تعریف کرده است: “روشهای تجزیه و تحلیل داده ها ، تکنیک های تفسیر نتایج اینگونه روشها ، روشهای برنامه ریزی جمع آوری داده ها برای آسان تر ، دقیق تر یا دقیق تر تجزیه و تحلیل آن و کلیه ماشین آلات و نتایج. آمار (ریاضی) آماری که برای تجزیه و تحلیل داده ها اعمال می شود.

داده کاوی (Data Mining)

الزامات داده

داده کاوی (Data Mining) ها به عنوان ورودی هایی به تجزیه و تحلیل ، که بر اساس نیاز افراد مراجعه کننده به تجزیه و تحلیل یا مشتریان (که از محصول نهایی تجزیه و تحلیل استفاده می کنند) لازم هستند. از نوع کلی موجودیتی که داده های آن جمع آوری می شود ، به یک واحد آزمایش (مثلاً یک شخص یا جمعیت افراد) گفته می شود. متغیرهای خاص مربوط به یک جمعیت (به عنوان مثال ، سن و درآمد) ممکن است مشخص و به دست آمده باشد. داده ها ممکن است عددی یا دسته ای باشند (یعنی یک برچسب متنی برای اعداد).

جمع آوری داده کاوی ها

داده کاوی ها از منابع مختلفی جمع آوری می شوند. این الزامات ممکن است توسط تحلیلگران به متولیان داده ها ، مانند پرسنل فناوری اطلاعات در یک سازمان ، ابلاغ شود. داده ها همچنین ممکن است از حسگرهای موجود در محیط ، مانند دوربین های راهنمایی و رانندگی ، ماهواره ها ، دستگاه های ضبط و غیره جمع آوری شود.

پردازش داده کاوی (Data Mining) ها

داده کاوی های بدست آمده ابتدا باید برای تجزیه و تحلیل پردازش یا سازماندهی شوند. به عنوان مثال ، اینها ممکن است شامل قرار دادن داده ها در ردیف ها و ستون ها در قالب جدول (به عنوان مثال داده های ساختاری) برای تجزیه و تحلیل بیشتر ، مانند یک صفحه گسترده یا نرم افزار آماری باشد.

تمیز کردن داده کاوی ها

پس از پردازش و سازماندهی ، داده کاوی ها ممکن است ناقص ، حاوی نسخه های تکراری یا حاوی خطا باشند. نیاز به تمیز کردن داده ها از نظر نحوه ورود و ذخیره داده ها از مشکلات ناشی می شود. تمیز کردن داده ها فرایند جلوگیری و تصحیح این خطاها است. وظایف متداول شامل تطابق سوابق ، شناسایی نادرستی داده ها ، كیفیت كلی داده های موجود ، كاهش و تقسیم ستون است. چنین مشکلات داده ای همچنین می تواند از طریق انواع تکنیک های تحلیلی شناسایی شود. برای مثال ، با اطلاعات مالی ، ممکن است مبلغ متغیرهای خاص در مقایسه با اعداد منتشر شده جداگانه که معتقد به اطمینان هستند ، مقایسه شود. مقادیر غیر معمول در بالا یا زیر آستانه های از پیش تعیین شده نیز ممکن است بررسی شود. چندین نوع نظافت داده وجود دارد که به نوع داده مانند شماره تلفن ، آدرس ایمیل ، کارفرمایان و غیره بستگی دارد که می توانید برای خلاص شدن از شر داده های نادرست وارد شده از روش های داده کمی استفاده کنید. از چکرهای طلسم داده های متنی می توان برای کم کردن مقدار کلمات اشتباه استفاده کرد ، اما سخت تر است که بگوییم آیا خود این کلمات صحیح هستند.

محصول داده

محصول داده ها یک برنامه کامپیوتری است که ورودی داده ها را تولید می کند و خروجی ها را تولید می کند و آنها را به محیط باز می گرداند. این ممکن است بر اساس یک مدل یا الگوریتم باشد. مثال برنامه ای است که داده های مربوط به تاریخ خرید مشتری را تجزیه و تحلیل می کند و خریدهای دیگری را که مشتری ممکن است از آن برخوردار باشد توصیه می کند.

ارتباطات

پس از تجزیه و تحلیل داده ها ، ممکن است در بسیاری از قالب ها به کاربران آنالیز گزارش داده شود تا نیازهای آنها را پشتیبانی کند. کاربران ممکن است بازخورد داشته باشند ، که منجر به تجزیه و تحلیل اضافی می شود. به همین ترتیب ، بخش اعظم چرخه تحلیلی تکراری است. در هنگام تعیین چگونگی برقراری ارتباط نتایج ، تحلیلگر ممکن است تکنیک های تجسم داده ها را برای کمک به شفاف و کارآمد پیام به مخاطب در نظر بگیرد. تجسم اطلاعات از نمایشگرهای اطلاعاتی (مانند جداول و نمودارها) برای ارتباط پیامهای کلیدی موجود در داده ها استفاده می کند. جداول برای کاربر مفید است که ممکن است شماره های خاص را جستجو کند ، در حالی که نمودارها (به عنوان مثال ، نمودارهای نوار یا نمودارهای خط) ممکن است به توضیح پیام های کمی موجود در داده ها کمک کند.

داده کاوی (Data Mining)

پیام های کمی

استفان فو هشت نوع پیام کمی را توصیف کرد که ممکن است کاربران برای درک یا برقراری ارتباط از مجموعه داده ها و نمودارهای مرتبط استفاده شده برای کمک به برقراری پیام بکار روند. مشتریانی که الزامات را مشخص می کنند و تحلیلگرانی که تجزیه و تحلیل داده ها را انجام می دهند ممکن است این پیام ها را در طی فرایند در نظر بگیرند.

سریال زمانی: یک متغیر واحد در یک بازه زمانی ضبط می شود ، مانند نرخ بیکاری طی یک دوره 10 ساله. یک نمودار خط ممکن است برای نشان دادن روند استفاده شود.

رتبه بندی: زیرمجموعه های دسته بندی به ترتیب صعودی یا نزولی مانند رتبه بندی عملکرد فروش (اندازه گیری) توسط اشخاص فروش (دسته بندی ، با هر شخص فروش زیرمجموعه ای دسته بندی می شوند) در طی یک دوره واحد رتبه بندی می شوند. یک نمودار بار ممکن است برای نشان دادن مقایسه در بین افراد فروش استفاده شود.

بخش به کل: زیرمجموعه های طبقه بندی شده به عنوان نسبت به کل اندازه گیری می شوند (یعنی درصد از 100٪). نمودار پای یا نمودار بار می تواند مقایسه نسبت ها را نشان دهد ، از جمله سهم بازار که توسط رقبا در یک بازار نشان داده می شود.

بیشتر بدانید : شیرپوینت چیست؟

تکنیک های تجزیه و تحلیل داده های کمی

قبل از انجام تحلیل ، داده کاوی (Data Mining) های خام را برای ناهنجاری ها بررسی کنید.

دوباره محاسبات مهم را انجام دهید ، مانند تأیید ستون داده هایی که دارای فرمول هستند.

تعداد کل زیرمجموعه ها را تأیید کنید.

روابط بین اعدادی را که باید به روشی قابل پیش بینی در ارتباط باشند ، مانند نسبت ها در طول زمان ، بررسی کنید.

عادی کردن عدد برای مقایسه آسان تر ، مانند تجزیه و تحلیل مقادیر در هر فرد یا نسبت به تولید ناخالص داخلی یا به عنوان یک مقدار شاخص نسبت به یک سال پایه.

تجزیه و تحلیل مشکلات به قطعات اجزای با تجزیه و تحلیل عوامل منجر به نتایج ، از جمله تجزیه و تحلیل DuPont از بازگشت سرمایه.

برای متغیرهای مورد بررسی ، تحلیلگران به طور معمول آمار توصیفی را برای آنها از جمله میانگین (میانگین) ، میانگین و انحراف معیار به دست می آورند. آنها همچنین ممکن است توزیع متغیرهای کلیدی را تجزیه و تحلیل کنند تا ببینند که چگونه ارزشهای فردی در اطراف میانگین جمع می شوند.

موانع تجزیه و تحلیل موثر

موانعی برای تحلیل مؤثر ممکن است در بین تحلیلگرانی که تجزیه و تحلیل داده ها را انجام می دهند یا در بین مخاطبان وجود دارد. تشخیص واقعیت از نظر ، سوگیری های شناختی و بی شماری همه چالش های تحلیل داده های صدا است.

واقعیت و عقیده گیج کننده است

تجزیه و تحلیل کارآمد نیاز به به دست آوردن حقایق مربوطه برای پاسخ به سؤالات ، حمایت از نتیجه گیری یا نظر رسمی یا آزمون فرضیات دارد. واقعیت ها به صورت تعریف غیرقابل انکار هستند ، به این معنی که هر شخصی که درگیر تجزیه و تحلیل است باید بتواند درباره آنها موافقت کند. به عنوان مثال ، در آگوست 2010 ، دفتر بودجه کنگره (CBO) تخمین زد که تمدید کاهش مالیات بوش در سال 2001 و 2003 برای دوره زمانی 2011-2020 می تواند تقریبا 3.3 تریلیون دلار به بدهی ملی اضافه کند. همه باید بتوانند قبول کنند که در واقع این همان چیزی است که CBO گزارش داده است. همه آنها می توانند گزارش را بررسی کنند. این امر یک واقعیت است. اینکه افراد با CBO موافق یا مخالف باشند ، نظر خودشان است.

سوگیری های شناختی

انواع مختلفی از سوگیری های شناختی وجود دارد که می تواند بر تحلیل اثر منفی بگذارد. به عنوان مثال ، تعصب تأیید ، تمایل به جستجو یا تفسیر اطلاعات به روشی است که پیشگفتارهای شخص را تأیید می کند. علاوه بر این ، افراد ممکن است اطلاعاتی را که از نظرات آنها پشتیبانی نمی کند ، بی اعتبار کنند.

بی مهری

تحلیلگران مؤثر معمولاً با انواع تکنیکهای عددی مهارت دارند. با این وجود ، مخاطبان ممکن است از این سواد با شماره یا عددی برخوردار نباشند. گفته می شود آنها ذاتی هستند. افراد ارتباطی با داده ها همچنین ممکن است اقدام به گمراهی یا سوء اطلاعاتی کنند ، به عمد با استفاده از تکنیک های عددی بد.

به عنوان مثال ، افزایش یا سقوط یک عدد ممکن است عامل اصلی نباشد. مهم تر این است که تعداد نسبت به تعداد دیگری مانند اندازه درآمد دولت یا هزینه های مربوط به اندازه اقتصاد (تولید ناخالص داخلی) یا میزان هزینه نسبت به درآمد در صورت های مالی شرکت ها باشد. این تکنیک عددی به عادی سازی یا اندازه گیری معمول گفته می شود. بسیاری از تکنیک های مورد استفاده تحلیلگران ، اعم از تعدیل تورم (یعنی مقایسه داده کاوی (Data Mining) های واقعی در مقابل اسمی) یا در نظر گرفتن افزایش جمعیت ، جمعیتی و غیره. تحلیلگران روش های مختلفی را برای پرداختن به پیام های کمی مختلف متناسب با بخش فوق به کار می گیرند.

داده کاوی (Data Mining)

مباحث دیگر

ساختمان های هوشمند

برای پیش بینی مصرف انرژی انرژی در ساختمانها می توان از روش تحلیلی داده کاوی (Data Mining) استفاده کرد. مراحل مختلف فرایند تجزیه و تحلیل داده کاوی ها به منظور تحقق ساختمان های هوشمند انجام می شود ، جایی که عملیات مدیریت و کنترل ساختمان از جمله گرمایشی ، تهویه ، تهویه مطبوع ، روشنایی و امنیت با تقلید از نیاز کاربران ساختمان و بهینه سازی منابع به صورت خودکار محقق می شود.

تجزیه و تحلیل و هوش تجاری

Analytics عبارت است از “استفاده گسترده از داده ها ، تجزیه و تحلیل آماری و کمی ، مدل های توضیحی و پیش بینی و مدیریت مبتنی بر واقعیت برای هدایت تصمیم ها و اقدامات.” این زیر مجموعه ای از هوش تجاری است ، این مجموعه ای از فناوری ها و فرایندهایی است که از داده ها برای درک و تجزیه و تحلیل عملکرد کسب و کار استفاده می کنند.

تجزیه و تحلیل داده های اولیه

مهمترین وجه تمایز بین مرحله تجزیه و تحلیل داده کاوی (Data Mining) های اولیه و فاز اصلی تجزیه و تحلیل ، این است که در طول تجزیه و تحلیل داده کاوی های اولیه فرد از هرگونه تحلیل که با هدف پاسخ به سوال اصلی تحقیق استفاده می شود ، خودداری می کند. مرحله تجزیه و تحلیل داده کاوی های اولیه توسط چهار سؤال زیر هدایت می شود:

کیفیت داده کاوی ها

کیفیت داده کاوی (Data Mining) باید در اسرع وقت بررسی شود. كيفيت داده ها از طريق مختلفي قابل ارزيابي است و با استفاده از انواع مختلف آناليز مي شود: شمارش فراواني ، آمار توصيفي (ميانگين ، انحراف معيار ، ميانه) ، نرمال بودن (ناخوشايندي ، كورتوز ، هيستوگرام هاي فرکانس) ، n: متغيرها با برنامه نویسی متغیرهای خارجی مقایسه می شوند. با مجموعه داده ها ، و احتمالاً اگر طرح های کدگذاری قابل مقایسه نباشند اصلاح شده اند.

کیفیت اندازه گیری

كیفیت ابزارهای اندازه گیری فقط باید در مرحله تحلیل داده های اولیه بررسی شوند كه این موضوع تمركز یا سوال تحقیق نیست. باید بررسی کرد که آیا ساختار ابزارهای اندازه گیری با ساختار گزارش شده در ادبیات مطابقت دارد یا خیر.

دو روش برای ارزیابی اندازه گیری وجود دارد:

تجزیه و تحلیل همگن (سازگاری درونی) ، که نشانگر قابلیت اطمینان یک ابزار اندازه گیری است. در طی این تجزیه و تحلیل ، واریانس اقلام و مقیاسها ، α مقیاس کرونباخ و تغییر در آلفای کرونباخ هنگام حذف یک آیتم از مقیاس بررسی می شود.

تحولات اولیه

پس از ارزیابی کیفیت داده ها و اندازه گیری ها ، ممکن است فرد تصمیم بگیرد داده های مفقود شده را وارد کند یا تحولات اولیه یک یا چند متغیر را انجام دهد ، اگرچه این کار همچنین می تواند در مرحله اصلی تحلیل انجام شود.

  • تحولات احتمالی متغیرها عبارتند از:
  • تحول ریشه مربع (اگر توزیع نسبتاً نسبت به حالت طبیعی متفاوت باشد)
  • ورود به سیستم (اگر توزیع به میزان قابل توجهی از حالت عادی متفاوت باشد)
  • تحول معکوس (اگر توزیع بسیار متفاوت از حالت عادی باشد)

موضوعی (نظم / دوگانگی) قرار دهید (اگر توزیع بسیار متفاوت از حالت عادی باشد و هیچ تغییری به شما کمک نمی کند)

داده کاوی (Data Mining)

سایر تحریف های احتمالی داده شده که باید بررسی شوند عبارتند از:

  • ترک تحصیل (این باید در مرحله تحلیل داده های اولیه مشخص شود)
  • عدم پاسخ به مورد (این که آیا این تصادفی است یا نه باید در مرحله تحلیل داده های اولیه ارزیابی شود)
  • کیفیت درمان (با استفاده از چک های دستکاری).
  • مشخصات نمونه داده ها

در هر گزارش یا مقاله ، ساختار نمونه باید به طور دقیق توصیف شود. تعیین دقیق ساختار نمونه (و مشخصاً اندازه زیرگروهها) در صورت انجام تجزیه و تحلیلهای زیر گروه در مرحله اصلی تحلیل ، بسیار مهم است.

ویژگی های نمونه داده ها را می توان با نگاه کردن به:

  • آمار پایه متغیرهای مهم
  • توطئه های پراکنده
  • همبستگی ها و انجمن ها
  • جدول بندی های متقاطع
  • مرحله نهایی تجزیه و تحلیل داده های اولیه

در مرحله آخر ، یافته های تحلیل داده های اولیه مستند شده و اقدامات لازم ، ترجیحی و اقدامات اصلاحی احتمالی انجام می شود.

همچنین ، طرح اصلی برای تجزیه و تحلیل داده های اصلی می تواند و باید با جزئیات بیشتر یا بازنویسی شده باشد.

تحلیل و بررسی

چندین تجزیه و تحلیل می تواند در مرحله تحلیل داده های اولیه استفاده شود:

آمار تک متغیره (تک متغیر)

انجمنهای دوتایی (همبستگی)

تکنیک های گرافیکی (توطئه های پراکندگی)

در نظر گرفتن سطوح اندازه گیری متغیرها برای تجزیه و تحلیلها بسیار مهم است ، زیرا تکنیکهای آماری ویژه برای هر سطح در دسترس است:

متغیرهای اسمی و ترتیبی

شمارش فرکانس (تعداد و درصد)

آنالیز غیرخطی

تجزیه و تحلیل غیرخطی غالباً هنگام ثبت اطلاعات از یک سیستم غیرخطی ضروری است. سیستم های غیرخطی می توانند جلوه های پویا پیچیده ای از جمله bifurcations ، آشوب ، هارمونیک ها و subharmonics را که با استفاده از روش های ساده خطی قابل تجزیه و تحلیل نیستند ، به نمایش بگذارند. تجزیه و تحلیل داده های غیرخطی ارتباط نزدیکی با شناسایی سیستم غیرخطی دارد.

تجزیه و تحلیل داده های اصلی

در مرحله اصلی تحلیل ، تجزیه و تحلیل با هدف پاسخ به سؤال تحقیق و همچنین هرگونه تحلیل مرتبط دیگر که برای نوشتن اولین پیش نویس گزارش تحقیق لازم است ، انجام شده است.

رویکردهای اکتشافی و تأییدی

در مرحله اصلی تجزیه و تحلیل یا یک رویکرد اکتشافی یا تأیید پذیر پذیرفته می شود. معمولاً رویکرد قبل از جمع آوری داده ها تصمیم گیری می شود. در تجزیه و تحلیل اکتشافی ، هیچ فرضیه روشنی قبل از تجزیه و تحلیل داده ها بیان نشده است ، و داده ها برای مدل هایی جستجو می شوند که داده ها را به خوبی توصیف می کنند. در یک تحلیل تأییدیه فرضیه های واضح در مورد داده ها آزمایش شده است.

تجزیه و تحلیل داده های اکتشافی باید با دقت تفسیر شود. هنگام آزمایش چندین مدل به طور هم زمان ، شانس بالایی در یافتن حداقل یکی از آنها وجود دارد ، اما این می تواند به دلیل خطای نوع 1 باشد. مهم است که همیشه هنگام آزمایش چندین مدل با مثلا اصلاح Bonferroni ، سطح اهمیت را تنظیم کنید. همچنین ، نباید یک تحلیل اکتشافی با یک تحلیل تأیید کننده در همان مجموعه داده پیگیری کرد. تجزیه و تحلیل اکتشافی برای یافتن ایده هایی برای یک تئوری استفاده می شود ، اما نه برای آزمایش این تئوری نیز. وقتی یک مدل در یک مجموعه داده اکتشافی یافت می شود ، پس از آن پیگیری آنالیز با تأیید تأیید در همان مجموعه داده می تواند به این معنی باشد که نتایج حاصل از تحلیل تأیید کننده به دلیل همان خطای نوع 1 است که در مدل اول اکتشافی حاصل شد. محل. بنابراین ، تحلیل تأیید آمیزتر از تحلیل اکتشافی اصلی آموزنده نخواهد بود.

ثبات نتایج

کسب نشانه هایی در مورد چگونگی تعمیم نتایج مهم است. اگرچه این بررسی اغلب دشوار است ، می توان به ثبات نتایج نگاه کرد. آیا نتایج قابل اعتماد و قابل تکرار هستند؟ دو روش اصلی برای انجام این کار وجود دارد. اعتبار سنجی متقابل. با تقسیم داده ها به بخش های مختلف ، می توانیم بررسی کنیم که آیا تجزیه و تحلیل (مانند یک مدل مناسب) بر اساس یک قسمت از داده ها ، به بخش دیگری از داده ها نیز تعمیم می یابد یا خیر. اعتبار سنجی متقابل معمولاً نامناسب است ، اگر ، اگر همبستگی هایی در داده ها وجود داشته باشد ، به عنوان مثال. با داده های پانل از این رو بعضی از روش های اعتبار سنجی گاهی نیاز به استفاده دارندتجزیه و تحلیل میزان حساسیت. روشی برای مطالعه رفتار یک سیستم یا مدل وقتی پارامترهای جهانی (به طور سیستماتیک) متفاوت هستند. یکی از راه های انجام این کار از طریق راه اندازی مجدد است.