داده کاوی چیست؟

تجزیه و تحلیل داده کاوی (Data Mining) ها فرایندی برای بازرسی ، پاکسازی ، تبدیل و مدل سازی داده ها با هدف کشف اطلاعات مفید ، اطلاع رسانی در مورد نتیجه گیری و حمایت از تصمیم گیری است. تجزیه و تحلیل داده ها دارای چندین جنبه و رویکرد است که تکنیک های متنوعی را تحت نام های مختلفی شامل می کند و در حوزه های مختلف تجاری ، علمی و علوم اجتماعی مورد استفاده قرار می گیرد. در دنیای تجارت امروز ، تجزیه و تحلیل داده ها در تصمیم گیری علمی تر و کمک به مشاغل موثرتر عمل می کند.

داده کاوی (Data Mining) یک تکنیک تجزیه و تحلیل داده خاص است که در مدل سازی آماری و کشف دانش برای اهداف پیش بینی و نه صرفاً توصیفی تمرکز دارد ، در حالی که هوش تجاری تجزیه و تحلیل داده ها را که به شدت به تجمیع متکی است ، متمرکز می کند و عمدتا بر اطلاعات تجاری متمرکز است. در برنامه های آماری ، تجزیه و تحلیل داده ها را می توان به آمار توصیفی ، تجزیه و تحلیل داده های اکتشافی (EDA) و تجزیه و تحلیل داده های تأییدی (CDA) تقسیم کرد. EDA در کشف ویژگی های جدید در داده ها متمرکز است در حالی که CDA بر تأیید یا جعل فرضیه های موجود تمرکز دارد. تجزیه و تحلیل پیش بینی تمرکز بر استفاده از مدل های آماری برای پیش بینی پیش بینی یا طبقه بندی ، در حالی که تجزیه و تحلیل متن از تکنیک های آماری ، زبانی و ساختاری برای استخراج و طبقه بندی اطلاعات از منابع متنی ، گونه ای از داده های غیرساختار استفاده می کند. همه موارد فوق انواع مختلفی از تجزیه و تحلیل داده ها است.

روند تجزیه و تحلیل داده کاوی ها

تحلیل به شکستن یک کل در اجزای جداگانه آن برای معاینه فردی اشاره دارد. تجزیه و تحلیل داده ها فرآیندی برای بدست آوردن داده های خام و تبدیل آن به اطلاعات مفید برای تصمیم گیری توسط کاربران است. داده ها برای پاسخ به سؤالات ، آزمون فرضیه ها یا تئوری های رد شده جمع آوری و تجزیه و تحلیل می شوند.

آماریست جان توکی تجزیه و تحلیل داده ها را در سال 1961 تعریف کرده است: “روش های تجزیه و تحلیل داده ها ، تکنیک های تفسیر نتایج اینگونه روش ها ، روش های برنامه ریزی جمع آوری داده ها برای آسان تر ، دقیق تر یا دقیق تر تجزیه و تحلیل آن و کلیه ماشین آلات و نتایج. آمار (ریاضی) آماری که برای تجزیه و تحلیل داده ها اعمال می شود.

داده کاوی (Data Mining)

روند تجزیه و تحلیل داده کاوی ها

تحلیل به شکستن یک کل در اجزای جداگانه آن برای معاینه فردی اشاره دارد. تجزیه و تحلیل داده ها فرآیندی برای بدست آوردن داده های خام و تبدیل آن به اطلاعات مفید برای تصمیم گیری توسط کاربران است. داده ها برای پاسخ به سؤالات ، آزمون فرضیه ها یا تئوری های رد شده جمع آوری و تجزیه و تحلیل می شوند.

آماریست جان توکی تجزیه و تحلیل داده ها را در سال 1961 تعریف کرده است: “روش های تجزیه و تحلیل داده ها ، تکنیک های تفسیر نتایج اینگونه روش ها ، روش های برنامه ریزی جمع آوری داده ها برای آسان تر ، دقیق تر یا دقیق تر تجزیه و تحلیل آن و کلیه ماشین آلات و نتایج. آمار (ریاضی) آماری که برای تجزیه و تحلیل داده ها اعمال می شود.

الزامات داده

داده کاوی (Data Mining) ها به عنوان ورودی هایی به تجزیه و تحلیل ، که بر اساس نیاز افراد مراجعه کننده به تجزیه و تحلیل یا مشتریان (که از محصول نهایی تجزیه و تحلیل استفاده می کنند) لازم هستند. از نوع کلی موجودیتی که داده های آن جمع آوری می شود ، به یک واحد آزمایش (مثلاً یک شخص یا جمعیت افراد) گفته می شود. متغیرهای خاص مربوط به یک جمعیت (به عنوان مثال ، سن و درآمد) ممکن است مشخص و به دست آمده باشد. داده ها ممکن است عددی یا دسته ای باشند (یعنی یک برچسب متنی برای اعداد). (برای اینکه با ارتباط بین هوش تجاری و داده کاوی آشنا بشی پیشنهاد میکنم مقاله هوش تجاری در مقابل داده کاوی را مطالعه کنی.)

جمع آوری داده کاوی ها

داده کاوی ها از منابع مختلفی جمع آوری می شوند. این الزامات ممکن است توسط تحلیلگران به متولیان داده ها ، مانند پرسنل فناوری اطلاعات در یک سازمان ، ابلاغ شود. داده ها همچنین ممکن است از حسگرهای موجود در محیط ، مانند دوربین های راهنمایی و رانندگی ، ماهواره ها ، دستگاه های ضبط و غیره جمع آوری شود.

پردازش داده کاوی (Data Mining) ها

داده کاوی های بدست آمده ابتدا باید برای تجزیه و تحلیل پردازش یا سازماندهی شوند. به عنوان مثال ، این ها ممکن است شامل قرار دادن داده ها در ردیف ها و ستون ها در قالب جدول (به عنوان مثال داده های ساختاری) برای تجزیه و تحلیل بیشتر ، مانند یک صفحه گسترده یا نرم افزار آماری باشد.

داده کاوی (Data Mining)

تمیز کردن داده کاوی ها

پس از پردازش و سازماندهی ، داده کاوی ها ممکن است ناقص ، حاوی نسخه های تکراری یا حاوی خطا باشند. نیاز به تمیز کردن داده ها از نظر نحوه ورود و ذخیره داده ها از مشکلات ناشی می شود. تمیز کردن داده ها فرایند جلوگیری و تصحیح این خطاها است. وظایف متداول شامل تطابق سوابق ، شناسایی نادرستی داده ها ، کیفیت کلی داده های موجود ، کاهش و تقسیم ستون است. چنین مشکلات داده ای همچنین می تواند از طریق انواع تکنیک های تحلیلی شناسایی شود. برای مثال ، با اطلاعات مالی ، ممکن است مبلغ متغیرهای خاص در مقایسه با اعداد منتشر شده جداگانه که معتقد به اطمینان هستند ، مقایسه شود. مقادیر غیر معمول در بالا یا زیر آستانه های از پیش تعیین شده نیز ممکن است بررسی شود. چندین نوع نظافت داده وجود دارد که به نوع داده مانند شماره تلفن ، آدرس ایمیل ، کارفرمایان و غیره بستگی دارد که می توانید برای خلاص شدن از شر داده های نادرست وارد شده از روش های داده کمی استفاده کنید. از چکرهای طلسم داده های متنی می توان برای کم کردن مقدار کلمات اشتباه استفاده کرد ، اما سخت تر است که بگوییم آیا خود این کلمات صحیح هستند.

محصول داده

محصول داده ها یک برنامه کامپیوتری است که ورودی داده ها را تولید می کند و خروجی ها را تولید می کند و آنها را به محیط باز می گرداند. این ممکن است بر اساس یک مدل یا الگوریتم باشد. مثال برنامه ای است که داده های مربوط به تاریخ خرید مشتری را تجزیه و تحلیل می کند و خریدهای دیگری را که مشتری ممکن است از آن برخوردار باشد توصیه می کند.

ارتباطات

پس از تجزیه و تحلیل داده ها ، ممکن است در بسیاری از قالب ها به کاربران آنالیز گزارش داده شود تا نیازهای آنها را پشتیبانی کند. کاربران ممکن است بازخورد داشته باشند ، که منجر به تجزیه و تحلیل اضافی می شود. به همین ترتیب ، بخش اعظم چرخه تحلیلی تکراری است. در هنگام تعیین چگونگی برقراری ارتباط نتایج ، تحلیلگر ممکن است تکنیک های تجسم داده ها را برای کمک به شفاف و کارآمد پیام به مخاطب در نظر بگیرد. تجسم اطلاعات از نمایشگرهای اطلاعاتی (مانند جداول و نمودارها) برای ارتباط پیام های کلیدی موجود در داده ها استفاده می کند. جداول برای کاربر مفید است که ممکن است شماره های خاص را جستجو کند ، در حالی که نمودارها (به عنوان مثال ، نمودارهای نوار یا نمودارهای خط) ممکن است به توضیح پیام های کمی موجود در داده ها کمک کند.

داده کاوی (Data Mining)

پیام های کمی

استفان فو هشت نوع پیام کمی را توصیف کرد که ممکن است کاربران برای درک یا برقراری ارتباط از مجموعه داده ها و نمودارهای مرتبط استفاده شده برای کمک به برقراری پیام بکار روند. مشتریانی که الزامات را مشخص می کنند و تحلیلگرانی که تجزیه و تحلیل داده ها را انجام می دهند ممکن است این پیام ها را در طی فرایند در نظر بگیرند.

یک متغیر واحد در یک بازه زمانی ضبط می شود ، مانند نرخ بیکاری طی یک دوره 10 ساله. یک نمودار خط ممکن است برای نشان دادن روند استفاده شود.

زیرمجموعه های دسته بندی به ترتیب صعودی یا نزولی مانند رتبه بندی عملکرد فروش (اندازه گیری) توسط اشخاص فروش (دسته بندی ، با هر شخص فروش زیرمجموعه ای دسته بندی می شوند) در طی یک دوره واحد رتبه بندی می شوند. یک نمودار بار ممکن است برای نشان دادن مقایسه در بین افراد فروش استفاده شود.

 زیرمجموعه های طبقه بندی شده به عنوان نسبت به کل اندازه گیری می شوند (یعنی درصد از 100٪). نمودار پای یا نمودار بار می تواند مقایسه نسبت ها را نشان دهد ، از جمله سهم بازار که توسط رقبا در یک بازار نشان داده می شود.

تکنیک های تجزیه و تحلیل داده های کمی

قبل از انجام تحلیل ، داده کاوی (Data Mining) های خام را برای ناهنجاری ها بررسی کنید.

دوباره محاسبات مهم را انجام دهید ، مانند تأیید ستون داده هایی که دارای فرمول هستند.

تعداد کل زیرمجموعه ها را تأیید کنید.

روابط بین اعدادی را که باید به روشی قابل پیش بینی در ارتباط باشند ، مانند نسبت ها در طول زمان ، بررسی کنید.

عادی کردن عدد برای مقایسه آسان تر ، مانند تجزیه و تحلیل مقادیر در هر فرد یا نسبت به تولید ناخالص داخلی یا به عنوان یک مقدار شاخص نسبت به یک سال پایه.

تجزیه و تحلیل مشکلات به قطعات اجزای با تجزیه و تحلیل عوامل منجر به نتایج ، از جمله تجزیه و تحلیل DuPont از بازگشت سرمایه.

برای متغیرهای مورد بررسی ، تحلیلگران به طور معمول آمار توصیفی را برای  آنها از جمله میانگین (میانگین) ، میانگین و انحراف معیار به دست می آورند. آنها همچنین ممکن است توزیع متغیرهای کلیدی را تجزیه و تحلیل کنند تا ببینند که چگونه ارزش های فردی در اطراف میانگین جمع می شوند.

موانع تجزیه و تحلیل موثر

موانعی برای تحلیل مؤثر ممکن است در بین تحلیلگرانی که تجزیه و تحلیل داده ها را انجام می دهند یا در بین مخاطبان وجود دارد. تشخیص واقعیت از نظر، سوگیری های شناختی و بی شماری همه چالش های تحلیل داده های صدا است.

واقعیت و عقیده گیج کننده است

تجزیه و تحلیل کارآمد نیاز به به دست آوردن حقایق مربوطه برای پاسخ به سؤالات ، حمایت از نتیجه گیری یا نظر رسمی یا آزمون فرضیات دارد. واقعیت ها به صورت تعریف غیرقابل انکار هستند ، به این معنی که هر شخصی که درگیر تجزیه و تحلیل است باید بتواند درباره آنها موافقت کند. به عنوان مثال ، در آگوست 2010 ، دفتر بودجه کنگره (CBO) تخمین زد که تمدید کاهش مالیات بوش در سال 2001 و 2003 برای دوره زمانی 2011-2020 می تواند تقریبا 3.3 تریلیون دلار به بدهی ملی اضافه کند. همه باید بتوانند قبول کنند که در واقع این همان چیزی است که CBO گزارش داده است. همه آنها می توانند گزارش را بررسی کنند. این امر یک واقعیت است. اینکه افراد با CBO موافق یا مخالف باشند ، نظر خودشان است.

سوگیری های شناختی

انواع مختلفی از سوگیری های شناختی وجود دارد که می تواند بر تحلیل اثر منفی بگذارد. به عنوان مثال ، تعصب تأیید ، تمایل به جستجو یا تفسیر اطلاعات به روشی است که پیشگفتارهای شخص را تأیید می کند. علاوه بر این ، افراد ممکن است اطلاعاتی را که از نظرات آنها پشتیبانی نمی کند ، بی اعتبار کنند.

بی مهری

تحلیلگران مؤثر معمولاً با انواع تکنیک های عددی مهارت دارند. با این وجود ، مخاطبان ممکن است از این سواد با شماره یا عددی برخوردار نباشند. گفته می شود آن ها ذاتی هستند. افراد ارتباطی با داده ها همچنین ممکن است اقدام به گمراهی یا سوء اطلاعاتی کنند ، به عمد با استفاده از تکنیک های عددی بد.

به عنوان مثال ، افزایش یا سقوط یک عدد ممکن است عامل اصلی نباشد. مهم تر این است که تعداد نسبت به تعداد دیگری مانند اندازه درآمد دولت یا هزینه های مربوط به اندازه اقتصاد (تولید ناخالص داخلی) یا میزان هزینه نسبت به درآمد در صورت های مالی شرکت ها باشد. این تکنیک عددی به عادی سازی یا اندازه گیری معمول گفته می شود. بسیاری از تکنیک های مورد استفاده تحلیلگران ، اعم از تعدیل تورم (یعنی مقایسه داده کاوی (Data Mining) های واقعی در مقابل اسمی) یا در نظر گرفتن افزایش جمعیت ، جمعیتی و غیره. تحلیلگران روش های مختلفی را برای پرداختن به پیام های کمی مختلف متناسب با بخش فوق به کار می گیرند.

داده کاوی (Data Mining)

دوره های مرتبط

دوره کامل تضمینی هوش تجاری با رویکرد کسب درآمد در داخل و خارج از کشور

 

آنالیز داده و هوش تجاری یکی از پردرآمدهای شغل های دنیا چه در داخل کشور و چه خارج از کشور است. ما در دوره آموزشی  صفر تا صد هوش تجاری را به صورت تضمینی آموزش میدهیم.

آموزش ویدیویی هوش تجاری در SQL

 

شما در این دوره آموزشی (آموزش ویدیویی هوش تجاری در SQL) با مفاهیم و اصول هوش تجاری در SQL آشنا می شوید.

دوره کامل مقدماتی آموزش هوش تجاری

 

به صورت تئوری مفاهیم و مبانی ساخت انباره داده را فرا می گیرید و دو نمونه را پیاده سازی و استفاده می کنید.

دوره آموزش SSIS یا سرویس یکپارچه ساز ماکروسافت

 

دوره غیر حضوری SSIS شامل آموزش کامل تمامی مباحث ای تی ال (ETL ) داده ها به صورت کاملا عملی در محیط عملیاتی و مطابق با تکنولوژی های روز دنیا