داده پرت چیست؟ #
یک داده پرت (Outlier)، نقطه ایست که با فاصله زیادی از سایر نقاط قرار دارد یا به عبارت دیگر با اکثر داده ها متفاوت است.
بیشتر مواقع، داده پرت یا از شرایط استثنایی یا از خطای اندازه گیری منتج می شود. به عبارت دیگر، داده های پرت اغلب نتیجه خطا در داده ها مانند مخلوط کردن داده هایی با واحد های مختلف (کیلومتر و متر) و یا بد خواندن از یک حس گر است.
وجود داده های پرت در داده ها موجب می شود میانگین به طور ضعیف تخمین زده شود، اما میانه هنوز معتبر است. در هر صورت، داده های پرت باید شناسایی شده و معمولا ارزش تحقیق بیشتر را دارند.
توجه کنید که داده های پرت باید در گام های ابتدایی تحلیل داده پیدا شوند.
در مقایسه با تجزیه و تحلیل داده های معمول که داده های پرت گاهی اطلاع رسان و گاهی زائد هستند، در مبحث تشخیص ناهنجاری (Anomaly Detection)، داده های پرت نقاط مورد علاقه هستند و در ابتدا بیشتر داده برای تعیین «هنجار» استفاده می شوند و ناهنجاری ها در مقابل آن اندازه گیری می شوند.