Normalization برای حذف دادههای اضافی استفاده میشود استفاده میشود و تضمین میکند که خوشههای با کیفیت خوب تولید میشوند که میتوانند کارایی الگوریتمهای خوشهبندی را بهبود بخشند. بنابراین قبل از خوشهبندی بهعنوان فاصله اقلیدسی، یک مرحله ضروری است. نسبت به تغییرات تفاوت ها بسیار حساس است[3].
آیا باید داده ها را برای خوشه بندی K-means عادی کنیم؟
همانطور که در روش k-NN، ویژگی های مورد استفاده برای خوشه بندی باید در واحدهای قابل مقایسه اندازه گیری شوند. در این مورد، واحدها مشکلی ندارند زیرا هر 6 ویژگی در مقیاس 5 نقطه ای بیان می شوند. هنجارسازی یا استانداردسازی لازم نیست.
چگونه داده ها را قبل از خوشه بندی آماده می کنید؟
آماده سازی داده
برای انجام تجزیه و تحلیل خوشه ای در R، به طور کلی، داده ها باید به صورت زیر تهیه شوند: سطرها مشاهدات (افراد) و ستون ها متغیر هستند. هر مقدار از دست رفته در داده ها باید حذف یا تخمین زده شود. داده ها باید استاندارد شوند (یعنی مقیاس شده) تا متغیرها قابل مقایسه باشند.
آیا داده ها باید برای خوشه بندی مقیاس شوند؟
در خوشهبندی، شباهت بین دو مثال را با ترکیب همه دادههای ویژگی برای آن مثالها در یک مقدار عددی محاسبه میکنید. ترکیب دادههای ویژگی مستلزم آن است که دادهها مقیاس یکسانی داشته باشند.
چرا عادی سازی ویژگی ها قبل از خوشه بندی مهم است؟
استانداردسازی مرحله مهم داده استپیش پردازش.
همانطور که در این مقاله توضیح داده شد، k-means تابع خطا را با استفاده از الگوریتم نیوتن، یعنی یک الگوریتم بهینه سازی مبتنی بر گرادیان، به حداقل می رساند. نرمال کردن داده ها همگرایی چنین الگوریتم هایی را بهبود می بخشد.