آیا باید داده ها را قبل از خوشه بندی عادی کنیم؟

فهرست مطالب:

آیا باید داده ها را قبل از خوشه بندی عادی کنیم؟
آیا باید داده ها را قبل از خوشه بندی عادی کنیم؟
Anonim

Normalization برای حذف داده‌های اضافی استفاده می‌شود استفاده می‌شود و تضمین می‌کند که خوشه‌های با کیفیت خوب تولید می‌شوند که می‌توانند کارایی الگوریتم‌های خوشه‌بندی را بهبود بخشند. بنابراین قبل از خوشه‌بندی به‌عنوان فاصله اقلیدسی، یک مرحله ضروری است. نسبت به تغییرات تفاوت ها بسیار حساس است[3].

آیا باید داده ها را برای خوشه بندی K-means عادی کنیم؟

همانطور که در روش k-NN، ویژگی های مورد استفاده برای خوشه بندی باید در واحدهای قابل مقایسه اندازه گیری شوند. در این مورد، واحدها مشکلی ندارند زیرا هر 6 ویژگی در مقیاس 5 نقطه ای بیان می شوند. هنجارسازی یا استانداردسازی لازم نیست.

چگونه داده ها را قبل از خوشه بندی آماده می کنید؟

آماده سازی داده

برای انجام تجزیه و تحلیل خوشه ای در R، به طور کلی، داده ها باید به صورت زیر تهیه شوند: سطرها مشاهدات (افراد) و ستون ها متغیر هستند. هر مقدار از دست رفته در داده ها باید حذف یا تخمین زده شود. داده ها باید استاندارد شوند (یعنی مقیاس شده) تا متغیرها قابل مقایسه باشند.

آیا داده ها باید برای خوشه بندی مقیاس شوند؟

در خوشه‌بندی، شباهت بین دو مثال را با ترکیب همه داده‌های ویژگی برای آن مثال‌ها در یک مقدار عددی محاسبه می‌کنید. ترکیب داده‌های ویژگی مستلزم آن است که داده‌ها مقیاس یکسانی داشته باشند.

چرا عادی سازی ویژگی ها قبل از خوشه بندی مهم است؟

استانداردسازی مرحله مهم داده استپیش پردازش.

همانطور که در این مقاله توضیح داده شد، k-means تابع خطا را با استفاده از الگوریتم نیوتن، یعنی یک الگوریتم بهینه سازی مبتنی بر گرادیان، به حداقل می رساند. نرمال کردن داده ها همگرایی چنین الگوریتم هایی را بهبود می بخشد.

توصیه شده: