Ierarxik va qisman guruhlash

Klasterlash - bu ma'lumotlarni tahlil qilish va shunga o'xshash ma'lumotlar guruhlariga bo'lish uchun mashinalarni o'qitish usuli. Ushbu guruhlar yoki shunga o'xshash ma'lumotlarning to'plamlari klasterlar deb nomlanadi. Klaster tahlili klasterlarni avtomatik ravishda aniqlay oladigan klasterlash algoritmlariga qaraydi. Ierarxik va qisman - bu ikki xil klasterlash algoritmlari sinflari. Ierarxik klasterlash algoritmlari ma'lumotlarni klasterlar ierarxiyasida buzadi. Oddiy algoritmlar o'rnatilgan ma'lumotlarni o'zaro ajratish bo'limlariga ajratadi.

Ierarxik klasterlash nima?

Ierarxik klasterlash algoritmlari kichikroq klasterlarni kattaroqlarga birlashtirish yoki kattaroq klasterlarni kichiklarga bo'lish siklini takrorlaydi. Qanday bo'lmasin, u dendogramma deb nomlangan klasterlar ierarxiyasini ishlab chiqaradi. Aglomerativ klasterlash strategiyasidan kattaroqlarga birlashtirish klasterlarini «yuqoridan-yuqoriga» yondashadi, bo'linuvchi klasterlash strategiyasida kichiklarga bo'linish uchun yuqoridan-pastga yondashuv qo'llaniladi. Odatda, ochko'z yondoshish qaysi kattaroq / kichikroq guruhlarni birlashtirish / ajratish uchun ishlatilishini belgilashda qo'llaniladi. Evklid masofasi, Manxetten masofasi va kosinus o'xshashligi raqamli ma'lumotlar uchun eng ko'p ishlatiladigan o'lchovlardan biridir. Raqamli bo'lmagan ma'lumotlar uchun Hamming masofasi kabi o'lchovlardan foydalaniladi. Shuni ta'kidlash kerakki, haqiqiy kuzatuvlar (misollar) ierarxik klasterlash uchun kerak emas, chunki faqat masofalar matritsasi etarli. Dendogramma ierarxiyani juda aniq ko'rsatadigan klasterlarning ingl. Foydalanuvchi dendogramma kesilgan darajasiga qarab turli xil klasterlarni olishi mumkin.

Qisman klasterlash nima?

Qisman klasterlash algoritmlari turli qismlarni hosil qiladi va keyinchalik ularni ba'zi mezonlar bo'yicha baholaydi. Ularni, shuningdek, notarial bo'lmagan deb ham atashadi, chunki har bir instansiya mutlaqo k o'zaro eksklyuziv klasterlardan biriga joylashtirilgan. Klasterlarning faqat bitta to'plami odatiy qisman klasterlash algoritmining chiqishi bo'lgani uchun, foydalanuvchi kerakli klasterlarning sonini kiritishi kerak (odatda k deb nomlanadi). Ko'pincha ishlatiladigan qisman klasterlash algoritmlaridan biri k-маънои klasterlash algoritmidir. Ishga tushirishdan oldin foydalanuvchi klasterlar sonini (k) ta'minlashi shart va algoritm k bo'limlarining markazlarini (yoki centroids) birinchi navbatda ishga tushiradi. Xulosa qilib aytganda, k-klasterlash algoritmi shundan so'ng mavjud markazlarga asoslangan a'zolarni tayinlaydi va mavjud a'zolarga asoslangan holda qayta hisob-kitoblarni amalga oshiradi. Ushbu ikki bosqich ma'lum bir guruh ichidagi o'xshashlik ob'ektiv funktsiyasi va klasterlararo o'xshashlik ob'ektiv funktsiyasi optimallashtirilguncha takrorlanadi. Shuning uchun markazlarni aqlli ishga tushirish qisman klasterlash algoritmlaridan sifatli natijalarni olishda muhim omil hisoblanadi.

Ierarxik va qisman klasterlash o'rtasidagi farq nima?

Ierarxik va qisman klasterlash ish vaqtlari, taxminlar, kiritish parametrlari va natijaviy klasterlarda muhim farqlarga ega. Odatda, qisman klasterlash ierarxik klasterlashdan tezroq. Ierarxik klasterlash faqat o'xshashlikni o'lchashni talab qiladi, qisman klasterlash esa klasterlar soni va boshlang'ich markazlar kabi kuchli taxminlarni talab qiladi. Ierarxik klasterlash hech qanday kirish parametrlarini talab qilmaydi, qisman klasterlash algoritmlari ishlash uchun boshlash uchun klasterlar sonini talab qiladi. Ierarxik klasterlash klasterlarning yanada mazmunli va subyektiv bo'linishini qaytaradi, ammo qisman klasterlash aniq k klasterlarga olib keladi. Ierarxik klasterlash algoritmlari kategoriya ma'lumotlari uchun ko'proq mos keladi, chunki o'xshashlik o'lchovi shunga muvofiq belgilanishi mumkin.