14/11/2025
خوارزمية K-Means هي واحدة من أشهر خوارزميات التجميع (Clustering) في تحليل البيانات وتعلم الآلة، وتُستخدم لتجميع نقاط البيانات إلى عدد محدد من المجموعات k بناءً على درجة التشابه بينها.
تشتغل الخوارزمية عن طريق إنها تعيّن كل نقطة بيانات لأقرب مركز مجموعة (centroid)، وبعدين تعيد حساب مراكز المجموعات من جديد، وتكرّر العملية لحدّ ما تثبت التعيينات أو يصبح التحسّن قليل جدًا.
الهدف الرئيسي من K-Means هو تقليل قيمة WCSS (مجموع المربعات داخل كل مجموعة) — وهو مقياس يوضح مدى تكتل النقاط حول مركز مجموعتها.
كلما كانت قيمة WCSS أقل، كلما كانت المجموعات أكثر تماسكًا وكانت النقاط داخل كل مجموعة قريبة من بعضها ومنفصلة بشكل أفضل عن المجموعات الثانية.
لكن، استخدام WCSS لوحده ما يعطي الصورة الكاملة عن جودة التجميع. وهنا يجي دور معدل درجة السيلويت (avg SIL).
درجة السيلويت تقارن مدى تشابه كل نقطة مع مجموعتها مقارنةً بالمجموعات الأخرى، وتعطي قيمة بين -1 و 1.
كلما كانت قيمة avg SIL أعلى، كلما كانت المجموعات متماسكة ومنفصلة بشكل ممتاز، وهذا يدل إن اختيار عدد المجموعات k كان مناسب.
عادةً المحلّلين يستخدموا WCSS مع avg SIL سوا:
WCSS
يساعد في إيجاد نقطة المرفق (Elbow Point) اللي عندها إضافة مجموعات أكثر ما عاد تعطي تحسّن كبير.
avg SIL
يتأكد إن المجموعات الناتجة لها معنى وجودة عالية
هذا الدمج يخلي K-Means أداة بسيطة لكنها قوية جدًا في كشف البنية المخفية داخل البيانات.
-Means