25/02/2026
Today, I would like to share the origin story of one research direction in SPiDεR — cluster validation.
My academic background is rooted in pure mathematics. I started with number theory during my undergraduate studies, and later moved into probability in my Ph.D. years. Data science was not my original training.
The turning point came when I supervised an undergraduate senior project in 2020. The student was interning at an insurance company and was tasked with segmenting auto insurance customers into groups, so that the company could manage each segment more effectively.
The student applied a standard method — K-Means — and used conventional criteria to determine the optimal number of clusters.
The result suggested 2 clusters.
From a mathematical standpoint, this was perfectly reasonable.
From a business standpoint, however, dividing customers into only two groups was practically useless.
This led to a fundamental question:
If 2 clusters are statistically optimal,
but not contextually useful,
how many clusters should we actually choose?
This question became the starting point for developing a new cluster validity index. The key idea was based on the correlation between pairwise distances among data points and distances between cluster centroids.
One distinctive feature of this index is that it not only identifies the single “optimal” number of clusters. It can also rank alternative cluster numbers in order. This allows users to make more informed decisions by incorporating domain context.
Our first paper in this line of research was published in Pattern Recognition, one of the most established and respected journals in the field.
For those interested, the method is available through the R package UniversalCVI on CRAN:
https://cran.r-project.org/web/packages/UniversalCVI/index.html
From one undergraduate senior project
to a new research direction in SPiDεR 🕷️
Nathakhun
วันนี้ผมอยากขอเล่า “จุดเริ่มต้น” ของงานวิจัยสายหนึ่งของกลุ่ม SPiDeR — นั่นคือเรื่องของ cluster validation
พื้นฐานของผมในฐานะหัวหน้ากลุ่มวิจัย เติบโตมาจากสายคณิตศาสตร์บริสุทธิ์ เริ่มจาก number theory ในระดับปริญญาตรี ก่อนจะเปลี่ยนสายเป็น probability ในช่วงปริญญาเอก จึงไม่ได้เกี่ยวข้องกับสาย data science โดยตรง
จุดเปลี่ยนเกิดขึ้นเมื่อผมได้ดูแล senior project ของนักศึกษาปริญญาตรีที่ไปฝึกงานกับบริษัทประกันแห่งหนึ่ง โจทย์ที่ได้รับคือ การแบ่งกลุ่มลูกค้าประกันรถยนต์ออกเป็นกลุ่ม ๆ เพื่อให้บริษัทสามารถบริหารจัดการลูกค้าแต่ละกลุ่มได้อย่างมีประสิทธิภาพมากขึ้น
นักศึกษาเลือกใช้วิธีพื้นฐานอย่าง K-Means และใช้เกณฑ์มาตรฐานในการเลือกจำนวนกลุ่ม ผลที่ได้คือ “2 กลุ่ม”
ในเชิงคณิตศาสตร์อาจดูสมเหตุสมผล
แต่ในเชิงธุรกิจ — การแบ่งลูกค้าออกเป็นเพียง 2 กลุ่ม แทบไม่เกิดประโยชน์ใด ๆ
ตรงนี้เองจึงเกิดคำถามว่า
ถ้า 2 กลุ่ม “เหมาะสมที่สุด” สำหรับข้อมูลในเชิงสถิติ
แต่ “ไม่เหมาะสม” ในเชิงบริบทการใช้งาน
แล้วเราควรเลือกกี่กลุ่มกันแน่?
คำถามนี้กลายเป็นจุดเริ่มต้นของการพัฒนาตัวชี้วัดความแตกต่าง (cluster validity index) แบบใหม่ โดยมีแนวคิดหลักอยู่ที่ correlation ระหว่างระยะทางระหว่างจุดข้อมูล กับระยะทางระหว่างจุดศูนย์กลางของกลุ่ม
จุดเด่นของตัวชี้วัดนี้คือ
ไม่เพียงสามารถระบุจำนวนกลุ่มที่ “เหมาะสมที่สุด” ได้อย่างแม่นยำ
แต่ยังสามารถจัดลำดับจำนวนกลุ่มที่เหมาะสมรองลงมาได้อีกด้วย
ซึ่งเปิดโอกาสให้ผู้ใช้งานตัดสินใจโดยคำนึงถึงบริบทจริงมากขึ้น
ผลงานชิ้นแรกในสายงานนี้ได้รับการตีพิมพ์ในวารสาร Pattern Recognition ซึ่งเป็นหนึ่งในวารสารที่มีความเก่าแก่และได้รับการยอมรับอย่างสูงในสาขานี้
ผู้สนใจสามารถทดลองใช้งานได้ผ่าน R package
UniversalCVI บน CRAN
https://cran.r-project.org/web/packages/UniversalCVI/index.html
จาก senior project หนึ่งชิ้น
สู่การเปิดสายงานวิจัยใหม่ของกลุ่ม 🕷️