Statistics, Probability and Data Science with R Programming

Statistics, Probability and Data Science with R Programming Our SPiDεR Research Group is based in the Mathematics Dept, KMUTT. Applications include science, health informatic, social science, etc.

We conduct novel research, software, and web apps, seek potential collaborations, and provide consulting services.

Today, I would like to share the origin story of one research direction in SPiDεR — cluster validation.My academic backg...
25/02/2026

Today, I would like to share the origin story of one research direction in SPiDεR — cluster validation.

My academic background is rooted in pure mathematics. I started with number theory during my undergraduate studies, and later moved into probability in my Ph.D. years. Data science was not my original training.

The turning point came when I supervised an undergraduate senior project in 2020. The student was interning at an insurance company and was tasked with segmenting auto insurance customers into groups, so that the company could manage each segment more effectively.

The student applied a standard method — K-Means — and used conventional criteria to determine the optimal number of clusters.
The result suggested 2 clusters.

From a mathematical standpoint, this was perfectly reasonable.
From a business standpoint, however, dividing customers into only two groups was practically useless.

This led to a fundamental question:

If 2 clusters are statistically optimal,
but not contextually useful,
how many clusters should we actually choose?

This question became the starting point for developing a new cluster validity index. The key idea was based on the correlation between pairwise distances among data points and distances between cluster centroids.

One distinctive feature of this index is that it not only identifies the single “optimal” number of clusters. It can also rank alternative cluster numbers in order. This allows users to make more informed decisions by incorporating domain context.

Our first paper in this line of research was published in Pattern Recognition, one of the most established and respected journals in the field.

For those interested, the method is available through the R package UniversalCVI on CRAN:
https://cran.r-project.org/web/packages/UniversalCVI/index.html

From one undergraduate senior project
to a new research direction in SPiDεR 🕷️

Nathakhun

วันนี้ผมอยากขอเล่า “จุดเริ่มต้น” ของงานวิจัยสายหนึ่งของกลุ่ม SPiDeR — นั่นคือเรื่องของ cluster validation

พื้นฐานของผมในฐานะหัวหน้ากลุ่มวิจัย เติบโตมาจากสายคณิตศาสตร์บริสุทธิ์ เริ่มจาก number theory ในระดับปริญญาตรี ก่อนจะเปลี่ยนสายเป็น probability ในช่วงปริญญาเอก จึงไม่ได้เกี่ยวข้องกับสาย data science โดยตรง

จุดเปลี่ยนเกิดขึ้นเมื่อผมได้ดูแล senior project ของนักศึกษาปริญญาตรีที่ไปฝึกงานกับบริษัทประกันแห่งหนึ่ง โจทย์ที่ได้รับคือ การแบ่งกลุ่มลูกค้าประกันรถยนต์ออกเป็นกลุ่ม ๆ เพื่อให้บริษัทสามารถบริหารจัดการลูกค้าแต่ละกลุ่มได้อย่างมีประสิทธิภาพมากขึ้น

นักศึกษาเลือกใช้วิธีพื้นฐานอย่าง K-Means และใช้เกณฑ์มาตรฐานในการเลือกจำนวนกลุ่ม ผลที่ได้คือ “2 กลุ่ม”

ในเชิงคณิตศาสตร์อาจดูสมเหตุสมผล
แต่ในเชิงธุรกิจ — การแบ่งลูกค้าออกเป็นเพียง 2 กลุ่ม แทบไม่เกิดประโยชน์ใด ๆ

ตรงนี้เองจึงเกิดคำถามว่า

ถ้า 2 กลุ่ม “เหมาะสมที่สุด” สำหรับข้อมูลในเชิงสถิติ
แต่ “ไม่เหมาะสม” ในเชิงบริบทการใช้งาน
แล้วเราควรเลือกกี่กลุ่มกันแน่?

คำถามนี้กลายเป็นจุดเริ่มต้นของการพัฒนาตัวชี้วัดความแตกต่าง (cluster validity index) แบบใหม่ โดยมีแนวคิดหลักอยู่ที่ correlation ระหว่างระยะทางระหว่างจุดข้อมูล กับระยะทางระหว่างจุดศูนย์กลางของกลุ่ม

จุดเด่นของตัวชี้วัดนี้คือ
ไม่เพียงสามารถระบุจำนวนกลุ่มที่ “เหมาะสมที่สุด” ได้อย่างแม่นยำ
แต่ยังสามารถจัดลำดับจำนวนกลุ่มที่เหมาะสมรองลงมาได้อีกด้วย
ซึ่งเปิดโอกาสให้ผู้ใช้งานตัดสินใจโดยคำนึงถึงบริบทจริงมากขึ้น

ผลงานชิ้นแรกในสายงานนี้ได้รับการตีพิมพ์ในวารสาร Pattern Recognition ซึ่งเป็นหนึ่งในวารสารที่มีความเก่าแก่และได้รับการยอมรับอย่างสูงในสาขานี้

ผู้สนใจสามารถทดลองใช้งานได้ผ่าน R package
UniversalCVI บน CRAN
https://cran.r-project.org/web/packages/UniversalCVI/index.html

จาก senior project หนึ่งชิ้น
สู่การเปิดสายงานวิจัยใหม่ของกลุ่ม 🕷️

Some nice shots and group photos from today's special introductory talk on Stein's method by Prof. Larry Goldstein from ...
19/02/2026

Some nice shots and group photos from today's special introductory talk on Stein's method by Prof. Larry Goldstein from the University of Southern California. ~SPiDεR~ 😀

ภาพบรรยากาศบางส่วนจากการบรรยาย Stein's method เบื้องต้นโดย Prof. Larry Goldstein จาก University of Southern California

As the first post on this page, I’d like to share a bit about my Ph.D. research area — Stein’s method — which continues ...
17/02/2026

As the first post on this page, I’d like to share a bit about my Ph.D. research area — Stein’s method — which continues to be one of my research interests today.

Stein’s method was originally introduced by Charles Stein during his statistics class at Stanford as an alternative way to prove the Central Limit Theorem. But over time, it has grown into a powerful framework because it can provide explicit, non-asymptotic error bounds between distributions and works beautifully even under dependence. It has since been extended to many target distributions and applied across fields ranging from applied sciences to machine learning.

My main contribution to the field was developing a coupling technique called Approximate Zero Biasing, extending the classical zero biasing construction. The idea was to make normal approximation possible even when exact zero biasing cannot be constructed. After graduation, I continued this line of research and applied it to a Thailand fire simulation problem — a project that was both mathematically interesting and practically meaningful.

So far, I’ve published seven papers in this area. My most recent one was a collaboration with Dr. Wasamon Jantai from Chulalongkorn University — always happy to see Stein’s method continuing to grow in Thailand.

And to celebrate number seven 😊 I invited my Ph.D. advisor, Prof. Larry Goldstein from the University of Southern California, to give an introductory talk on Stein’s method this Thursday (19th), 1–3 PM. You're all welcome to join. (https://forms.gle/bYFJ3XiiqJsXcnWt7)

References:
Approximate Zero Biasing:https://alea.impa.br/articles/v14/14-40.pdf
Thailand Fire Simulation: https://doi.org/10.1007/s11009-023-10004-7

Nathakhun

ในฐานะโพสต์แรกของเพจนี้ ผมอยากเล่าเกี่ยวกับงานวิจัยระดับปริญญาเอกของผม — Stein’s method — ซึ่งยังคงเป็นหนึ่งในสาขาวิจัยของผมจนถึงทุกวันนี้

เดิมที Stein’s method ถูกพัฒนาขึ้นโดย Charles Stein ในคลาสสถิติที่ Stanford เพื่อเป็นอีกแนวทางหนึ่งในการพิสูจน์ทฤษฎีบทลิมิตกลาง (Central Limit Theorem) แต่เมื่อเวลาผ่านไป วิธีนี้ได้พัฒนาไปไกลกว่านั้นมาก จุดเด่นสำคัญคือความสามารถในการให้ค่าระยะทางระหว่างกลุ่มแบบไม่พึ่งลิมิต (non-asymptotic error bounds) ระหว่างการแจกแจงความน่าจะเป็นสองการแจกแจง และยังสามารถจัดการกับโครงสร้างความไม่เป็นอิสระต่อกัน (dependence) ได้อย่างมีประสิทธิภาพ ปัจจุบัน Stein’s method ถูกขยายไปยังการแจกแจงเป้าหมายหลากหลายรูปแบบ และประยุกต์ใช้ในหลายสาขา ตั้งแต่วิทยาศาสตร์ประยุกต์ด้านต่างๆไปจนถึง machine learning

ผลงานหลักของผมในสาขานี้คือการพัฒนาเทคนิคการทำ coupling ที่เรียกว่า Approximate Zero Biasing ซึ่งเป็นการต่อยอดจาก zero biasing แบบดั้งเดิม แนวคิดสำคัญคือทำให้สามารถทำ normal approximation ได้ แม้ในกรณีที่ไม่สามารถสร้าง exact zero biasing ได้ หลังจากเรียนจบ ผมก็ยังคงต่อยอดงานวิจัยในแนวทางนี้ และนำไปประยุกต์ใช้กับปัญหาการจำลองสถานการณ์การเกิดไฟในประเทศไทย ซึ่งเป็นงานที่ทั้งท้าทายทางคณิตศาสตร์และมีความหมายในเชิงการใช้งานจริง

จนถึงตอนนี้ ผมตีพิมพ์งานในสายนี้แล้ว 7 บทความ โดยบทความล่าสุดเป็นความร่วมมือกับ ดร. วรรษมน จันใต้ จากจุฬาลงกรณ์มหาวิทยาลัย ซึ่งเป็นเรื่องน่ายินดีที่เริ่มมีนักวิจัยทางด้านนี้ในประเทศไทยมากขึ้น

และเพื่อฉลองเลข 7 😊 ผมได้เชิญอาจารย์ที่ปรึกษาปริญญาเอกของผม Prof. Larry Goldstein จาก University of Southern California มาบรรยายหัวข้อ Introductory Talk on Stein’s method ในวันพฤหัสบดีที่ 19 นี้ เวลา 13:00–15:00 น.

ยินดีต้อนรับทุกท่านมาร่วมฟังครับ 🙏

ที่อยู่

KMUTT
Bangkok
10140

แจ้งเตือน

รับทราบข่าวสารและโปรโมชั่นของ Statistics, Probability and Data Science with R Programmingผ่านทางอีเมล์ของคุณ เราจะเก็บข้อมูลของคุณเป็นความลับ คุณสามารถกดยกเลิกการติดตามได้ตลอดเวลา

แชร์

Share on Facebook Share on Twitter Share on LinkedIn
Share on Pinterest Share on Reddit Share via Email
Share on WhatsApp Share on Instagram Share on Telegram