เปิดตัว ภูผา: ชุดข้อมูลความถี่คำภาษาไทย

· February 6, 2026

ผมได้ปล่อยชุดข้อมูลภาษาไทยตัวใหม่ ชื่อ “ภูผา (Phupha)” เป็นชุดข้อมูลความถี่คำภาษาไทยจาก CommonCrawl โดย CommonCrawl เป็นชุดข้อมูลที่รวบรวมหน้าเว็บจากอินเทอร์เน็ตเอาไว้ โดยผมได้ใช้ Infini-gram mini API ช่วยสำหรับดึงความถี่คำภาษาไทยจาก CommonCrawl Corpus (Common Crawl July 2025 Crawl) มาเก็บไว้

ชุดข้อมูล Phupha มีขนาดคำ 62,265 คำ (มีภาษาอังกฤษหลุดมาหนึ่งคำคือคำว่า word) โดยคำเป็นคำที่มาจากพจนานุกรมตัดคำภาษาไทยของ PyThaiNLP และรายการคำศัพท์ภาษาไทยจากราชบัณฑิตยสภา

โหลดได้ที่ https://github.com/PyThaiNLP/Phupha-Word-freq

สถิติน่าสนใจ

สำหรับ Common Crawl July 2025 Crawl คำภาษาไทยที่มีมากที่สุด 10 อันดับแรกมีดังนี้

  word count
61861 กา 193460292
11281 ที 178316719
15767 การ 170924829
29153 อง 168370283
58407 ที่ 162917982
33326 ระ 108382029
13826 มา 98172980
10729 แล 96606598
40491 ละ 85820577
12358 รา 83917626

จะเห็นได้ว่าคำว่า “กา” มีความถี่สูงที่สุด

หากใครต้องการค้นคำอื่น ๆ หรือหาตัวอย่างข้อความที่ใช้คำดังกล่าว https://huggingface.co/spaces/infini-gram-mini/infini-gram-mini

อ่านรายละเอียดเกี่ยวกับ Infini-gram mini ได้ที่ https://infini-gram-mini.io/

เขียนโดย วรรณพงษ์ ภัททิยไพบูลย์ 6 กุมภาพันธ์ 2569

Twitter, Facebook