ผมได้ปล่อยชุดข้อมูลภาษาไทยตัวใหม่ ชื่อ “ภูผา (Phupha)” เป็นชุดข้อมูลความถี่คำภาษาไทยจาก CommonCrawl โดย CommonCrawl เป็นชุดข้อมูลที่รวบรวมหน้าเว็บจากอินเทอร์เน็ตเอาไว้ โดยผมได้ใช้ Infini-gram mini API ช่วยสำหรับดึงความถี่คำภาษาไทยจาก CommonCrawl Corpus (Common Crawl July 2025 Crawl) มาเก็บไว้
ชุดข้อมูล Phupha มีขนาดคำ 62,265 คำ (มีภาษาอังกฤษหลุดมาหนึ่งคำคือคำว่า word) โดยคำเป็นคำที่มาจากพจนานุกรมตัดคำภาษาไทยของ PyThaiNLP และรายการคำศัพท์ภาษาไทยจากราชบัณฑิตยสภา
โหลดได้ที่ https://github.com/PyThaiNLP/Phupha-Word-freq
สถิติน่าสนใจ
สำหรับ Common Crawl July 2025 Crawl คำภาษาไทยที่มีมากที่สุด 10 อันดับแรกมีดังนี้
| word | count | |
|---|---|---|
| 61861 | กา | 193460292 |
| 11281 | ที | 178316719 |
| 15767 | การ | 170924829 |
| 29153 | อง | 168370283 |
| 58407 | ที่ | 162917982 |
| 33326 | ระ | 108382029 |
| 13826 | มา | 98172980 |
| 10729 | แล | 96606598 |
| 40491 | ละ | 85820577 |
| 12358 | รา | 83917626 |
จะเห็นได้ว่าคำว่า “กา” มีความถี่สูงที่สุด
หากใครต้องการค้นคำอื่น ๆ หรือหาตัวอย่างข้อความที่ใช้คำดังกล่าว https://huggingface.co/spaces/infini-gram-mini/infini-gram-mini
อ่านรายละเอียดเกี่ยวกับ Infini-gram mini ได้ที่ https://infini-gram-mini.io/
เขียนโดย วรรณพงษ์ ภัททิยไพบูลย์ 6 กุมภาพันธ์ 2569
