หลังจากที่เราเข้าสู่ยุค GenAI การมาของ ChatGPT จนปัจจุบันนี้ ปัญญาประดิษฐ์ด้านภาษาธรรมชาติกลายเป็นผู้ช่วยที่ทุก ๆ คนสามารถเข้าถึงได้ง่ายดาย ไม่ต้องสร้างโมเดลเอง ปรับแต่งแค่คำสั่งเพื่อใช้งาน ทำให้เกิดคำถามซอฟต์แวร์ AI Open Source เฉพาะภาษายังจำเป็นอยู่ไหมกับยุค GenAI
สำหรับ PyThaiNLP เราพัฒนาชุดซอฟต์แวร์สำหรับประมวลผลภาษาไทยมาตั้งแต่ปี ค.ศ. 2016 ก่อนยุค GenAI มีทั้งตัดคำ โมเดลแยกอารมณ์จากข้อความ (ในอดีต) และอื่น ๆ การมาของ ChatGPT เมื่อปี ค.ศ. 2022 ที่เปลี่ยนโลกของการวิจัยปัญญาประดิษฐ์ไป โลกเข้าสู่ยุคโมเดลภาษาขนาดใหญ่ ถนนแทบทุกสายมุ่งไปทางนี้ ทำให้มีหลายคนเกิดคำถามว่าซอฟต์แวร์เปิด (open source software) เฉพาะภาษา อย่าง PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร แล้วถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน
หนึ่ง PyThaiNLP ที่พัฒนาเครื่องมือพื้นฐานยังสำคัญอยู่ไหม: เราเป็นชุดซอฟต์แวร์เปิดที่เปิดทั้งโมเดล ชุดข้อมูล โค้ด ที่พัฒนามาอย่างยาวนาน ตั้งแต่ปี ค.ศ. 2016 ถ้ามูลค่าในการพัฒนาซอฟต์แวร์ปิดให้ได้ระดับเดียวกันยังคงเป็นค่าใช้จ่ายที่สูง เราผ่านการลองผิดลองถูกมาค่อนข้างเยอะ ปัจจุบันนี้ เรามีฟังก์ชันครบพื้นฐานทั้งหมดแล้ว และมีเครื่องมือทำความสะอาดข้อมูล เครื่องมือทางภาษาศาสตร์ เครื่องมือช่วยต่าง ๆ ที่หาไม่ได้จากที่ไหนอื่นอยู่ใน PyThaiNLP จำนวนมาก กับชุดข้อมูลที่เราปล่อยให้เข้าถึงสาธารณะจากทุกแห่งบนโลกได้ และสุดท้ายนี้ PyThaiNLP ยังคงถูกนำไปใช้เป็นเครื่องมือในการเรียนการสอนวิชาปัญญาประดิษฐ์และภาษาศาสตร์ในหลายมหาวิทยาลัย รวมถึงใช้ในงานวิจัยที่เกี่ยวข้องกับภาษาไทย อ่านงานวิจัยที่ใช้ PyThaiNLP ได้ที่ Google Scholar

ตัวอย่างของการใช้ PyThaiNLP ในปัจจุบันจากบริษัทผู้พัฒนา LLM
สอง ผลกระทบ LLM กับ PyThaiNLP เป็นอย่างไร: ข้อนี้อาจทำทุกคนตกใจคือ PyThaiNLP เราไม่ได้รับผลกระทบทางตรงจากการมาของ ChatGPT หรือ LLM โดยยอดโหลดของซอฟต์แวร์เรายิ่งสูงขึ้นทุก ๆ ปี แถมเราพบว่า Meta, Huggingface (เท่าที่เปิดเผยสู่สาธารณะ) และอื่น ๆ ต่างยังคงใช้ PyThaiNLP ในขั้นตอนพัฒนาโมเดลของตนเอง ทั้งงานพื้นฐาน ทำความสะอาดข้อมูลสำหรับงานภาษาไทย สิ่งเหล่านี้กลายเป็นโมเดล LLM, ASR และอื่น ๆ จำนวนมาก แสดงให้เห็นว่า เครื่องมือของ PyThaiNLP หลายอย่างยังคงสำคัญสำหรับงานพัฒนาโมเดล GenAI, LLM อยู่ แม้จะเป็นงานเบื้องหลัง แต่ก็เป็นงานที่ยังคงต้องพึ่งพาซอฟต์แวร์พื้นฐานอยู่ เพราะการพัฒนาซอฟต์แวร์เปิดมีส่วนช่วยให้บริษัทบนโลกใบนี้ไม่ว่าอยู่ที่ไหนก็สามารถพัฒนาโมเดลสำหรับภาษาไทยจากการใช้ซอฟต์แวร์เปิด แม้ว่าจะเปลี่ยนจากเมื่อก่อน ผู้คนที่ต้องการทำโมเดล AI ต้องเริ่มจากศึกษาการประมวลภาษาธรรมชาติพื้นฐาน และใช้เครื่องมือพื้นฐานก่อนไปพัฒนาโมเดลทุกครั้ง กลายเป็น API กับป้อนคำสั่งให้ทำตามผ่าน GenAI ก็ตาม

ยอดโหลดจาก https://clickpy.clickhouse.com/dashboard/pythainlp
นอกเหนือจากนี้ เราเปิดเผยชุดข้อมูลด้วย ซึ่งชุดข้อมูลเรามีส่วนร่วมในการพัฒนาโมเดลเปิดต่าง ๆ ที่รองรับภาษาไทย ไม่ว่าจะเป็น Thai NER, wisesight_sentiment และอื่น ๆ ทำให้แม้เราจะทำโมเดลออกมาแล้วตกยุคไป นักพัฒนาคนอื่น ๆ ยังสามารถนำชุดข้อมูลไปพัฒนาโมเดลของตนเองที่เก่งกว่าได้ เช่น นำไปเทรนร่วมกับ LLM เป็นต้น สำหรับการพัฒนา PyThaiNLP เรายังได้ใช้ GenAI มาช่วยในการพัฒนาซอฟต์แวร์ PyThaiNLP อยู่บ้างในปัจจุบัน
สาม ถ้าไม่จำเป็นต้องใช้แล้ว PyThaiNLP จะไปไหน: PyThaiNLP จะยังคงอยู่เป็นซอฟต์แวร์เปิดบนอินเทอร์เน็ตต่อไปพร้อมกับชุดข้อมูล ไม่ว่าจะพัฒนาต่อหรือยุติการพัฒนาก็ตาม โค้ด ชุดข้อมูล โมเดลอาจถูกพัฒนาต่อไปรวมกับโครงการอื่น ๆ ได้ตามธรรมชาติของ open source อย่างไรก็ตาม ช่องว่างของการรันโมเดลขนาดใหญ่ยังคงเป็นปัญหาใหญ่ของการเข้าถึงเทคโนโลยี ค่าใช้จ่าย ความเป็นส่วนตัว ความปลอดภัยของข้อมูล เป็นปัญหาใหญ่ของการใช้งาน LLM ทั้งแบบรันด้วยตนเองหรือผ่าน API ขณะที่เราสามารถทำสิ่งเดียวกันกับที่ LLM ทำ อย่างเช่น บอกอารมณ์จากข้อความ จากการเทรนโมเดลเองถูกกว่าการใช้ LLM หรือ API โดยมีความแม่นยำไม่ต่างกันนักอยู่ในปัจจุบัน แถมปลอดภัยกว่าสำหรับการรักษาข้อมูล
นอกจากนี้ PyThaiNLP เราได้มีส่วนร่วมในการอนุรักษ์ภาษาไทย ตราบใดที่ PyThaiNLP ยังอยู่บนอินเทอร์เน็ต ยังคงสามารถใช้งานเพื่อประมวลผลภาษาไทยได้อยู่ และ PyThaiNLP ได้ถูกบรรจุอยู่ภายใต้ GitHub Arctic Code Vault ไปแล้วเมื่อปี ค.ศ. 2020 ที่ผ่านมา ซึ่งเป็นโครงการเก็บรักษาซอฟต์แวร์เปิดของมวลมนุษยชาติบน GiHub ไปฝังใต้ดินขั้วโลกเหนือ เก็บรักษาระดับ 1,000 ปี ภาษาไทยเราได้ถูกสำเนาไปด้วย พร้อมกับ PyThaiNLP (และข้อผิดพลาดหรือ bug ไปด้วย) คนยุคพันปีข้างหน้า หากเจอเอกสารภาษาไทยแบบโบราณจากยุคนี้ (กรณียังมีคนใช้งานภาษาไทย) หรือเป็นยุคที่ภาษาไทยอาจหายสาบสูญไปแล้วก็ได้ (กรณีไม่มีคนใช้ภาษาไทยเหลืออยู่) แต่จะยังคงสามารถประมวลผลภาษาไทยจากโค้ด PyThaiNLP ที่ถูกรักษาไว้ได้ มรดกมวลมนุษยชาติทางภาษา ทั้งปรัชญา วัฒนธรรม วรรณกรรม ประเพณี ศาสนา ความคิดและอื่น ๆ ที่เกิดขึ้นในภาษาไทยจะไม่สูญหายไปไหน ถ้าให้คนยุคพันปีข้างหน้าหรือให้ AGI มาช่วยกันถอดโดยไม่มีซอฟต์แวร์พื้นฐานเลย คงจะยังเป็นงานที่ยุ่งยากอยู่ดี
จากสามข้อขั้นต้น จะเห็นได้ว่า ซอฟต์แวร์เปิดอย่าง open source เฉพาะภาษายังคงจำเป็นแม้ในยุค GenAI ถึงแม้จากงานเบื้องหน้าจะกลายเป็นงานเบื้องหลังก็ตาม และเป็นสิ่งที่ซอฟต์แวร์เปิดทำได้ไม่ว่ายุคสมัยจะเปลี่ยนแปลงไปอย่างไรก็ตาม นี่คือความงดงามของ Open Source
สำหรับ PyThaiNLP เราพัฒนาซอฟต์แวร์ โมเดลและชุดข้อมูลมาตั้งแต่ปี ค.ศ. 2016 ณ ปัจจุบันวงการปัญญาประดิษฐ์กับการประมวลผลภาษาธรรมชาติสำหรับภาษาไทยถือว่าพัฒนามาไกลพอสมควรและดีกว่าเมื่อเทียบกับก่อนปี ค.ศ. 2016 อ่านเพิ่มเติมเกี่ยวกับ PyThaiNLP ได้ที่ PyThaiNLP: Thai Natural Language Processing in Python
เกี่ยวกับ PyThaiNLP
PyThaiNLP เป็นกลุ่มนักพัฒนาซอฟต์แวร์เปิดเพื่อการประมวลผลภาษาไทย พวกเราสร้างซอฟต์แวร์ โมเดลและชุดข้อมูลสำหรับภาษาไทย
บทความนี้เขียนโดย วรรณพงษ์ ภัททิยไพบูลย์ 27 ตุลาคม ค.ศ. 2025
