Image gen from FLUX.1 [dev]
วันนี้เรายินดีที่จะเปิดตัว KhanomTanLLM (ขนมตาล LLM) เป็น Open Source language model แรกของภาษาอังกฤษ-ภาษาไทย ที่เทรนด้วยชุดข้อมูลเปิด และปล่อยชุดข้อมูลที่ใช้เทรน LLM ทั้งหมด พร้อม pipeline ในการเทรน และโมเดลที่สามารถนำไปใช้งานในเชิงพาณิชย์ได้ นอกจากนั้นเรายังปล่อยโมเดลทั้งขนาด 1B กับ 3B ถือเป็น small lm ตัวแรกที่เป็น Open Source ของภาษาไทยที่เปิดเผยทั้งชุดข้อมูลในการทำ pretrained, pipeline ในการทำ pretrained, และโมเดล
หลังจากที่ Phi model ออกมา ได้จุดประกายโมเดล LLM ที่มีขนาดน้อยกว่า 7B ในการใช้งานในโลกจริง แต่โมเดลที่มีขนาด 1B และ 3B ที่รองรับภาษาไทย ยังมีจำนวนน้อย ได้แก่ gemma-2b, Qwen2-1.5B, XGLM, mGPT และ RWKV เป็นต้น แต่ทั้งหมดไม่ได้เปิดเผยชุดข้อมูลที่นำมาเทรนโมเดลเพื่อทำ pretrained model สู่สาธารณะที่เข้าถึงได้ และ gemma-2b ไม่ได้ถูกนับว่าเป็น Open Source ด้วยเงื่อนไขในการใช้งานโมเดล ดังนั้น เราจึงเริ่มลงมือรวบรวมชุดข้อมูลภาษาไทย-ภาษาอังกฤษ เพื่อทำ Open Source LM ขนาดเล็กที่เราอยากได้ที่เปิดเผยทั้งชุดข้อมูลในการทำ pretrained, pipeline ในการทำ pretrained, และโมเดล
GitHub KhanomTanLLM: https://github.com/PyThaiNLP/KhanomTanLLM
Dataset
เราได้ทำการปล่อยชุดข้อมูลสำหรับการทำ Pretrained LLM ตัวนี้ไว้ที่
Pretraining dataset: https://huggingface.co/datasets/wannaphong/KhanomTanLLM-pretrained-dataset
- Thai subset only: https://huggingface.co/datasets/wannaphong/KhanomTanLLM-pretrained-dataset-thai-subset
- List Thai subset: https://huggingface.co/collections/pythainlp/datasets-for-pretrained-thai-llm-65db96ab730386b492889a98
โดยชุดข้อมูลทั้งหมดมี 53,376,211,711 Tokens
- English: 31,629,984,243 Tokens
- Thai: 12,785,565,497 Tokens
- Code: 8,913,084,300 Toekns
- Parallel data: 190,310,686 Tokens
Based on Typhoon-7B (https://huggingface.co/scb10x/typhoon-7b) tokenizer
สำหรับภาษาอังกฤษ เรานำชุดข้อมูลสังเคราะห์ทำตาม Cosmopedia ของ HuggingFace ที่สังเคราะห์ชุดข้อมูลภาษาอังกฤษไว้ https://huggingface.co/datasets/HuggingFaceTB/cosmopedia และนำชุดข้อมูลอย่าง openwebtext ชุดข้อมูลเว็บ, epfl-llm/guidelines, MathPile_Commercial ชุดข้อมูลคณิตศาสตร์, minipile ชุดข้อมูลขนาดย่อจาก The Pile, goodwiki ชุดข้อมูลวิกิแบบ markdown และชุดข้อมูลจาก bigscience ที่เทรน Bloom LM มาใช้งาน
สำหรับรายละเอียดชุดข้อมูลอ่านได้ที่ https://huggingface.co/datasets/wannaphong/KhanomTanLLM-pretrained-dataset
Tokenizer
เราตัดสินใจใช้ Tokenizer ของ Typhoon-7B https://huggingface.co/scb10x/typhoon-7b ในโมเดลของเรา เพื่อประหยัดทรัพยากรในการเทรน Tokenizer
Pretraining
เราได้ใช้ pipeline สำหรับเทรน LLM ของเราด้วย EasyLM project เป็นชุด pipeline ของโมเดล OpenLLaMA เราได้ยืนขอการสนับสนุน TPU ผ่านโครงการ TPU Research Cloud ของ Google และเราได้ใช้เครติดฟรีของ Google Cloud สำหรับการทำ pretrained model ทำให้เราไม่เสียค่าใช้จ่ายใด ๆ ในการเทรนโมเดลเลย
เราได้ทำการเทรนโมเดลทั้งขนาด 1B กับ 3B บนชุดข้อมูลเดียวกัน โดยใช้สถาปัตยกรรม Llama 2 จำนวนแค่ 1 Epoch เพื่อไม่ให้ repeat
สำหรับ pipeline ในการทำ pretrained model สามารถดูได้ที่ https://github.com/wannaphong/EasyLM/tree/KhanomTanLLM-pretraining
Pretrained Models:
- 1B: https://huggingface.co/pythainlp/KhanomTanLLM-1B
- 3B: https://huggingface.co/pythainlp/KhanomTanLLM-3B
Model
หลังจากที่เราได้โมเดลจาก pretraining แล้ว เราได้นำไปทำ SFT โดยมีโมเดลกับชุดข้อมูลดังนี้
Instruct Models:
- Instruct dataset: wannaphong/KhanomTanLLM-Instruct-dataset
- SFT Script: https://github.com/PyThaiNLP/KhanomTanLLM/tree/main/finetuning
- 1B: https://huggingface.co/pythainlp/KhanomTanLLM-1B-Instruct
- 3B: https://huggingface.co/pythainlp/KhanomTanLLM-3B-Instruct/
Acknowledgements
Research supported with Cloud TPUs from Google’s TPU Research Cloud (TRC). We use TPU4-64 for training model.
Thank you TPU Research Cloud and EasyLM project! We use EasyLM for pretraining model.
บทส่งท้าย
หากคุณนำโมเดลไป eval จะพบว่าโมเดลมีประสิทธิภาพค่อนข้างต่ำในหลายชุดทดสอบ เพราะด้วยขนาดโมเดลที่มีแค่ 1B กับ 3B และเราไม่มีทรัพยากรมากเพียงพอที่จะนำชุดข้อมูลขนาดใหญ่จากภาษาอังกฤษมาเทรนร่วมด้วย เช่น FineWeb, Dolma, The Pile เป็นต้น เราได้เทรน LLM ตัวนี้ด้วยชุดข้อมูลข้อความเพียง 53B tokens หากได้รับการเทรนขนาด >1T tokens น่าจะมีประสิทธิภาพมากยิ่งขึ้น นอกจากนี้ชุดข้อมูลภาษาไทยยังมีขนาดเล็กเกินไปสำหรับการเทรน LLM ให้มีประสิทธิภาพดีที่สุด (12B) ทางแก้ที่ดีที่สุด คือ การปล่อยชุดข้อมูลออกสู่สาธารณะให้มากยิ่งขึ้น, ขอความร่วมมือชุนชนในไทยในการสนับสนุนชุดข้อมูลเปิด และแนวทางการสังเคราะห์ชุดข้อมูลอาจเป็นหนึ่งในแนวทางแก้ไขปัญหาได้
สุดท้ายนี้ เราหวังว่า ชุดข้อมูล pretrained, pipeline, และโมเดลที่เราปล่อยออกสู่สาธารณะจะเป็นประโยชน์ต่อผู้ที่สนใจทำ pretrained Thai LLM และช่วยส่งเสริมวงการ Open Source AI ในประเทศไทยมากยิ่งขึ้น
เขียนโดย วรรณพงษ์ ภัททิยไพบูลย์