pythainlp.augment
The textaugment
is Thai text augment. This function for text augment task.
Modules
- class pythainlp.augment.WordNetAug[source]
Text Augment using wordnet
- find_synonyms(word: str, pos: str | None = None, postag_corpus: str = 'orchid') List[str] [source]
Find synonyms from wordnet
- augment(sentence: str, tokenize: object = <function word_tokenize>, max_syn_sent: int = 6, postag: bool = True, postag_corpus: str = 'orchid') List[List[str]] [source]
Text Augment using wordnet
- Parameters:
- Returns:
list of synonyms
- Return type:
List[Tuple[str]]
- Example:
from pythainlp.augment import WordNetAug aug = WordNetAug() aug.augment("เราชอบไปโรงเรียน") # output: [('เรา', 'ชอบ', 'ไป', 'ร.ร.'), ('เรา', 'ชอบ', 'ไป', 'รร.'), ('เรา', 'ชอบ', 'ไป', 'โรงเรียน'), ('เรา', 'ชอบ', 'ไป', 'อาคารเรียน'), ('เรา', 'ชอบ', 'ไปยัง', 'ร.ร.'), ('เรา', 'ชอบ', 'ไปยัง', 'รร.')]
- class pythainlp.augment.word2vec.Word2VecAug(model: str, tokenize: object, type: str = 'file')[source]
- class pythainlp.augment.word2vec.Thai2fitAug[source]
Text Augment using word2vec from Thai2Fit
Thai2Fit: github.com/cstorm125/thai2fit
- augment(sentence: str, n_sent: int = 1, p: float = 0.7) List[Tuple[str]] [source]
Text Augment using word2vec from Thai2Fit
- Parameters:
- Returns:
list of text augment
- Return type:
List[Tuple[str]]
- Example:
from pythainlp.augment.word2vec import Thai2fitAug aug = Thai2fitAug() aug.augment("ผมเรียน", n_sent=2, p=0.5) # output: [('พวกเรา', 'เรียน'), ('ฉัน', 'เรียน')]
- class pythainlp.augment.word2vec.LTW2VAug[source]
Text Augment using word2vec from LTW2V
LTW2V: github.com/PyThaiNLP/large-thaiword2vec
- augment(sentence: str, n_sent: int = 1, p: float = 0.7) List[Tuple[str]] [source]
Text Augment using word2vec from Thai2Fit
- Parameters:
- Returns:
list of text augment
- Return type:
List[Tuple[str]]
- Example:
from pythainlp.augment.word2vec import LTW2VAug aug = LTW2VAug() aug.augment("ผมเรียน", n_sent=2, p=0.5) # output: [('เขา', 'เรียนหนังสือ'), ('เขา', 'สมัครเรียน')]
- class pythainlp.augment.lm.FastTextAug(model_path: str)[source]
Text Augment from FastText
- Parameters:
model_path (str) – path of model file
- class pythainlp.augment.lm.Thai2transformersAug[source]
-
- augment(sentence: str, num_replace_tokens: int = 3) List[str] [source]
Text Augment from wangchanberta
- Parameters:
- Returns:
list of text augment
- Return type:
List[str]
- Example:
from pythainlp.augment.lm import Thai2transformersAug aug=Thai2transformersAug() aug.augment("ช้างมีทั้งหมด 50 ตัว บน") # output: ['ช้างมีทั้งหมด 50 ตัว บนโลกใบนี้', 'ช้างมีทั้งหมด 50 ตัว บนสุด', 'ช้างมีทั้งหมด 50 ตัว บนบก', 'ช้างมีทั้งหมด 50 ตัว บนนั้น', 'ช้างมีทั้งหมด 50 ตัว บนหัว']
- class pythainlp.augment.word2vec.bpemb_wv.BPEmbAug(lang: str = 'th', vs: int = 100000, dim: int = 300)[source]
Thai Text Augment using word2vec from BPEmb
BPEmb: github.com/bheinzerling/bpemb
- augment(sentence: str, n_sent: int = 1, p: float = 0.7) List[Tuple[str]] [source]
Text Augment using word2vec from BPEmb
- Parameters:
- Returns:
list of synonyms
- Return type:
List[str]
- Example:
from pythainlp.augment.word2vec.bpemb_wv import BPEmbAug aug = BPEmbAug() aug.augment("ผมเรียน", n_sent=2, p=0.5) # output: ['ผมสอน', 'ผมเข้าเรียน']