VinAIResearch/PhoBERT

PhoBERT: Pre-trained language models for Vietnamese (EMNLP-2020 Findings)

/ 100

Emerging

Provides base and large transformer models (135M–370M parameters) optimized via RoBERTa's pre-training procedure and trained on 20GB of Vietnamese Wikipedia/news corpora. Integrates seamlessly with Hugging Face `transformers` and `fairseq` frameworks, with models available on the Hub; requires upstream word segmentation via VnCoreNLP's RDRSegmenter to handle Vietnamese morphology before inference. Achieves state-of-the-art on four downstream tasks: POS tagging, dependency parsing, NER, and natural language inference.

775 stars. No commits in the last 6 months.

Stale 6m No Package No Dependents

Maintenance 0 / 25

Adoption 10 / 25

Maturity 16 / 25

Community 21 / 25

How are scores calculated?

Stars

775

Forks

112

Language

—

License

MIT

Higher-rated alternatives

SKTBrain/KoBERT

Korean BERT pre-trained cased (KoBERT)

monologg/KoELECTRA

Pretrained ELECTRA Model for Korean

monologg/KoBERT-Transformers

KoBERT on 🤗 Huggingface Transformers 🤗 (with Bug Fixed)

KB-AI-Research/KB-ALBERT

KB국민은행에서 제공하는 경제/금융 도메인에 특화된 한국어 ALBERT 모델

ymcui/MacBERT

Revisiting Pre-trained Models for Chinese Natural Language Processing (MacBERT)

Explore Transformer Models

All categories Trending Transformer directory Insights