omarmomen
/

babylm_tokenizer_32k

Model card Files Files and versions

Model Card for omarmomen/babylm_tokenizer_32k

This tokenizer is part of the experiments in the published paper at the BabyLM workshop in CoNLL 2023. The paper titled "Increasing The Performance of Cognitively Inspired Data-Efficient Language Models via Implicit Structure Building" (https://aclanthology.org/2023.conll-babylm.29/)

omarmomen/babylm_tokenizer_32k is a RobertaTokenizer that is pretrained on the BabyLM 10M dataset (cased) with 32K tokens.

https://arxiv.org/abs/2310.20589

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train omarmomen/babylm_tokenizer_32k

Paper for omarmomen/babylm_tokenizer_32k

Increasing The Performance of Cognitively Inspired Data-Efficient Language Models via Implicit Structure Building

Paper • 2310.20589 • Published Oct 31, 2023