Spaces:
No application file
No application file
metadata
title: Capibara LLM
colorFrom: green
colorTo: yellow
sdk: docker
app_file: app.py
pinned: false
license: apache-2.0
short_description: Open Source LLMs & Datasets for Guarani Jopara (Paraguay).
language:
- gn
- es
tags:
- nlp
- llm
- low-resource-languages
- paraguay
- jopara
- capibara
馃惞 Capibara-LLM
Inteligencia Artificial con identidad paraguaya.
Bienvenido a Capibara-LLM, una iniciativa Open Source dedicada al desarrollo de Modelos de Lenguaje (LLMs) y Datasets para el idioma Guaran铆 y su variante Jopara.
Al igual que el Capibara, buscamos ser una comunidad social, tranquila y amigable con el ecosistema open-source.
馃幆 Nuestra Misi贸n
El Guaran铆 es un idioma "low-resource" en el mundo de la IA. En Capibara-LLM trabajamos para cambiar eso mediante:
- Recopilaci贸n de Datos: Creaci贸n de los datasets m谩s extensos de Guarani-Jopara.
- Fine-Tuning: Adaptaci贸n de modelos Gemma, Llama, Qwen y Mistral para que "hablen" como nosotros.
- Cultura: Preservar la riqueza lingu铆stica de Paraguay en la era digital.
馃殌 Modelos (The Capibara Zoo)
Modelos ajustados para traducci贸n, generaci贸n de texto y comprensi贸n cultural.
| Modelo | Base | Descripci贸n | Link |
|---|---|---|---|
| Capibara-LLM/gemma-2-9b-it-SimPO-Jopara | Gemma 2 9B it | Nuestro modelo insignia. Entiende y genera Guarani-Jopara. | Ver Modelo |
馃摎 Datasets
La comida de nuestros Capibaras (Datos):
- 馃搨 [Capibara-LLM/dataset-guarani-jopara-v01]: Dataset de instrucciones estilo Alpaca traducido al Guarani-Jopara.
- 馃搨 [Capibara-LLM/gn-multi-affective-alpaca]: Texto masivo limpio de fuentes web y literatura paraguaya.
馃 脷nete a la Manada
Estamos buscando colaboradores para GitHub y Hugging Face.
- Desarrolladores: Ayuda a limpiar datos en GitHub.
- Hablantes Nativos: Ayuda a validar las respuestas de nuestros modelos.
Hecho con 馃 y 鉂わ笍 desde Paraguay.