README / README.md
rubuntu's picture
Update README.md
7ab5242 verified
metadata
title: Capibara LLM
colorFrom: green
colorTo: yellow
sdk: docker
app_file: app.py
pinned: false
license: apache-2.0
short_description: Open Source LLMs & Datasets for Guarani Jopara (Paraguay).
language:
  - gn
  - es
tags:
  - nlp
  - llm
  - low-resource-languages
  - paraguay
  - jopara
  - capibara

馃惞 Capibara-LLM

Inteligencia Artificial con identidad paraguaya.

Bienvenido a Capibara-LLM, una iniciativa Open Source dedicada al desarrollo de Modelos de Lenguaje (LLMs) y Datasets para el idioma Guaran铆 y su variante Jopara.

Al igual que el Capibara, buscamos ser una comunidad social, tranquila y amigable con el ecosistema open-source.

GitHub Hugging Face


馃幆 Nuestra Misi贸n

El Guaran铆 es un idioma "low-resource" en el mundo de la IA. En Capibara-LLM trabajamos para cambiar eso mediante:

  1. Recopilaci贸n de Datos: Creaci贸n de los datasets m谩s extensos de Guarani-Jopara.
  2. Fine-Tuning: Adaptaci贸n de modelos Gemma, Llama, Qwen y Mistral para que "hablen" como nosotros.
  3. Cultura: Preservar la riqueza lingu铆stica de Paraguay en la era digital.

馃殌 Modelos (The Capibara Zoo)

Modelos ajustados para traducci贸n, generaci贸n de texto y comprensi贸n cultural.

Modelo Base Descripci贸n Link
Capibara-LLM/gemma-2-9b-it-SimPO-Jopara Gemma 2 9B it Nuestro modelo insignia. Entiende y genera Guarani-Jopara. Ver Modelo

馃摎 Datasets

La comida de nuestros Capibaras (Datos):

  • 馃搨 [Capibara-LLM/dataset-guarani-jopara-v01]: Dataset de instrucciones estilo Alpaca traducido al Guarani-Jopara.
  • 馃搨 [Capibara-LLM/gn-multi-affective-alpaca]: Texto masivo limpio de fuentes web y literatura paraguaya.

馃 脷nete a la Manada

Estamos buscando colaboradores para GitHub y Hugging Face.

  • Desarrolladores: Ayuda a limpiar datos en GitHub.
  • Hablantes Nativos: Ayuda a validar las respuestas de nuestros modelos.

Hecho con 馃 y 鉂わ笍 desde Paraguay.