🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)

Modelo de Classificação de Entidades Visuais (Fine-Tuned ViT-Base)

Este modelo representa o Estágio 2 (Refinamento) do projeto ReINVenTA (FrameNet Brasil). Ele é responsável por classificar recortes de objetos (crops) detectados nas imagens, atribuindo-lhes categorias semânticas da hierarquia FrameNet.

📊 Performance

O modelo foi treinado no dataset Flickr30k Entities, lidando com 600+ classes desbalanceadas.

  • Acurácia Global: 47.5%
  • Top-20 Accuracy: 55.9%

Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: Person vs Person_by_age).

🧠 Contexto do Projeto

Este classificador atua como um refinador para o Estágio 1 (YOLO). Enquanto o YOLO detecta onde estão os objetos, o ViT confirma o que eles são com maior granularidade, alimentando o vetor simbólico para a fusão Neuro-Simbólica final.


FrameNet Brasil - UFJF

Downloads last month
18
Safetensors
Model size
86.4M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support