Open to Collab

Muhammad Umair

umair894

AI & ML interests

Multimodal Reidentification | Feature Upscaling | Cross-modal alignment | robust generalization | PhD UESTC

Recent Activity

upvoted a paper 1 day ago

Multi-Agent Computer Use

upvoted a paper 1 day ago

Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

upvoted a paper 1 day ago

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

View all activity

Organizations

upvoted 4 papers 1 day ago

Multi-Agent Computer Use

Paper • 2606.01533 • Published 3 days ago • 5

Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

Paper • 2606.01247 • Published 4 days ago • 25

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

Paper • 2605.28132 • Published 8 days ago • 20

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

Paper • 2606.02437 • Published 3 days ago • 135

liked 2 Spaces 1 day ago

NV-Generate Synthetic Medical Imaging

🧠

Synthetic 3D CT and MR generation with NVIDIA NV-Generate.

LocateAnything

💬

150

Detect and label objects in images and videos

liked a model 3 days ago

nvidia/LocateAnything-3B

Image-Text-to-Text • 4B • Updated 7 days ago • 78.9k • 1.13k

liked 2 Spaces 3 days ago

LTX 2.3 Studio

🎬

197

Generate videos from text, images, audio, or video clips

Omni-Video-Factory-API-iframe

🐠

Access video creation tools via an embedded interface

liked a model 4 days ago

lintw/HealthGPT-Pro-4B

Image-Text-to-Image • 4B • Updated 30 days ago • 73 • 3

upvoted 5 papers 4 days ago

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

Paper • 2605.22189 • Published 14 days ago • 6

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

Paper • 2605.29341 • Published 7 days ago • 14

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

Paper • 2605.30161 • Published 7 days ago • 57

Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

Paper • 2605.30280 • Published 7 days ago • 134

OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

Paper • 2605.29250 • Published 7 days ago • 74

upvoted 2 papers 9 days ago

Your Embedding Model is SMARTer Than You Think

Paper • 2605.24938 • Published 11 days ago • 25

Helix4D: Complex 4D Mesh Generation

Paper • 2605.26109 • Published 10 days ago • 14

liked 2 Spaces 9 days ago

Carbon

🧬

160

Explore DNA model predictions and protein folding interactively

VGGT-Omega Demo

🌀

3D reconstruction from images/video with VGGT-Omega

upvoted a paper 10 days ago

WorldKV: Efficient World Memory with World Retrieval and Compression

Paper • 2605.22718 • Published 14 days ago • 41

Muhammad Umair

AI & ML interests

Recent Activity

Organizations

umair894's activity

NV-Generate Synthetic Medical Imaging

LocateAnything

LTX 2.3 Studio

Omni-Video-Factory-API-iframe

Carbon

VGGT-Omega Demo