Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

compressed-tensors

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

3,643

Full-text search

Active filters: compressed-tensors

nm-testing/TinyLlama-1.1B-Chat-v1.0-FP8A16_channel-e2e

1B • Updated 16 days ago • 15

nm-testing/TinyLlama-1.1B-Chat-v1.0-FP8A16_tensor-e2e

1B • Updated 16 days ago • 16

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8_channel_weight_static_per_tensor-e2e

1B • Updated 16 days ago • 25

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-e2e

1B • Updated 16 days ago • 22

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8_tensor_weight_static_per_tensor_act-e2e

1B • Updated 16 days ago • 21

nm-testing/TinyLlama-1.1B-Chat-v1.0-kv_cache_default_gptq_tinyllama-e2e

0.3B • Updated 15 days ago • 21

nm-testing/Phi-3-mini-4k-instruct-kv_cache_default_phi3-e2e

4B • Updated 16 days ago • 20

nm-testing/TinyLlama-1.1B-Chat-v1.0-kv_cache_default_tinyllama-e2e

1B • Updated 16 days ago • 25

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse2of4_fp8_dynamic-e2e

0.7B • Updated 16 days ago • 20

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse2of4_only-e2e

0.7B • Updated 16 days ago • 22

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16_2of4_channel-e2e

0.3B • Updated 16 days ago • 25

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16_2of4-e2e

0.3B • Updated 16 days ago • 24

nm-testing/TinyLlama-1.1B-Chat-v1.0-actorder-group-e2e

0.3B • Updated 16 days ago • 63

nm-testing/TinyLlama-1.1B-Chat-v1.0-actorder-weight-e2e

0.3B • Updated 16 days ago • 23

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16_channel-e2e

0.3B • Updated 16 days ago • 23

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16-e2e

0.3B • Updated 16 days ago • 33

RedHatAI/Llama-4-Maverick-17B-128E-Instruct-NVFP4

Text Generation • 229B • Updated 8 days ago • 2.78k • 2

nm-testing/TinyLlama-1.1B-Chat-v1.0-w4a16-asym-awq-e2e

0.3B • Updated 16 days ago • 116

nm-testing/TinyLlama-1.1B-Chat-v1.0-w4a16-sym-awq-e2e

0.3B • Updated 16 days ago • 18

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A16_channel-e2e

0.4B • Updated 16 days ago • 18

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A16-e2e

0.4B • Updated 16 days ago • 31

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-Dynamic-Asym-e2e

1B • Updated 16 days ago • 18

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-Static-Asym-e2e

1B • Updated 7 days ago • 36

taint-technica/DeepSeek-R1-0528-GPU

106B • Updated Oct 27 • 5

Firworks/Magistral-Small-2509-Text-Only-nvfp4

14B • Updated Oct 28 • 11

Firworks/Magistral-Small-2509-36B-Text-Only-nvfp4

20B • Updated Oct 28 • 10

maywell/Qwen3-Embedding-8B-FP8-Dynamic

8B • Updated Oct 28 • 4.52k

thanhh12/aya-expanse-8b-q4-vllm

3B • Updated Oct 28 • 120

chieunq/Qwen3-4B-GPTQ-W8A8_gsm8k2048

4B • Updated Oct 28 • 9

chieunq/Qwen3-4B-W4A16-all_gsm8k2048

3B • Updated Oct 28 • 8