Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +12 -19
config.json +366 -0
model.rknn +1 -1
model_b4_s256.rknn +1 -1
model_b4_s512.rknn +1 -1
rknn/model_o1.rknn +1 -1
rknn/model_o2.rknn +1 -1
rknn/model_o3.rknn +1 -1
rknn/model_w8a8.rknn +1 -1

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ model_name: ms-marco-MiniLM-L12-v2
 - **Original Model:** [cross-encoder/ms-marco-MiniLM-L12-v2](https://huggingface.co/cross-encoder/ms-marco-MiniLM-L12-v2)
 - **Target Platform:** rk3588
 - **rknn-toolkit2 Version:** 2.3.2
-- **rk-transformers Version:** 0.1.1
 ### Available Model Files
@@ -46,40 +46,32 @@ model_name: ms-marco-MiniLM-L12-v2
 ### Installation
-Install `rk-transformers` to use this model:
 ```bash
-pip install rk-transformers
 ```
-#### RKTransformers API
 ```python
-from rktransformers import RKRTModelForSequenceClassification
 from transformers import AutoTokenizer
-# Load tokenizer and model
 tokenizer = AutoTokenizer.from_pretrained("rk-transformers/ms-marco-MiniLM-L12-v2")
-model = RKRTModelForSequenceClassification.from_pretrained(
     "rk-transformers/ms-marco-MiniLM-L12-v2",
     platform="rk3588",
     core_mask="auto",
 )
-# Tokenize and run inference
-inputs = tokenizer(
-    ["Sample text for encoding"],
-    padding="max_length",
-    max_length=512,
-    truncation=True,
-    return_tensors="np"
-)
 outputs = model(**inputs)
-print(outputs.shape)
 # Load specific optimized/quantized model file
-model = RKRTModelForSequenceClassification.from_pretrained(
     "rk-transformers/ms-marco-MiniLM-L12-v2",
     platform="rk3588",
     file_name="rknn/model_w8a8.rknn"
@@ -88,10 +80,11 @@ model = RKRTModelForSequenceClassification.from_pretrained(
 ## Configuration
-The full configuration for all exported RKNN models is available in the [rknn.json](./rknn.json) file.
 </details>
 # Cross-Encoder for MS Marco
 This model was trained on the [MS Marco Passage Ranking](https://github.com/microsoft/MSMARCO-Passage-Ranking) task.

 - **Original Model:** [cross-encoder/ms-marco-MiniLM-L12-v2](https://huggingface.co/cross-encoder/ms-marco-MiniLM-L12-v2)
 - **Target Platform:** rk3588
 - **rknn-toolkit2 Version:** 2.3.2
+- **rk-transformers Version:** 0.3.0
 ### Available Model Files
 ### Installation
+Install `rk-transformers` with inference dependencies to use this model:
 ```bash
+pip install rk-transformers[inference]
 ```
+#### RK-Transformers API
 ```python
+from rktransformers import RKModelForSequenceClassification
 from transformers import AutoTokenizer
 tokenizer = AutoTokenizer.from_pretrained("rk-transformers/ms-marco-MiniLM-L12-v2")
+model = RKModelForSequenceClassification.from_pretrained(
     "rk-transformers/ms-marco-MiniLM-L12-v2",
     platform="rk3588",
     core_mask="auto",
 )
+inputs = tokenizer("Hello, my dog is cute", return_tensors="np")
 outputs = model(**inputs)
+logits = outputs.logits
+print(logits.shape)
 # Load specific optimized/quantized model file
+model = RKModelForSequenceClassification.from_pretrained(
     "rk-transformers/ms-marco-MiniLM-L12-v2",
     platform="rk3588",
     file_name="rknn/model_w8a8.rknn"
 ## Configuration
+The full configuration for all exported RKNN models is available in the [config.json](./config.json) file.
 </details>
+---
 # Cross-Encoder for MS Marco
 This model was trained on the [MS Marco Passage Ranking](https://github.com/microsoft/MSMARCO-Passage-Ranking) task.

config.json CHANGED Viewed

@@ -23,6 +23,372 @@
   "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
   "sbert_ce_default_activation_function": "torch.nn.modules.linear.Identity",
   "torch_dtype": "float32",
   "transformers_version": "4.55.4",

   "num_hidden_layers": 12,
   "pad_token_id": 0,
   "position_embedding_type": "absolute",
+  "rknn": {
+    "model.rknn": {
+      "batch_size": 1,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 512,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 0,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "model_b1_s256.rknn": {
+      "batch_size": 1,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 256,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 0,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "model_b4_s256.rknn": {
+      "batch_size": 4,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 256,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 0,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "model_b4_s512.rknn": {
+      "batch_size": 4,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 512,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 0,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "rknn/model_o1.rknn": {
+      "batch_size": 1,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 512,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 1,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "rknn/model_o2.rknn": {
+      "batch_size": 1,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 512,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 2,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "rknn/model_o3.rknn": {
+      "batch_size": 1,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 512,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 3,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": null,
+        "dataset_name": null,
+        "dataset_size": 128,
+        "dataset_split": null,
+        "dataset_subset": null,
+        "do_quantization": false,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    },
+    "rknn/model_w8a8.rknn": {
+      "batch_size": 1,
+      "custom_string": null,
+      "dynamic_input": null,
+      "float_dtype": "float16",
+      "inputs_yuv_fmt": null,
+      "max_seq_length": 512,
+      "mean_values": null,
+      "model_input_names": [
+        "input_ids",
+        "attention_mask",
+        "token_type_ids"
+      ],
+      "opset": 19,
+      "optimization": {
+        "compress_weight": false,
+        "enable_flash_attention": true,
+        "model_pruning": false,
+        "optimization_level": 0,
+        "remove_reshape": false,
+        "remove_weight": false,
+        "sparse_infer": false
+      },
+      "quantization": {
+        "auto_hybrid_cos_thresh": 0.98,
+        "auto_hybrid_euc_thresh": null,
+        "dataset_columns": [
+          "answer"
+        ],
+        "dataset_name": "sentence-transformers/natural-questions",
+        "dataset_size": 1024,
+        "dataset_split": [
+          "train"
+        ],
+        "dataset_subset": null,
+        "do_quantization": true,
+        "quant_img_RGB2BGR": false,
+        "quantized_algorithm": "normal",
+        "quantized_dtype": "w8a8",
+        "quantized_hybrid_level": 0,
+        "quantized_method": "channel"
+      },
+      "rktransformers_version": "0.3.0",
+      "single_core_mode": false,
+      "std_values": null,
+      "target_platform": "rk3588",
+      "task": "sequence-classification",
+      "task_kwargs": null
+    }
+  },
   "sbert_ce_default_activation_function": "torch.nn.modules.linear.Identity",
   "torch_dtype": "float32",
   "transformers_version": "4.55.4",

model.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bada98d5ef1f57199733bceeb9b348a061eb17b77e444b68cca1557ef64b52b
 size 72099070

 version https://git-lfs.github.com/spec/v1
+oid sha256:646a50d03c63c0aa2745c6716cf5a25f79fa3b1ee39bd3d266d7fcf074e5e4d8
 size 72099070

model_b4_s256.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:872b6e2550a0cd9ed4de28fc86d62b3af6227fdae378f84df5fddb32334d5724
 size 78763262

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd6cd277b1941fbf89bf4cc6e25eaeb19d5781a8e31ccabdd19d4d2433c81ceb
 size 78763262

model_b4_s512.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c640bce5951ca71d22756d003eaccac10159d40e489f15b170c2c781a88fd916
 size 85670846

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd83142741f61ae6c8cde672d694dae638509eec65046a1fb9694a5b5944b779
 size 85670846

rknn/model_o1.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d90dcbea5b184df2830e4a9a84c0135d335df1b43b4c8b2e36ba26d4f654016
 size 72099070

 version https://git-lfs.github.com/spec/v1
+oid sha256:bfc6b8c69a4dc9e31e698b91e3404f0abe6acf746837e938ca43fce4a31841ac
 size 72099070

rknn/model_o2.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b0813cfb3c5bdbab369477ee781addd58a069246ac34b71b6e8c38255070aeb
 size 72099070

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5ca3683f33587cf746c282a72a01778ffa4ec721bc0f996318aadb7957e1deb
 size 72099070

rknn/model_o3.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd402bb19ef3b0a952eafa820aa6b2c9c369668256334b6ec314e7e7436c86ae
 size 72099070

 version https://git-lfs.github.com/spec/v1
+oid sha256:100dbcec0e54ff61cff2b3ebfa52aefa352e7dddb4e50fe8a45deb5390e81282
 size 72099070

rknn/model_w8a8.rknn CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f39839582190c0b2e6f0c260994f946c8ea973ccc456635111e721f1e6e6843
 size 38286411

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1db6b461c724bfecba727a2e268cd1ae637af37aca93adf3def0a4b9e03ee93
 size 38286411