Spaces:

OpenIXCLab
/

mmlongbench-doc

Running

yuhangzang Claude Opus 4.7 (1M context) commited on Apr 19

Commit

5bda49b

1 Parent(s): d5ebc54

Add modality/size/open-source filters and new model results

Add Claude 4.5 Opus, Gemini-3 Pro, and Qwen3.5-397B-A17B; introduce
modality and params_b fields with Gradio filter controls.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

Files changed (3) hide show

app.py +56 -31
leaderboard_data.json +64 -0
src/json_leaderboard.py +60 -19

app.py CHANGED Viewed

@@ -2,7 +2,12 @@ import gradio as gr
 import pandas as pd
 from pathlib import Path
-from src.json_leaderboard import create_leaderboard_df, get_leaderboard_stats
 from src.about import (
     CITATION_BUTTON_LABEL,
     CITATION_BUTTON_TEXT,
@@ -14,39 +19,35 @@ from src.about import (
 from src.display.css_html_js import custom_css
-def create_simple_leaderboard():
-    """Create a simple leaderboard from JSON data"""
-    json_path = Path(__file__).parent / "leaderboard_data.json"
-    df = create_leaderboard_df(str(json_path))
-    if df.empty:
-        return gr.Dataframe(value=pd.DataFrame({"Error": ["No data available"]}))
-    return gr.Dataframe(
-        value=df,
-        headers=list(df.columns),
-        datatype=["html", "str", "html", "str", "str", "str", "str"],
-        interactive=False,
-        wrap=True
     )
 def get_stats_display():
     """Get formatted statistics for display"""
-    json_path = Path(__file__).parent / "leaderboard_data.json"
-    stats = get_leaderboard_stats(str(json_path))
     if not stats:
         return "No statistics available"
-    stats_text = f"""
     ### 📊 Leaderboard Statistics
     - **Total Models**: {stats['total_models']}
     - **Best Score**: {stats['max_acc']:.1f}
     - **Lowest Score**: {stats['min_acc']:.1f}
     """
-    return stats_text
 # Create the Gradio interface
@@ -56,17 +57,41 @@ with demo:
     gr.HTML(TITLE)
     gr.HTML(LINKS_AND_INFO)
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 Leaderboard", elem_id="llm-benchmark-tab-table", id=0):
-            # Statistics display
             stats_display = gr.Markdown(get_stats_display())
-            # Leaderboard table
-            leaderboard_table = create_simple_leaderboard()
     with gr.Row():
         with gr.Column():
             gr.Markdown("## 📙 Citation")
@@ -82,4 +107,4 @@ with demo:
 if __name__ == "__main__":
-    demo.launch()

 import pandas as pd
 from pathlib import Path
+from src.json_leaderboard import (
+    create_leaderboard_df,
+    get_leaderboard_stats,
+    SIZE_BANDS,
+    MODALITIES,
+)
 from src.about import (
     CITATION_BUTTON_LABEL,
     CITATION_BUTTON_TEXT,
 from src.display.css_html_js import custom_css
+JSON_PATH = str(Path(__file__).parent / "leaderboard_data.json")
+TABLE_DATATYPES = ["html", "str", "html", "str", "str", "str", "str"]
+def filter_leaderboard(open_source_only, size_band, modality):
+    df = create_leaderboard_df(
+        JSON_PATH,
+        open_source_only=open_source_only,
+        size_band=size_band,
+        modality=modality,
     )
+    if df.empty:
+        return pd.DataFrame({"Result": ["No models match the selected filters."]})
+    return df
 def get_stats_display():
     """Get formatted statistics for display"""
+    stats = get_leaderboard_stats(JSON_PATH)
     if not stats:
         return "No statistics available"
+    return f"""
     ### 📊 Leaderboard Statistics
     - **Total Models**: {stats['total_models']}
     - **Best Score**: {stats['max_acc']:.1f}
     - **Lowest Score**: {stats['min_acc']:.1f}
     """
 # Create the Gradio interface
     gr.HTML(TITLE)
     gr.HTML(LINKS_AND_INFO)
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
         with gr.TabItem("🏅 Leaderboard", elem_id="llm-benchmark-tab-table", id=0):
             stats_display = gr.Markdown(get_stats_display())
+            with gr.Row():
+                open_source_filter = gr.Checkbox(
+                    label="Open-source only",
+                    value=False,
+                )
+                size_filter = gr.Dropdown(
+                    choices=SIZE_BANDS,
+                    value="All",
+                    label="Model size (activated params)",
+                )
+                modality_filter = gr.Radio(
+                    choices=MODALITIES,
+                    value="All",
+                    label="Modality",
+                )
+            leaderboard_table = gr.Dataframe(
+                value=filter_leaderboard(False, "All", "All"),
+                datatype=TABLE_DATATYPES,
+                interactive=False,
+                wrap=True,
+            )
+            for control in (open_source_filter, size_filter, modality_filter):
+                control.change(
+                    fn=filter_leaderboard,
+                    inputs=[open_source_filter, size_filter, modality_filter],
+                    outputs=leaderboard_table,
+                )
     with gr.Row():
         with gr.Column():
             gr.Markdown("## 📙 Citation")
 if __name__ == "__main__":
+    demo.launch()

leaderboard_data.json CHANGED Viewed

@@ -1,10 +1,48 @@
 {
   "leaderboard": [
     {
       "model": "GLM-4.6V",
       "link": "https://huggingface.co/zai-org/GLM-4.6V",
       "hf": "https://huggingface.co/zai-org/GLM-4.6V",
       "params": "12B activated (106B total)",
       "open_source": true,
       "acc": 54.9,
       "release_date": "2025-12",
@@ -15,6 +53,8 @@
       "link": "https://www.teleai.com.cn/",
       "hf": "-",
       "params": "-",
       "open_source": false,
       "acc": 56.1,
       "release_date": "2026-01",
@@ -25,6 +65,8 @@
       "link": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Thinking",
       "hf": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Thinking",
       "params": "22B activated (235B total)",
       "open_source": true,
       "acc": 56.2,
       "release_date": "2025-09",
@@ -35,6 +77,8 @@
       "link": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct",
       "hf": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct",
       "params": "22B activated (235B total)",
       "open_source": true,
       "acc": 57.0,
       "release_date": "2025-09",
@@ -45,6 +89,8 @@
       "link": "https://arxiv.org/pdf/2507.01006",
       "hf": "https://huggingface.co/zai-org/GLM-4.5V",
       "params": "12B activated (106B total)",
       "open_source": true,
       "acc": 44.7,
       "release_date": "2025-07",
@@ -55,6 +101,8 @@
       "link": "https://arxiv.org/pdf/2507.01006",
       "hf": "https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking",
       "params": "9B",
       "open_source": true,
       "acc": 42.4,
       "release_date": "2025-07",
@@ -65,6 +113,8 @@
       "link": "https://openai.com/index/gpt-4-1/",
       "hf": "-",
       "params": "-",
       "open_source": false,
       "acc": 49.7,
       "release_date": "2025-04",
@@ -75,6 +125,8 @@
       "link": "https://arxiv.org/abs/2410.21276",
       "hf": "-",
       "params": "-",
       "open_source": false,
       "acc": 46.3,
       "release_date": "2024-11",
@@ -85,6 +137,8 @@
       "link": "https://arxiv.org/pdf/2504.07491",
       "hf": "https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506",
       "params": "2.8B activated (16B total)",
       "open_source": true,
       "acc": 42.1,
       "release_date": "2025-06",
@@ -95,6 +149,8 @@
       "link": "https://arxiv.org/pdf/2504.07491",
       "hf": "https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct",
       "params": "2.8B activated (16B total)",
       "open_source": true,
       "acc": 35.1,
       "release_date": "2025-04",
@@ -105,6 +161,8 @@
       "link": "https://arxiv.org/abs/2502.13923",
       "hf": "https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct",
       "params": "72B",
       "open_source": true,
       "acc": 35.2,
       "release_date": "2025-02",
@@ -115,6 +173,8 @@
       "link": "https://arxiv.org/abs/2502.13923",
       "hf": "https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct",
       "params": "7B",
       "open_source": true,
       "acc": 25.1,
       "release_date": "2025-02",
@@ -125,6 +185,8 @@
       "link": "https://arxiv.org/pdf/2501.08313",
       "hf": "https://huggingface.co/MiniMaxAI/MiniMax-VL-01",
       "params": "45.9B activated (456B total)",
       "open_source": true,
       "acc": 32.5,
       "release_date": "2025-01",
@@ -135,6 +197,8 @@
       "link": "https://arxiv.org/pdf/2410.05993",
       "hf": "https://huggingface.co/rhymes-ai/Aria",
       "params": "3.9B activated (25.3B total)",
       "open_source": true,
       "acc": 28.3,
       "release_date": "2024-10",

 {
   "leaderboard": [
+    {
+      "model": "Claude 4.5 Opus",
+      "link": "https://www.anthropic.com/news/claude-opus-4-5",
+      "hf": "-",
+      "params": "-",
+      "params_b": null,
+      "modality": "VL",
+      "open_source": false,
+      "acc": 61.9,
+      "release_date": "2025-11",
+      "moe": "-"
+    },
+    {
+      "model": "Gemini-3 Pro",
+      "link": "https://blog.google/technology/google-deepmind/gemini-3/",
+      "hf": "-",
+      "params": "-",
+      "params_b": null,
+      "modality": "VL",
+      "open_source": false,
+      "acc": 60.5,
+      "release_date": "2025-11",
+      "moe": "-"
+    },
+    {
+      "model": "Qwen3.5-397B-A17B",
+      "link": "https://huggingface.co/Qwen/Qwen3.5-397B-A17B",
+      "hf": "https://huggingface.co/Qwen/Qwen3.5-397B-A17B",
+      "params": "17B activated (397B total)",
+      "params_b": 17,
+      "modality": "VL",
+      "open_source": true,
+      "acc": 61.5,
+      "release_date": "2026-02",
+      "moe": true
+    },
     {
       "model": "GLM-4.6V",
       "link": "https://huggingface.co/zai-org/GLM-4.6V",
       "hf": "https://huggingface.co/zai-org/GLM-4.6V",
       "params": "12B activated (106B total)",
+      "params_b": 12,
+      "modality": "VL",
       "open_source": true,
       "acc": 54.9,
       "release_date": "2025-12",
       "link": "https://www.teleai.com.cn/",
       "hf": "-",
       "params": "-",
+      "params_b": null,
+      "modality": "VL",
       "open_source": false,
       "acc": 56.1,
       "release_date": "2026-01",
       "link": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Thinking",
       "hf": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Thinking",
       "params": "22B activated (235B total)",
+      "params_b": 22,
+      "modality": "VL",
       "open_source": true,
       "acc": 56.2,
       "release_date": "2025-09",
       "link": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct",
       "hf": "https://huggingface.co/Qwen/Qwen3-VL-235B-A22B-Instruct",
       "params": "22B activated (235B total)",
+      "params_b": 22,
+      "modality": "VL",
       "open_source": true,
       "acc": 57.0,
       "release_date": "2025-09",
       "link": "https://arxiv.org/pdf/2507.01006",
       "hf": "https://huggingface.co/zai-org/GLM-4.5V",
       "params": "12B activated (106B total)",
+      "params_b": 12,
+      "modality": "VL",
       "open_source": true,
       "acc": 44.7,
       "release_date": "2025-07",
       "link": "https://arxiv.org/pdf/2507.01006",
       "hf": "https://huggingface.co/THUDM/GLM-4.1V-9B-Thinking",
       "params": "9B",
+      "params_b": 9,
+      "modality": "VL",
       "open_source": true,
       "acc": 42.4,
       "release_date": "2025-07",
       "link": "https://openai.com/index/gpt-4-1/",
       "hf": "-",
       "params": "-",
+      "params_b": null,
+      "modality": "VL",
       "open_source": false,
       "acc": 49.7,
       "release_date": "2025-04",
       "link": "https://arxiv.org/abs/2410.21276",
       "hf": "-",
       "params": "-",
+      "params_b": null,
+      "modality": "Omni",
       "open_source": false,
       "acc": 46.3,
       "release_date": "2024-11",
       "link": "https://arxiv.org/pdf/2504.07491",
       "hf": "https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506",
       "params": "2.8B activated (16B total)",
+      "params_b": 2.8,
+      "modality": "VL",
       "open_source": true,
       "acc": 42.1,
       "release_date": "2025-06",
       "link": "https://arxiv.org/pdf/2504.07491",
       "hf": "https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct",
       "params": "2.8B activated (16B total)",
+      "params_b": 2.8,
+      "modality": "VL",
       "open_source": true,
       "acc": 35.1,
       "release_date": "2025-04",
       "link": "https://arxiv.org/abs/2502.13923",
       "hf": "https://huggingface.co/Qwen/Qwen2.5-VL-72B-Instruct",
       "params": "72B",
+      "params_b": 72,
+      "modality": "VL",
       "open_source": true,
       "acc": 35.2,
       "release_date": "2025-02",
       "link": "https://arxiv.org/abs/2502.13923",
       "hf": "https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct",
       "params": "7B",
+      "params_b": 7,
+      "modality": "VL",
       "open_source": true,
       "acc": 25.1,
       "release_date": "2025-02",
       "link": "https://arxiv.org/pdf/2501.08313",
       "hf": "https://huggingface.co/MiniMaxAI/MiniMax-VL-01",
       "params": "45.9B activated (456B total)",
+      "params_b": 45.9,
+      "modality": "VL",
       "open_source": true,
       "acc": 32.5,
       "release_date": "2025-01",
       "link": "https://arxiv.org/pdf/2410.05993",
       "hf": "https://huggingface.co/rhymes-ai/Aria",
       "params": "3.9B activated (25.3B total)",
+      "params_b": 3.9,
+      "modality": "VL",
       "open_source": true,
       "acc": 28.3,
       "release_date": "2024-10",

src/json_leaderboard.py CHANGED Viewed

@@ -3,6 +3,10 @@ import pandas as pd
 from pathlib import Path
 def load_leaderboard_from_json(json_path="leaderboard_data.json"):
     """Load leaderboard data from JSON file"""
     try:
@@ -17,20 +21,58 @@ def load_leaderboard_from_json(json_path="leaderboard_data.json"):
         return []
-def create_leaderboard_df(json_path="leaderboard_data.json"):
-    """Create a pandas DataFrame from JSON leaderboard data"""
     leaderboard_data = load_leaderboard_from_json(json_path)
     if not leaderboard_data:
         return pd.DataFrame()
-    # Convert to DataFrame
     df = pd.DataFrame(leaderboard_data)
-    # Sort by ACC score (descending)
     df = df.sort_values('acc', ascending=False).reset_index(drop=True)
-    # Add ranking icons and make model names clickable links to papers
     def add_ranking_icon_and_link(index, model_name, paper_link):
         if index == 0:
             return f'🥇 <a href="{paper_link}" target="_blank">{model_name}</a>'
@@ -40,37 +82,36 @@ def create_leaderboard_df(json_path="leaderboard_data.json"):
             return f'🥉 <a href="{paper_link}" target="_blank">{model_name}</a>'
         else:
             return f'<a href="{paper_link}" target="_blank">{model_name}</a>'
-    # Format the DataFrame for display
     display_df = pd.DataFrame({
         'Model': [add_ranking_icon_and_link(i, model, link) for i, (model, link) in enumerate(zip(df['model'], df['link']))],
         'Release Date': df['release_date'],
         'HF Model': df['hf'].apply(lambda x: f'<a href="{x}" target="_blank">🤗</a>' if x != "-" else "-"),
-        'MoE': df['moe'].apply(lambda x: '-' if x == '-' else ('✓' if x else '✗')),
         'Parameters': df['params'],
         'Open Source': df['open_source'].apply(lambda x: '✓' if x else '✗'),
         'ACC Score': df['acc'].apply(lambda x: f"{x:.1f}")
     })
     return display_df
 def get_leaderboard_stats(json_path="leaderboard_data.json"):
     """Get statistics about the leaderboard"""
     leaderboard_data = load_leaderboard_from_json(json_path)
     if not leaderboard_data:
         return {}
     df = pd.DataFrame(leaderboard_data)
     stats = {
         'total_models': len(df),
-        'open_source_models': df['open_source'].sum(),
-        'moe_models': df['moe'].apply(lambda x: 1 if x is True else 0).sum(),
         'avg_acc': df['acc'].mean(),
         'max_acc': df['acc'].max(),
         'min_acc': df['acc'].min()
     }
     return stats

 from pathlib import Path
+SIZE_BANDS = ["All", "<10B", "10-32B", "32-100B", ">100B", "Unknown"]
+MODALITIES = ["All", "VL", "Omni"]
 def load_leaderboard_from_json(json_path="leaderboard_data.json"):
     """Load leaderboard data from JSON file"""
     try:
         return []
+def _in_size_band(params_b, band):
+    if band == "All":
+        return True
+    if params_b is None or pd.isna(params_b):
+        return band == "Unknown"
+    if band == "<10B":
+        return params_b < 10
+    if band == "10-32B":
+        return 10 <= params_b < 32
+    if band == "32-100B":
+        return 32 <= params_b < 100
+    if band == ">100B":
+        return params_b >= 100
+    if band == "Unknown":
+        return False
+    return True
+def create_leaderboard_df(
+    json_path="leaderboard_data.json",
+    open_source_only=False,
+    size_band="All",
+    modality="All",
+):
+    """Create a pandas DataFrame from JSON leaderboard data, with optional filters."""
     leaderboard_data = load_leaderboard_from_json(json_path)
     if not leaderboard_data:
         return pd.DataFrame()
     df = pd.DataFrame(leaderboard_data)
+    # Backfill optional columns for older JSON entries
+    if 'params_b' not in df.columns:
+        df['params_b'] = None
+    if 'modality' not in df.columns:
+        df['modality'] = "VL"
+    # Apply filters
+    if open_source_only:
+        df = df[df['open_source'] == True]
+    if modality and modality != "All":
+        df = df[df['modality'] == modality]
+    if size_band and size_band != "All":
+        df = df[df['params_b'].apply(lambda v: _in_size_band(v, size_band))]
+    if df.empty:
+        return pd.DataFrame()
+    # Sort by ACC score (descending) so medal icons reflect the filtered view
     df = df.sort_values('acc', ascending=False).reset_index(drop=True)
     def add_ranking_icon_and_link(index, model_name, paper_link):
         if index == 0:
             return f'🥇 <a href="{paper_link}" target="_blank">{model_name}</a>'
             return f'🥉 <a href="{paper_link}" target="_blank">{model_name}</a>'
         else:
             return f'<a href="{paper_link}" target="_blank">{model_name}</a>'
     display_df = pd.DataFrame({
         'Model': [add_ranking_icon_and_link(i, model, link) for i, (model, link) in enumerate(zip(df['model'], df['link']))],
         'Release Date': df['release_date'],
         'HF Model': df['hf'].apply(lambda x: f'<a href="{x}" target="_blank">🤗</a>' if x != "-" else "-"),
+        'Modality': df['modality'],
         'Parameters': df['params'],
         'Open Source': df['open_source'].apply(lambda x: '✓' if x else '✗'),
         'ACC Score': df['acc'].apply(lambda x: f"{x:.1f}")
     })
     return display_df
 def get_leaderboard_stats(json_path="leaderboard_data.json"):
     """Get statistics about the leaderboard"""
     leaderboard_data = load_leaderboard_from_json(json_path)
     if not leaderboard_data:
         return {}
     df = pd.DataFrame(leaderboard_data)
     stats = {
         'total_models': len(df),
+        'open_source_models': int(df['open_source'].sum()),
+        'moe_models': int(df['moe'].apply(lambda x: 1 if x is True else 0).sum()),
         'avg_acc': df['acc'].mean(),
         'max_acc': df['acc'].max(),
         'min_acc': df['acc'].min()
     }
     return stats