עודכן 26 בפברואר 2026

מדדי ביצועים של מודלי AI

השוואת מודלי הבינה המלאכותית המובילים במבחני קידוד, חשיבה, מתמטיקה וידע. הנתונים נאספו מפרסומים רשמיים והערכות עצמאיות.

10
מודלים בהשוואה
8
מדדים
5
קטגוריות
פבר׳ 2026
עדכון אחרון

דירוג כללי

ממוצע על פני כל המדדים (ציונים מנורמלים)

1

Gemini 3.1 Pro

Google
MathMultimodalLong contextReasoning
81.7
ציון ממוצע
2

Claude Opus 4.6

Anthropic
Long contextCodingAnalysisSafety
73.6
ציון ממוצע
3

GPT-5.3 Codex

OpenAI
Agentic tasksCodingTool use
72.8
ציון ממוצע
4

Claude Opus 4.5

Anthropic
Creative writingAnalysisReasoningSafety
69.7
ציון ממוצע
5

GPT-5.2

OpenAI
General purposeReasoningVersatility
69.2
ציון ממוצע
6

Claude Sonnet 4.6

Anthropic
CodingSpeedValueComputer use
69.0
ציון ממוצע
7

DeepSeek V4

DeepSeek
Cost efficiencyOpen weightsMath
68.0
ציון ממוצע
8

Grok 4

xAI
Real-time dataReasoningUncensored
67.3
ציון ממוצע
9

Gemini 3 Flash

Google
SpeedCostMultimodal
59.8
ציון ממוצע
10

Llama 4 405B

Meta
Open sourceSelf-hostingCustomization
58.2
ציון ממוצע

מדדי קידוד

משימות הנדסת תוכנה ויצירת קוד מהעולם האמיתי

SWE-Bench Verified

Real-world software engineering tasks from GitHub issues

גבוה יותר = טוב יותר
1
Claude Sonnet 4.6
82.1%
2
Claude Opus 4.6
79.2%
3
GPT-5.3 Codex
78.5%
4
Claude Opus 4.5
74.4%
5
Gemini 3.1 Pro
74.2%
6
GPT-5.2
72.4%
7
Grok 4
71.3%
8
DeepSeek V4
68.9%
9
Llama 4 405B
65.2%
10
Gemini 3 Flash
62.8%

HumanEval

Python code generation with unit test verification

גבוה יותר = טוב יותר
1
GPT-5.3 Codex
97.4%
2
Claude Opus 4.6
96.8%
3
Gemini 3.1 Pro
95.8%
4
Claude Sonnet 4.6
95.2%
5
Claude Opus 4.5
94.5%
6
GPT-5.2
94.1%
7
Grok 4
93.5%
8
DeepSeek V4
92.8%
9
Gemini 3 Flash
89.2%
10
Llama 4 405B
88.4%

מדדי ידע

ידע כללי והבנה בתחומים שונים

MMLU

Massive Multitask Language Understanding across 57 subjects

גבוה יותר = טוב יותר
1
Gemini 3.1 Pro
94.3%
2
GPT-5.3 Codex
93%
3
Claude Opus 4.6
91.3%
4
GPT-5.2
90.8%
5
Claude Opus 4.5
89.8%
6
Grok 4
89.2%
7
Claude Sonnet 4.6
88.7%
8
DeepSeek V4
88.4%
9
Gemini 3 Flash
86.5%
10
Llama 4 405B
86.1%

מדדי חשיבה

יכולות חשיבה מופשטת ופתרון בעיות

ARC-AGI-2

Abstract reasoning - designed to be easy for humans, hard for AI

גבוה יותר = טוב יותר
1
Gemini 3.1 Pro
77.1%
2
GPT-5.2
54%
3
GPT-5.3 Codex
51.8%
4
Claude Opus 4.6
48.2%
5
Grok 4
45.3%
6
Claude Opus 4.5
43.5%
7
Claude Sonnet 4.6
42.1%
8
DeepSeek V4
41.2%
9
Gemini 3 Flash
38.5%
10
Llama 4 405B
32.8%

GPQA Diamond

Graduate-level science questions (physics, chemistry, biology)

גבוה יותר = טוב יותר
1
Gemini 3.1 Pro
78.4%
2
Claude Opus 4.6
74.8%
3
Claude Opus 4.5
72.1%
4
GPT-5.3 Codex
71.5%
5
GPT-5.2
69.8%
6
Claude Sonnet 4.6
68.2%
7
Grok 4
67.3%
8
DeepSeek V4
65.8%
9
Llama 4 405B
61.2%
10
Gemini 3 Flash
58.2%

מדדי מתמטיקה

חשיבה מתמטית מרמה בסיסית ועד לתחרויות

MATH-500

Competition-level mathematics problems

גבוה יותר = טוב יותר
1
Gemini 3.1 Pro
91.2%
2
DeepSeek V4
85.3%
3
Claude Opus 4.6
82.4%
4
GPT-5.3 Codex
79.8%
5
Claude Opus 4.5
78.6%
6
Claude Sonnet 4.6
78.1%
7
Grok 4
77.8%
8
GPT-5.2
76.5%
9
Gemini 3 Flash
72.4%
10
Llama 4 405B
68.9%

AIME 2024

American Invitational Mathematics Examination problems

גבוה יותר = טוב יותר
1
Gemini 3.1 Pro
68.5%
2
DeepSeek V4
52.8%
3
Claude Opus 4.6
45.2%
4
GPT-5.3 Codex
42.8%
5
Grok 4
41.2%
6
Claude Opus 4.5
40.8%
7
GPT-5.2
40.1%
8
Claude Sonnet 4.6
38.4%
9
Gemini 3 Flash
28.6%
10
Llama 4 405B
25.4%

מדדי העדפת משתמשים

דירוגי העדפה מבוססי המון

Chatbot Arena Elo

Crowdsourced human preference ratings from 6M+ votes

דירוג Elo
1
Gemini 3.1 Pro
1348
2
Claude Opus 4.6
1342
3
GPT-5.3 Codex
1335
4
Claude Opus 4.5
1328
5
Claude Sonnet 4.6
1318
6
GPT-5.2
1312
7
Grok 4
1305
8
DeepSeek V4
1298
9
Gemini 3 Flash
1285
10
Llama 4 405B
1275

מפרטי המודלים

חלונות הקשר, מחירים ותאריכי שחרור

מודל חברה הקשר פלט מקסימלי קלט $/1M פלט $/1M שוחרר
Claude Opus 4.6
Anthropic 1.0M 128K $15.00 $75.00 2026-02
Claude Opus 4.5
Anthropic 200K 32K $15.00 $75.00 2025-10
Claude Sonnet 4.6
Anthropic 200K 64K $3.00 $15.00 2026-02
GPT-5.3 Codex
OpenAI 256K 32K $5.00 $20.00 2026-02
GPT-5.2
OpenAI 128K 16K $2.50 $10.00 2025-12
Gemini 3.1 Pro
Google 2.0M 65.536K $1.25 $5.00 2026-02
Gemini 3 Flash
Google 1.0M 32.768K $0.07 $0.30 2026-01
Grok 4
xAI 256K 32K $3.00 $15.00 2026-02
DeepSeek V4
DeepSeek 128K 16K $0.14 $0.28 2026-02
Llama 4 405B
Meta 128K 16K חינם חינם 2026-01

מתודולוגיה ומקורות

ציוני המדדים נאספים מפרסומים רשמיים של המודלים, מאמרים מחקריים ופלטפורמות הערכה עצמאיות. אנו מעדיפים תוצאות מאומתות וניתנות לשחזור.

הסבר על המדדים העיקריים

  • SWE-Bench Verified: משימות הנדסת תוכנה אמיתיות מ-GitHub, בוחנות יכולת קידוד מלאה
  • HumanEval: יצירת קוד Python עם אימות בדיקות יחידה (164 בעיות)
  • MMLU: מבחן ידע ב-57 נושאים מדעי, הומניסטי וחברתי
  • ARC-AGI-2: חשיבה מופשטת - קל לבני אדם, קשה ל-AI
  • GPQA Diamond: שאלות מדע ברמת תואר שני הדורשות הבנה עמוקה
  • MATH-500: מתמטיקה ברמת תחרויות מ-AMC ועד IMO
  • Chatbot Arena: דירוגי ELO מיותר מ-6 מיליון הצבעות העדפה אנושית

מגבלות

  • מדדים אינם משקפים את כל היכולות בעולם האמיתי
  • ציונים יכולים להשתנות בהתאם לפרומפט ולהגדרות ההערכה
  • חלק מהמדדים עשויים להיות רוויים במודלים מתקדמים
  • מחירים ויכולות משתנים לעיתים קרובות

רוצים להישאר מעודכנים על מודלי AI?

אנחנו מעדכנים את המדדים כשמודלים חדשים משוחררים ונבדקים.

עקבו אחרי חדשות AI