דירוג סוכני קידוד
כמו לכל דבר גם לסוכני קידוד יש מדדים אבל כשנכנסים להבין מה יש במדדים האלה מתחילים לראות למה הקוד שהם מייצרים לא דומה לקוד שבני אדם כותבים.
חיפוש agentic coding benchmarks בגוגל החזיר לי די הרבה תוצאות אז בואו נסקור את הראשונות:
אתר דירוג ראשון נקרא LiveBench. מדד זה כולל אוסף של בעיות קידוד בהן על הסוכן לכתוב קוד שפותר בעיה ויש קוד בדיקה אוטומטי שמוודא שהבעיה נפתרה. את הבעיות כתבו מומחים של LiveBench והם ממשיכים וכותבים בעיות חדשות כל הזמן כדי שכותבי המודלים לא יוכלו לרמות את המדד. אגב לסקרנים סוכן הקוד המוביל שם הוא GPT-5.2-Codex ובמדד Agentic Coding המוביל הוא אופוס 4.5 במאמץ בינוני.
דירוג נוסף שקופץ גבוה הוא SWE Bench והמדד המוביל שם נקרא SWE-bench Verified. מדד זה לוקח Github Repos שיש להם מערכת בדיקות אוטומטית עם Issues שנבחרו בקפידה ושם מבקשים מהסוכן לפתור את ה Issue בצורה שתגרום לבדיקה לעבור ולא תשבור בדיקות אחרות. גם כאן אף בן אדם לא מסתכל על הקוד שהמודלים מייצרים והדבר היחיד שנמדד זה כמה אחוז מהבעיות הסוכן הצליח לפתור. אופוס 4.5 במאמץ בינוני גם כאן מדורג ראשון.
דירוג שלישי שקופץ הוא Aider Polyglot. בדירוג זה נתנו למודלים מובילים לפתור בעיות תכנות תחרותי מאתר Exercism והדירוג מתבסס על אחוז הבעיות שהמודלים הצליחו לפתור.
מה משותף לכל ה-3? נכון, בני אדם לא קוראים את הקוד שנכתב, הדירוג מבוסס על ביצוע משימות סגורות (עובר או לא עובר) ולא על איכות הקוד וקוד שסוכן כותב לא מגיע להתמודד עם data אמיתי.
כל זה לא אומר שסוכני קידוד לא יודעים לקודד. אנחנו יודעים שהם מקודדים ואפילו הרבה. זה כן אומר משהו על המדדים ובמיוחד על הפער בין הצלחה במדדים לבין הצלחה בפתרון בעיות במערכות הספציפיות שלנו. יכול להיות שהקפיצה הבאה בפרודוקטיביות לא תגיע מהגרסה הבאה של קלוד אלא מהבנה שלנו איך לשלב כמה מודלים ולהשתמש במודלים שונים לבעיות שונות או אפילו לאותה בעיה כדי לראות מספר פתרונות במקביל.
השבוע בוובינר נדבר על מודלים פתוחים ומודלים חופשיים, המדדים של סוכני הקידוד ואיך גם המודלים הפתוחים שלא תמיד מובילים במדדים יכולים לפתור בעיות טוב יותר וזול יותר מהמודלים המפורסמים, וכמובן אראה לכם איך למצוא ולהתקין את כל אותם מודלים. רוצים לבוא? בכיף. נרשמים כאן ואשלח לכם את הלינק לזום: