Tokenmaxxing: האם אתם מודדים לא נכון את פרודוקטיביות המפתחים?

יש משפט ותיק בניהול: מה שמודדים הוא מה שמקבלים. וזה תמיד נשמע הגיוני עד שמישהו מחליט למדוד משהו לא קשור. בעולם פיתוח התוכנה זה התבטא שנים במדדים כמו כמות שורות קוד. ואז הגיע דור חדש של כלי כתיבת קוד עם AI. פתאום יש “סוכנים” שמייצרים הרבה יותר קוד מאי פעם, ויותר ויותר מנהלים שואלים את עצמם: אז מה בעצם הפרודוקטיביות? כמה קוד נכתב? כמה קוד אושר? וכמה קוד באמת שווה משהו אחרי שכל הסיבובים של הבדיקה והעריכה נגמרים?

לתוך זה נכנס טרנד בשם Tokenmaxxing. הרעיון פשוט: נותנים למפתח תקציב גדול יותר של טוקנים, כלומר יותר “דלק חישובי” שה-AI יכול להשתמש בו כדי לייצר קוד. במקומות מסוימים זה הפך למדד סטטוס. יותר טוקנים? אז בטח יותר טוב. רק שיש כאן בעיה קטנה: אתם מודדים את הקלט של המנוע, בזמן שהמוצר שאתם באמת רוצים הוא התוצאה הסופית.

המספרים היפים מול המציאות המייגעת

בחברות שמנסות לנתח פרודוקטיביות של מפתחים עם כלי AI, התמונה מתחילה להסתבך. בכלים כמו Claude Code, Cursor ו-Codex רואים עלייה בקוד שמתקבל: אחוזים גבוהים יותר של קוד שהמפתחים מאשרים ומשאירים. אבל אז מגיע החלק שפחות אוהבים לספור: הרבה יותר פעמים צריך לחזור ולתקן את אותו קוד שאושר קודם לכן.

מנכ"ל Waydev, אלכס סירצ’י, בונה שכבת אינטליגנציה שמטרקת בדיוק את הפער הזה. החברה שלו עובדת עם עשרות לקוחות שמעסיקים יחד יותר מ-10,000 מהנדסים. לפי התמונה שהוא מתאר, מנהלי פיתוח רואים שיעורי קבלה של קוד AI באזור 80% עד 90%. נשמע מרשים. אבל אם מסתכלים על מה שקורה בשבועות שאחרי, רואים שהשיעור האמיתי של קוד שנשאר לאורך זמן יורד ל10% עד 30%. כלומר: יש “קבלה” מהירה, אבל אחר כך מגיעה נדנדה של תיקונים שמכרסמת במה שנראה כמו עלייה בפרודוקטיביות.

למה זה קורה? כי נפח זה לא ערך

Waydev, שנוסדה ב-2017 כדי לתת אנליטיקס למפתחים, נאלצה לשנות את הפלטפורמה שלה בששת החודשים האחרונים כדי להתמודד עם ריבוי כלי קידוד מהיר. עכשיו היא משחררת כלים שמודדים גם מטא-דאטה שה-AI מייצר, כדי שמנהלים יקבלו תמונה רחבה יותר: לא רק האם נכתב קוד, אלא גם כמה זה עולה, ואיך איכות הקוד מתנהגת לאורך זמן.

וזה לא סיפור נקודתי. ככל שחברות אנליטיקס מתרבות, מצטברות עוד ועוד אינדיקציות שארגונים עדיין לא יודעים להפיק מה-AI את המקסימום בלי לשלם מחיר. למשל, Atlassian רכשה בשנה שעברה סטארטאפ בתחום “מודיעין הנדסי” בשם DX, כדי לעזור ללקוחות להבין החזר השקעה על סוכני קידוד. וגם יש נתונים שמצביעים על כך שיותר קוד נכתב, אבל חלק גדול ממנו לא באמת “נדבק”.

דוגמאות מהשטח

GitClear פרסמה דו"ח בינואר שלפיו כלי AI מעלים פרודוקטיביות, אבל הנתונים שלה הראו שמשתמשים קבועים ב-AI חוו פי 9.4 יותר “churn” של קוד לעומת מי שלא משתמש. Faros AI, על בסיס שנתיים של נתוני לקוחות, מצאה שבמצב של אימוץ גבוה של AI, churn עלה ב-861%. Jellyfish, שאוספת מידע על הנדסה עם AI, בדקה 7,548 מהנדסים ברבעון הראשון של 2026 ומצאה שככל שתקציב הטוקנים גדול יותר, יש יותר בקשות משיכה (Pull Requests), אבל שיפור הפרודוקטיביות לא מתרחב לינארית: מתקבל בערך פי 2 בתפוקה במחיר של בטוקנים. במילים פשוטות: הרבה נפח, פחות ערך.

המפתחים כבר מרגישים את זה

כשמדברים עם מפתחים, זה מתחבר לתחושה יומיומית: code review וצבירת technical debt לא נעלמים, הם לפעמים רק מתעכבים ואז מתפוצצים. יש גם פערים בין מפתחים בכירים לזוטרים: זוטרים נוטים לאשר יותר קוד שנכתב עם AI, ואז להתמודד עם יותר כתיבה מחדש בעקבותיו.

והדבר הכי מעניין: למרות כל זה, אף אחד לא באמת חושב לחזור אחורה. סירצ’י מסכם את זה די חד: זו תקופה חדשה של פיתוח תוכנה, והחברות חייבות להסתגל. לא מדובר במחזור שיגמר בקרוב.

אז אולי השאלה האמיתית היא לא כמה טוקנים נתתם למפתח, אלא כמה מהקוד ששרד באמת עשה לכם עבודה קלה יותר. כי אם מודדים “כמה AI הוציא”, קל מאוד ליפול לפח של Tokenmaxxing. ואם מודדים “מה נשאר”, אולי סוף סוף מגלים מי באמת עובד יותר חכם ולא רק יותר מהר.

המספרים היפים מול המציאות המייגעת

למה זה קורה? כי נפח זה לא ערך

דוגמאות מהשטח

המפתחים כבר מרגישים את זה

כתבות נוספות

אורית פוקס נחשפה: קריפטו, תכנות בלילה והסיבה האמיתית לשינוי שלה

אורית פוקס שברה שתיקה: הקריפטו, ההטרדות והלילה מול קוד

Claude של אנתרופיק: האם הוא סוף סוף עוקף את כולם?

אורית פוקס: מהשנים שבהן בכתה מטוקבקים:ללילה של קוד, קוונטים וקריפטו