פעם היה קל להבדיל בין תמונה אמיתית לתמונה שנוצרה על ידי מודל AI: מספיק לבקש “תפריט למסעדה מקסיקנית” ותקבל בליל של המצאות קולינריות, עם מילים שמתחפשות לכתיבה אבל לא באמת מצליחות להיות קריאות. אתם יודעים, הקלאסיקה: צ’וריוס, בוריטו, ועכשיו גם משהו בסגנון “מארגארטאס” שכתוב כמו גוגל-טרנסלייט בלילה.
אבל הנה הקטע המפתיע: כשמבקשים מהדגם החדש ChatGPT Images 2.0 לייצר תפריט של אוכל מקסיקני, הוא לא רק מצייר יפה. הוא מייצר תוצאה שנראית כאילו אפשר להדפיס אותה למסעדה, בלי שהלקוח ירגיש שמשהו “לא יושב”. כלומר: ה-AI כבר לא מסתפק בלעשות תמונה כללית. הוא מתקרב לרמת דיוק שגורמת לטקסט בתמונה להיראות כמו טקסט שבאמת נכתב.
כדי להבין למה זה משמעותי, צריך לחזור רגע אחורה. מחוללי תמונות בעבר התקשו מאוד באיות ובכתיבה, כי הרבה מהם השתמשו במנגנון מסוג diffusion שמבוסס על “בניית תמונה מרעש”. זה עובד נהדר לצבעים ומרקמים, אבל כשמגיעים לאותיות קטנות, לוגואים, אייקונים ופרטים צפופים? שם המוח של המודל מתחיל להמר. הרעיון הפשוט: כתיבה היא חלק קטן מאוד מהפיקסלים, אז המודל לומד את הדפוסים שממלאים את רוב התמונה, ופחות את האותיות עצמן.
בינתיים חוקרים ניסו כיוונים אחרים, כולל מודלים autoregressive שמנבאים מה אמור להופיע בתמונה, יותר כמו איך ש-LLM מנבאים טקסט. הבעיה? לא תמיד ברור איזה מנגנון בדיוק מפעיל את הדגם החדש, כי חברת הפיתוח בחרה לא לפרט יותר מדי בשלב הזה במה מדובר מאחורי הקלעים.
אז מה Images 2.0 עושה אחרת?
מה כן נאמר: הדגם החדש כולל יכולות “חשיבה” שמאפשרות לו לבצע פעולות כמו חיפוש ברשת, ליצור כמה תמונות מאותו פרומפט, וגם לבדוק את מה שהוא ייצר. התוצאה הפרקטית: אפשר לבקש ממנו דברים שכוללים גם תוכן שיווקי, גם פורמטים שונים, וגם קומיקס שמורכב מכמה פאנלים. כן, גם כשיש קומפוזיציה צפופה יחסית וטקסט קטן בתוך התמונה.
עוד נקודה חשובה: יש לו הבנה חזקה יותר של הצגת טקסט בשפות לא לטיניות, כולל יפנית, קוריאנית, הינדית ובנגלית. זאת לא תוספת קטנה. זו בדיוק אחת מהנקודות שבהן מחוללי תמונות נוטים להתפרק.
בנוסף, הידע של המודל מוגבל עד דצמבר 2025. במילים פשוטות: אם אתם מבקשים פריט שקשור לחדשות ממש עדכניות, הוא עלול לא לדייק, כי הוא לא “יודע” על מה שקרה אחרי נקודת הזמן הזו.
האם זה מהיר כמו לבקש מצ’אט?
לא בדיוק. לכתוב שאלה ל-ChatGPT זה מיידי יחסית. אבל לייצר משהו מורכב כמו קומיקס רב-פאנלים עדיין לוקח זמן. לפי מה שתיארו, מדובר בכמה דקות גם כשזה מורכב, שזה עדיין מהיר מספיק כדי לעבוד בצורה יצירתית ולא להפוך את זה לפרויקט מחקר.
כל משתמשי ChatGPT ו-Codex יוכלו לגשת ל-Images 2.0 החל מיום שלישי. למשתמשים בתשלום צפויים גם פלטים מתקדמים יותר. ובמקביל משחררים גם API בשם gpt-image-2, כשמחיר יהיה תלוי באיכות וברזולוציה של מה שמתקבל. כן, זה אומר שבקרוב נראה הרבה סטארטאפים בונים “מפעל תוכן” שמוציא מודעות, באנרים ואפילו קומיקס בקצב של מכונת קפה, רק עם יותר אותיות ועם פחות טעויות.
ההרגשה שלי? זה כבר לא “מודל תמונות”. זה מתחיל להיות כלי שמבין עיצוב, מבין טקסט, ומבין הוראות. וזה בדיוק השלב שבו אנשים מפסיקים לשאול אם זה מזויף, ומתחילים לשאול איך משתמשים בזה כדי לנצח מהר בתחרות.