Moonbounce: איך בונים מתינות תוכן בעידן ה-AI בלי להמר כמו מטבע?

כשברט לבנסון עזב את אפל ב-2019 כדי להוביל ב-Facebook את נושא היושרה העסקית, הוא נכנס לאחד התקופות הכי רועשות של הרשת החברתית. קמפרידג׳ אנליטיקה עדיין צרבה, והיה ברור ש״הבעיה״ של מודרציה לא באמת נפתרה עם עוד אלגוריתם נחמד.

הוא הבין מהר שהכאב הוא הרבה יותר אנושי: מבקרי תוכן נדרשו ללמוד בעל פה מסמך מדיניות ענק, בערך 40 עמודים, שתורגם מכונה לשפה שלהם. ואז, כשהמנגנון סימן פוסט או תמונה, היו להם בערך 30 שניות להחליט לא רק אם זה מפר את הכללים, אלא גם מה עושים עם זה בפועל: לחסום, להעניש משתמש, להגביל הפצה, או אולי משהו אחר לגמרי.

לבנסון תיאר את זה כמשהו שדומה לזריקת מטבע: לפעמים זה עובד, לפעמים לא, ובמיוחד כשמדובר בנזק שכבר קרה בפועל לפני שהבדיקה בכלל התחילה. בעולם שבו יריבים זריזים וממומנים עושים ניסויים כל היום, גישה תגובתית ומאוחרת לא ממש מחזיקה מים.

למה בינה מלאכותית הפכה את המודרציה למסובכת עוד יותר

ואז הגיע הטרנד שכל אחד מאיתנו ראה בטיקטוק: צ׳אטבוטים. הם לא רק משיבים, הם גם טועים מהר, ואם הם עוברים את המסננים, זה מתגלגל לטרנדים מסוכנים. היו מקרים שבהם בוטים נתנו להדרכות לפגיעה עצמית לבני נוער, או שיצרו תמונות שנראות כאילו הן “עוקפות” מנגנוני בטיחות. בקיצור: אם פעם היה צריך לחפש את המחט בערימת השחת, עכשיו הערימה עצמה לומדת איך להסתיר את המחט.

הפתרון: מדיניות כקוד, או: להפוך חוקים לתוכנה

הכעס הזה הוליד רעיון בשם “policy as code”: במקום מסמכי מדיניות סטטיים שמחייבים בני אדם לקרוא ולהבין, להפוך אותם ללוגיקה שאפשר להריץ, לעדכן ולחבר ישירות לאכיפה. זה הבסיס של Moonbounce, סטארטאפ שלבנסון הקים, שהודיעה לאחרונה על גיוס של 12 מיליון דולר.

החברה עובדת עם חברות שמייצרות תוכן בתוך מוצר: בין אם משתמשים מייצרים אותו, ובין אם זה AI שיוצר דמויות, טקסטים או תמונות. Moonbounce מאמנת מודל שפה גדול משלה כך שהוא “קורא” את מסמכי המדיניות של הלקוח, מעריך תוכן בזמן אמת, נותן תשובה תוך 300 מילישניות או פחות, ואז מבצע פעולה.

מה קורה בפועל כשיש תוכן בעייתי?

הפעולה לא חייבת להיות רק “כן או לא”. לפי העדפות הלקוח, Moonbounce יכולה להאט את ההפצה עד שבדיקה אנושית תיכנס מאוחר יותר, או לחסום מיד תוכן בעל סיכון גבוה. היום החברה מתמקדת בשלוש זירות עיקריות: פלטפורמות עם תוכן משתמשים כמו אפליקציות דייטינג; חברות AI שבונות דמויות או בני לוויה; ומייצרי תמונות מבוססי AI.

לבנסון סיפר שהמערכת שלהם כבר מטפלת ביותר מ-40 מיליון בדיקות ביום, ומשרתת למעלה מ-100 מיליון משתמשים פעילים יומיים על פלטפורמות של לקוחות. בין הלקוחות שהוזכרו: Channel AI (סטארטאפ של בני לוויה), Civitai (הפקת תמונות ווידאו), וגם פלטפורמות משחק תפקידים כמו Dippy AI ו-Moescape.

בטיחות כיתרון מוצר, לא ככפתור כיבוי מאוחר

הטענה של Moonbounce מעניינת: “בטיחות יכולה להיות פיצ׳ר שמוכר”, לא רק בלם זעזועים שמגיע אחרי שמישהו כבר נשרף. לבנסון מסביר שהבעיה היא שבדרך כלל בטיחות נתפסת כמשהו שמוסיפים אחר כך, ולא כמשהו שבונים כחלק מהמוצר עצמו. כשהבטיחות היא שכבה בזמן אמת, היא הופכת לחלק מהסיפור של המוצר, לא מהתנצלות שאחרי.

גם בעולם הדייטינג כבר ראו שיפור כשמשלבים שירותי LLM שמכוונים זיהוי: המטרה היא לשפר דיוק, כי כשכל אפליקציה משתמשת ב-AI בלב העשייה, אתגר המודרציה נהיה גדול יותר פי כמה.

לחץ משפטי ומוניטין: כבר לא “רק טעות”, זה אחריות

חברות AI מרגישות יותר ויותר לחץ משפטי ותדמיתי. צ׳אטבוטים הואשמו בהכוונה של בני נוער ומשתמשים פגיעים לכיוון של התאבדות, ומערכות כמו יוצרי תמונות שימשו לייצור תמונות עירום ללא הסכמה. כלומר: כשבטיחות פנימית לא מספיקה, זה כבר לא רק שאלה טכנית. זה נהיה עניין של אחריות.

לבנסון טוען שחברות פונות לעזרה “מבחוץ”, כי Moonbounce יושבת בין המשתמש לבוט. לכן היא לא מוצפת בהקשר כמו הצ׳אט עצמו, שצריך לזכור המון טוקנים לפני. “אנחנו מתרכזים באכיפה בזמן אמת”, הוא אומר. פחות פילוסופיה, יותר תגובה מדויקת.

השלב הבא: Steering איטרטיבי במקום סירוב קר

Moonbounce לא עוצרת בלהגיד “לא”. הצוות מפתח יכולת בשם “iterative steering”. הרעיון: במקום לסרב בוטה כשעולה נושא מסוכן, המערכת תעצור את השיחה ותכוון אותה מחדש. היא משנה פרומפטים בזמן אמת כדי לדחוף את הבוט לגישה תומכת יותר, במיוחד במצבים רגישים כמו המקרה שדובר עליו משנת 2024: נער בן 14 בפלורידה שנקשר לצ׳אטבוט Character AI.

לבסון מדמיין “ארגז כלים” שבו אפשר לקחת את הבקשה של המשתמש ולשנות אותה כך שהבוט לא יהיה רק מאזין אמפתי, אלא מאזין שימושי במצבים כאלה. כי לפעמים הבעיה היא לא שהמערכת לא מרגישה. הבעיה היא שהיא לא יודעת לאן להוביל.

ולבסוף: האם זה חוזר למעגל כמו Meta?

נשאל אם תוכנית היציאה שלו כוללת רכישה על ידי חברה בסגנון Meta, שממנה הוא בא. לבנסון אמר שהוא מבין כמה Moonbounce תתאים לטכנולוגיות של מקום כזה. אבל הוא גם ציין ברוח הומור יבשה משהו: “המשקיעים שלי יהרגו אותי אם אגיד את זה, אבל הייתי שונא שמישהו יקנה אותנו ואז יגביל את הטכנולוגיה. כאילו: זה שלנו עכשיו, ורק אנחנו נהנים.”

במילים אחרות: אם מודרציה היא העתיד של ה-AI, אז אולי הגיע הזמן שהיא תהיה לא רק שומר סף, אלא גם מנוע שמאפשר למוצרים לגדול בלי להפוך למוקד דרמה.

למה בינה מלאכותית הפכה את המודרציה למסובכת עוד יותר

הפתרון: מדיניות כקוד, או: להפוך חוקים לתוכנה

מה קורה בפועל כשיש תוכן בעייתי?

בטיחות כיתרון מוצר, לא ככפתור כיבוי מאוחר

לחץ משפטי ומוניטין: כבר לא “רק טעות”, זה אחריות

השלב הבא: Steering איטרטיבי במקום סירוב קר

ולבסוף: האם זה חוזר למעגל כמו Meta?

כתבות נוספות

אורית פוקס נחשפה: קריפטו, תכנות בלילה והסיבה האמיתית לשינוי שלה

אורית פוקס שברה שתיקה: הקריפטו, ההטרדות והלילה מול קוד

אורית פוקס: מהשנים שבהן בכתה מטוקבקים:ללילה של קוד, קוונטים וקריפטו

Claude של אנתרופיק: האם הוא סוף סוף עוקף את כולם?