AI מול רופאים במיון: מי אבחן יותר מדויק ב-76 מקרים?

בואו נדבר רגע על הדבר הזה שאנשים אוהבים להגזים עליו: “AI מציל חיים”. אז כן, יש מחקר חדש שבדק מודלים מבוססי שפה בהקשר רפואי אמיתי, כולל מקרים אמיתיים מחדר מיון. אבל לפני שמתחילים לקנות רובוטים עם חלוק לבן, צריך להגיד את זה ברור: זה לא אומר שה-AI מוכן לקבל החלטות של חיים ומוות במיון. מה שכן, זה מראה משהו די מטריד ואפילו מרתק: לפחות בחלק מהתנאים, אחד המודלים היה מדויק יותר מההחלטות של רופאים.

המחקר פורסם השבוע בכתב עת מדעי, והוא הגיע מצוות בראשות רופאים ומדעני מחשב מבית הספר לרפואה של הרווארד ומבית החולים Beth Israel Deaconess Medical Center. הרעיון היה לבדוק איך מודלים של OpenAI מתפקדים מול רופאים אנושיים, לא בתיאוריה אלא על נתונים מהשטח.

76 מטופלים, שני רופאים מול AI

באחד הניסויים התמקדו ב-76 מטופלים שהגיעו לחדר המיון ב-Beth Israel. החוקרים השוו בין האבחנות שהציעו שני רופאי רפואה פנימית בכירים לבין האבחנות שהפיקו מודלים של OpenAI: o1 ו-4o.

ואז מגיע החלק שחשוב כדי שלא “נמרח” את התוצאות: שתי אבחנות נוספות הוערכו על ידי שני רופאים בכירים אחרים שלא ידעו מי נתן את האבחנה: בני אדם או AI. כלומר, לא היה למעריכים שום רמז מי “הצד הנכון” שמולו.

בנקודת ההחלטה הראשונה: o1 עשה עבודה חזקה

במחקר צוין שבכל “נקודת מגע” אבחנתית, מודל o1 היה שווה או טוב יותר משני הרופאים הבכירים. ההבדלים היו בולטים במיוחד בנקודת האבחון הראשונה: טריאז’ ראשוני במיון. למה זה חשוב? כי שם יש הכי מעט מידע על המטופל, אבל גם הכי הרבה לחץ לקבל החלטה נכונה.

בפרסום הרשמי מהמחקר הדגישו שהמודלים לא עברו “עיבוד מקדים” של הנתונים: ה-AI קיבל את אותו מידע שהיה זמין בתיעוד הרפואי האלקטרוני ברגע שבו בוצעה האבחנה. במילים פשוטות: לא נתנו לו “תנאים מושלמים” מבחוץ, אלא עבדו על מה שיש במערכת בזמן אמת.

אחוזי דיוק: 67% בטריאז’ לעומת רופאים

כשהסתכלו על טריאז’ים, מודל o1 הצליח לתת “אבחנה מדויקת או קרובה מאוד” ב-67% מהמקרים. מולו, רופא אחד הגיע ל-55%, והרופא השני ל-50%. זה לא מספרים של “קסם”, אבל זה כן פער שאי אפשר להתעלם ממנו.

החוקר ארג’ון מנראי, שמוביל מעבדת AI בבית הספר לרפואה של הרווארד ומוביל מחקר, אמר שהמודל נבחן מול כמעט כל מדד אפשרי, ושהוא עקף גם מודלים קודמים וגם בסיסי השוואה של רופאים.

אבל רגע: אין כאן מסגרת אחריות

המחקר עצמו לא טוען שה-AI מוכן לשבת לבד בחדר מיון. החוקרים מדגישים שיש צורך בניסויים עתידיים שמבוצעים בצורה פרוספקטיבית, כלומר בתנאי טיפול בעולם האמיתי, כדי לבדוק את הטכנולוגיות על מטופלים בזמן אמת.

עוד נקודה מעניינת: הם בדקו ביצועים רק כשהמודלים קיבלו מידע טקסטואלי. החוקרים מזכירים שמחקרים קיימים מצביעים על כך שמודלים בסיסיים עדיין מוגבלים יותר כשצריך להסיק בצורה טובה מתוך קלטים שאינם טקסט.

דוקטור אדם רודמן, גם הוא מהרווארד דרך Beth Israel ומוביל מחקר, הזהיר מפני בעיה רגולטורית די בסיסית: אין כרגע מסגרת פורמלית של אחריות סביב אבחנות שמבוססות AI. ובני אדם? בני אדם כן רוצים שמישהו בשר ודם ילווה אותם בהחלטות של טיפול, במיוחד כשזה יכול להיות גורלי.

רופאת מיון: “כותרות מוגזמות”

גם יש ביקורת מהשטח. דוקטור קריסטין פנתאגאני, רופאת מיון, כתבה שזה מחקר AI מעניין, אבל הוא הוביל לכותרות “מוגזמות” במיוחד. למה? כי ההשוואה נעשתה מול רופאי רפואה פנימית, לא מול רופאי חדר מיון ממש.

היא טענה שאם כבר משווים כלי AI ליכולת קלינית, צריך לעשות את ההשוואה מול רופאים שעושים את אותה התמחות ביום יום. “כמובן ש-LLM יכול לנצח בבחינה של רופא עור”, היא כתבה, “אבל זה לא בהכרח אומר הרבה על היכולת שלו במיון.”

ועוד משפט שממש מסכם את זה: במיון, כשהמטופל מגיע לראשונה, המטרה המרכזית של הרופא היא לא לנחש את האבחנה הסופית. המטרה היא לזהות אם יש משהו שעלול לסכן חיים, ולהתחיל לפעול נכון.

בסוף, זה נראה כמו עוד אבן בדרך לעתיד שבו AI הוא כלי עזר חזק לרופאים. אבל נכון לעכשיו, הוא עדיין לא מחליף את האנושיות. הוא לכל היותר השותף היעיל שמציע כיוונים. והשאלה הגדולה היא לא “מי יותר חכם”, אלא “מי אחראי כשהטעויות קורות”.

76 מטופלים, שני רופאים מול AI

בנקודת ההחלטה הראשונה: o1 עשה עבודה חזקה

אחוזי דיוק: 67% בטריאז’ לעומת רופאים

אבל רגע: אין כאן מסגרת אחריות

רופאת מיון: “כותרות מוגזמות”

כתבות נוספות

אורית פוקס נחשפה: קריפטו, תכנות בלילה והסיבה האמיתית לשינוי שלה

אורית פוקס שברה שתיקה: הקריפטו, ההטרדות והלילה מול קוד

Claude של אנתרופיק: האם הוא סוף סוף עוקף את כולם?

אורית פוקס: מהשנים שבהן בכתה מטוקבקים:ללילה של קוד, קוונטים וקריפטו