ChatGPT עולה על רופאים באמפתיה: מחקר חדש חושף את יתרונות הבינה המלאכותית בתגובות רפואיות

מבוא

מאז הופעתה של ChatGPT, ביצועיה המרשימים בתחום הרפואה זכו לתשומת לב רבה. לדוגמה, בבחינה הרפואית הלאומית בגרמניה, ChatGPT השיגה ציון ממוצע של 74.6%, ובכך עקפה את ביצועיהם של סטודנטים אנושיים. היא גם ענתה נכונה על 88.1% מתוך 630 שאלות. ביישומים רפואיים מעשיים, ChatGPT סיפקה תשובות מדויקות למדי ל-284 פניות רפואיות ב-17 התמחויות שונות, ושיפרה את ביצועיה באמצעות למידת חיזוק. בתחום רפואת הספורט האורתופדית, שיעור הדיוק בתשובותיה לשאלות לדוגמה הגיע ל-65%.

רקע המחקר ושיטות

במטרה לחקור עוד את הפוטנציאל של ChatGPT בתחום הרפואה, חוקרים ממרפאת BG בלודוויגסהאפן, גרמניה, ערכו מחקר השוואתי. הם בחרו 100 שאלות הקשורות לבריאות מחמישה תחומים רפואיים עיקריים: כירורגיית טראומה, כירורגיה כללית, אף אוזן גרון, רפואת ילדים ורפואה פנימית. החוקרים השוו את התגובות של ChatGPT לתגובות של מומחים מנוסים (EP). תוצאות המחקר הראו כי ChatGPT עלתה על המומחים הן מבחינת אמפתיה והן מבחינת פרקטיות.

כדי להעריך באופן מקיף את תפיסת המטופלים לגבי עוזר AI, החוקרים השתמשו בשיטה רב-שלבית:

איסוף שאלות: נאספו 100 שאלות פומביות הקשורות לבריאות מפלטפורמה מקוונת הפונה למטופלים. השאלות כיסו את חמשת התחומים הרפואיים הנ"ל, כאשר 20 שאלות נבחרו מכל תחום.
יצירת תגובות: נעשה שימוש ב-ChatGPT-4.0 כדי ליצור תגובות ל-100 השאלות הללו, והן הושוו לתגובות של מומחים מאותה פלטפורמה.
אנונימיזציה: כל השאלות והתגובות עברו אנונימיזציה ואורגנו לתוך 10 סטים של נתונים, כאשר כל סט הכיל 10 שאלות.
הערכה: סטים אלו חולקו למטופלים ולרופאים לצורך הערכה. המטופלים התמקדו בעיקר באמפתיה ובפרקטיות של התגובות, בעוד שהרופאים העריכו, בנוסף לאמפתיה ולפרקטיות, גם את דיוק התגובות והסיכונים הפוטנציאליים.

כדי להבטיח את הוגנות ההערכה, כל המשתתפים לא ידעו במהלך ההערכה אם התגובות סופקו על ידי ChatGPT או על ידי מומחים. בנוסף, צוות המחקר אסף מידע בסיסי על המטופלים, כגון גיל ומגדר, וכן על שנות הניסיון של הרופאים, כדי לנתח עוד את ההשפעה של גורמים אלה על תוצאות ההערכה.

ניתוח תוצאות ההערכה - הערכת מטופלים

המטופלים העניקו הערכות גבוהות לתגובות של ChatGPT באופן כללי.

אמפתיה: הציון הממוצע של ChatGPT היה 4.2 (טעות תקן 0.15), בעוד שהציון הממוצע של המומחים היה 3.8 (טעות תקן 0.18).
פרקטיות: הציון הממוצע של ChatGPT היה 4.1, בעוד שהציון הממוצע של המומחים היה 3.7.

תוצאות אלו מצביעות על כך שהמטופלים תפסו באופן כללי את תגובות ChatGPT כאמפתיות ופרקטיות יותר מתגובות המומחים. ניתוח נוסף הראה כי לגיל ולמגדר של המטופלים לא הייתה השפעה משמעותית על תוצאות ההערכה, אך לרמת ההשכלה ולמעמד החברתי-כלכלי שלהם עשויה להיות השפעה על מידת קבלתם את ChatGPT. מכיוון שהמחקר לא אסף נתונים בנושא זה, לא ניתן היה לבצע ניתוח מפורט.

הערכת רופאים

גם הרופאים העניקו הערכות חיוביות לתגובות של ChatGPT.

אמפתיה: הציון הממוצע של ChatGPT היה 4.3, בעוד שהציון הממוצע של המומחים היה 3.9.
פרקטיות: הציון הממוצע של ChatGPT היה 4.2 (טעות תקן 0.15), בעוד שהציון הממוצע של המומחים היה 3.8 (טעות תקן 0.17).
דיוק: הציון הממוצע של ChatGPT היה 4.5 (טעות תקן 0.13), בעוד שהציון הממוצע של המומחים היה 4.1 (טעות תקן 0.15).
סיכונים פוטנציאליים: הציון הממוצע של הסיכונים הפוטנציאליים של ChatGPT היה 1.2 (טעות תקן 0.08), בעוד שהציון הממוצע של הסיכונים הפוטנציאליים של המומחים היה 1.5 (טעות תקן 0.10).

נתונים אלו מצביעים על כך ש-ChatGPT לא רק הצטיינה באמפתיה, פרקטיות ודיוק, אלא גם עלתה על המומחים מבחינת סיכונים פוטנציאליים. בנוסף, נמצא כי רופאים עם ניסיון רב יותר, העניקו ציונים גבוהים יותר ל-ChatGPT.

השלכות אפשריות

המחקר מראה כי ChatGPT יכולה לשמש ככלי עזר רב עוצמה בתחום הרפואה, המספק תגובות אמפתיות, פרקטיות ומדויקות. תוצאות אלו עשויות להוביל לשיפור באיכות הטיפול הרפואי, להפחתת העומס על הרופאים ולאפשר למטופלים לקבל מידע רפואי נגיש ויעיל יותר. עם זאת, יש להדגיש כי ChatGPT אינה מהווה תחליף לרופא וכי יש להשתמש בה בזהירות, תוך התחשבות בסיכונים הפוטנציאליים.

כיוונים למחקר עתידי

המחקר הנוכחי מהווה נקודת פתיחה חשובה לחקר השימוש בבינה מלאכותית בתחום הרפואה. מחקרים עתידיים צריכים להתמקד בהערכת ההשפעה של ChatGPT על תוצאות קליניות, בבחינת השימוש בה במגוון רחב יותר של תחומים רפואיים ובפיתוח שיטות להבטחת השימוש הבטוח והאתי בטכנולוגיה זו. כמו כן, יש צורך לחקור את השפעת הרקע החברתי-כלכלי וההשכלתי של המטופלים על תפיסתם את ChatGPT ולפתח כלים המותאמים לצרכים השונים של האוכלוסייה.

המחקר הנוכחי מספק הצצה מרתקת ליכולות של בינה מלאכותית בתחום הרפואה, ומעלה שאלות חשובות לגבי תפקידה העתידי של הטכנולוגיה בטיפול הרפואי.