מי עוצר את בדיקת הבחינות המלאכותית?

התוצאות של פיילוט לבדיקת בגרויות דרך מערכת בינה מלאכותית הדהימו את משרד החינוך. השימוש בה נדחה מחשש למאבק של המורים נגד המהלך.

ערוץ 7 , י"ג בשבט תשפ"א

מי עוצר את בדיקת הבחינות המלאכותית?-ערוץ 7
בחינת בגרות. ארכיון
צילום: נועם ריבקין פנטון, פלאש 90

משרד החינוך ערך לאחרונה פיילוט, שבמסגרתו מחשבי בינה מלאכותית בדקו בחינות בגרות בהיסטוריה ובספרות - והגיעו לתוצאות ציון דומות בהשוואה לבחינות שנבדקו על ידי מורים ומורות, כך מדווח העיתון 'ישראל היום'.

למרות הניסוי המוצלח, בדיקת בחינות בגרות על ידי בינה מלאכותית תתבצע - אם בכלל - רק בעתיד הרחוק. הסיבה: חשש שהמורים ייצאו למאבק, מאחר שבדיקת הבחינות מהווה מקור הכנסה משמעותי עבור רבים מהם.

בחינות הבגרות בהיסטוריה ובספרות הן בחינות מרובות מילים, כך שהתלמידים כותבים בכתב יד כ-‭18-17‬ דפים בממוצע בכל בחינה. לכן האתגר משמעותי מאוד, שכן על התוכנה לא רק להבין את כתב היד של התלמידים, אלא לזהות את ההיגיון שעומד מאחורי הטקסט וכן לנתח את התשובות בהתחשב בכמה פרמטרים כמו ענייניות התשובה, הניסוח שלה, המשלב הלשוני וכן תבחינים נוספים.

הניסוי נערך במרכז לבדיקת בחינות הבגרות והגמר (מרב"ד) של משרד החינוך. במסגרתו, אספו במשרד החינוך כ-‭3,000‬ מחברות בחינה ובהן תשובות של תלמידים שניגשו לבגרות בספרות ובהיסטוריה.

מחברות הבגרות הללו נבדקו על ידי בודקים אנושיים (מורים ומורות) ולכל בחינה ניתן ציון. בשלב השני, מחברות הבחינה ובהן תשובות התלמידים נסרקו לתוך מערכת הבינה המלאכותית, כשלכל בחינה הוזן הציון שניתן לה על ידי המורים. בשלב הזה, מערכת הבינה למדה, באמצעות אלגוריתמים, לזהות את התשובה הנכונה ביותר לכל שאלה וגם את הניקוד עליה.

לאחר שהמידע לגבי אלפי בחינות הבגרות כבר היה במערכת, נאספו כאלף מחברות בחינה חדשות (‭500 ‬ בהיסטוריה ועוד ‭ 500‬ בספרות). גם מחברות אלה נבדקו על ידי מורים ומורות מתחום הדעת, שהעניקו להן ציונים - אך הפעם אלו נשמרו בסוד. בשלב זה, הבחינות הועברו לבדיקה של מערכת הבינה המלאכותית, שסרקה אותן והעניקה להן ציונים בהתאם לבסיס הנתונים שנשמר אצלה. המטרה: להבין אם קיימת סימטריה בין הציונים שהעניקו הבודקים המקצועיים (המורים) לבין הציונים שהעניקה מערכת הבינה המלאכותית.

המסקנות שהגיעו לאחר כשלוש שעות של בדיקה הדהימו את הנוכחים: התוצאות הממוצעות של הבינה המלאכותית היו כמעט זהות לחלוטין לממוצע הציונים שהעניקו הבודקים האנושיים. הפער, למקרה שתהיתם, עמד על נקודה אחת בלבד.

מערכת הבינה המלאכותית מסוגלת לבדוק כל מחברת בתוך עשר שניות בלבד וליצור סטנדרט תשובות אחיד בכל הארץ. אם תיכנס לפעילות, היא צפויה לחסוך למדינה מיליוני שקלים מדי שנה, משום שכיום כל בחינת בגרות נבדקת על ידי שני מורים, שמקבלים בין ‭ 60-30‬שקלים עבור כל מחברת בחינה.

עם זאת, כאמור, בשל החשש למחאה נרחבת מצד הבודקים האנושיים, משרד החינוך צפוי להתעכב מאוד בהחלטה אם להעביר את בדיקת בחינות הבגרות למערכת הבינה המלאכותית.

”האתגר היה משמעותי מאוד, שכן על התוכנה לא רק להבין את כתב היד של התלמידים, אלא לזהות את ההיגיון מאחורי הטקסט וכן לנתח את התשובות