בואו לעזור: שומרים על האוצר היהודי

אוניברסיטת חיפה פועלת לשמירת כתבי יד יהודיים עתיקים.
בואו לסייע למחשב לקרוא את הטקסטים הקדומים.

אורלי הררי , י"ד באדר ב תשע"ט

כתבי יד עתיקים
כתבי יד עתיקים
צילום: ISTOCK

בואו לעזור למחשב לקרוא נכון את המדרשים שעוסקים בכתבי יד יהודים עתיקים, כחלק מפרוייקט חכמת ההמונים "תיקון סופרים" של מעבדת אליהו להנגשת כתבי יד יהודיים עתיקים.

המעבדה פועלת באוניברסיטת חיפה ומטרתה היא להנגיש למעלה מ-10 מיליון טקסטים יהודיים מכל התקופות לחוקרים ולציבור הרחב.

"המטרה היא לשלב בין טכנולוגיה מתקדמת שמסוגלת לקרוא לבדה את הטקסטים לבין חוכמת ההמונים, או נכון יותר, סקרנות ההמונים, שתדע לתקן את הבינה המלאכותית במקומות שבו היא טועה. בסופו של תהליך, ידע יהודי שהיה חבוי – בוודאי שמעיני הציבור אבל גם ממרבית החוקרים – יהיה זמין, גלוי ופומבי", אמר ד"ר משה לביא מתוכנית מדעי הרוח הדיגיטליים באוניברסיטת חיפה ואחד מראשי הפרוייקט.

נכון להיום, בספריות והארכיונים ברחבי העולם יש מיליוני טקסטים עבריים קדומים. לאור הכמות העצומה ושיטות המחקר הקיימות, רובם לא ייחשפו מעולם לעיני החוקרים. בשנים האחרונות ישנם פרויקטים רחבי היקף של דיגיטציה של המסמכים והעלתם לרשת.

כך למשל, הספרייה הלאומית מעלה בהדרגה צילומים באיכות גבוהה של כעשרה מיליון טקסטים הנמצאים ברשותה. אלא שגם לאחר שהטקסטים יעלו לרשת, מספרם יהיה עצום מידי לכמות המצומצמת יחסית של חוקרים. המשמעות היא שאוצר בלום של ידע ומסורות יהודיות יאבדו.

בתוכנית מדעי הרוח הדיגיטליים של אוניברסיטת חיפה, שבראשה עומדים ד"ר לביא מהחוג למקרא ופרופ' צביקה קופליק מהחוג למערכות מידע, מבקשים לרתום את הדיספלינה החדשה לעזרה. בפרוייקט הנוכחי, "תיקון סופרים", הם נעזרים בטכניקת בינה מלאכותית מתקדמת שפותחה במכון EPHE שבצרפת, KRAKEN שמה, ובחכמת ההמונים.

ה-KRAKEN קיבלה כמשימה ראשונה לקרוא את כ-600 העמודים של "כתב יד ג'נבה" ממדרשי תנחומא, מדרשים שנכתבו במאה ה-13, והם מדרשי אגדה על חמשת חומשי תורה. למרות היכולות הגבוהות של ה-KRAKEN, הוא עדיין לוקה בחסר חשוב: היגיון בריא. כך, המשפט "הפה ביקש לעסוק" הופך ל"הפה ביקש לעשן" "ותמהר כדה אל השוקת" הופך ל"תמהר כדה אל השוקו" ואפילו "ישוב ה' לשוש" הופך ל"ישו ה' לשוש".

"זה המקום שבו אנחנו פונים לציבור. הציבור לא רק מתקן את הטעויות של התוכנה, אלא מכיוון שמדובר בתוכנה לומדת, הוא גם משפר אותה כל הזמן. זהו השילוב במעבדת אליהו שאנו מבקשים ליצור בין טכנולוגיה, רוח ושיתוף הציבור", אמר פרופ' קופליק.

אז איך זה עובד? באתר ייעודי של הפרוייקט מקבל כל משתמש תמונה של הטקסט המקורי ואת התרגום של התוכנה. באופן פשוט הוא מתקן את מה שנראה לו כטעות. ברגע שיש מספר משתמשים שונים שמסכימים על התיקון – התיקון מתקבל. בסופו של תהליך, יהפכו כל 600 העמודים של כתב היד לטקסט בפורמט הניתן לטיפול ממוחשב, שיהיה גם נגיש לקהל הרחב וגם טקסט שיאפשר לחוקרים להשתמש בתוכנות של BIG DATA כדי לחפש ולחקור אותו לעומק.

"ברגע שהתמונה הופכת לטקסט, אנחנו יכולים להתחיל לחקור אותו. לתוכנה של כריית טקסט אין בעיה לקרוא אלפי ועשרות אלפי עמודים בזמן קצר ולתת לנו מידע על פי שאלות שנשאל אותה. ברגע שהכל הופך לטקסט, לגודל יש הרבה פחות משמעות כי בעזרת כמה חיפושים של התוכנה נוכל להגיע לטקסט שנרצה. זוהי פריצת דרך בחקר כתבי היד העתיקים העבריים – ואין מתאים יותר מהציבור, בארץ ובחו"ל, להיות שותף שלנו לכך", סיכמו החוקרים.

אז אם גם אתם רוצים להצטרף לפרוייקט, פשוט לחצו כאן והתחילו לתקן. ואם אתם רוצים להתחיל עם טקסט שקשור לפורים, הנה זה כאן.