כתבים היסטוריים בכלים חישוביים

משימה מאתגרת: סידורי תפילה עתיקים בעברית וכתבים היסטוריים בערבית עוברים תהליך של שימור ותיעוד בכלים חישוביים.

עוזי ברוך , כ"א באב תשס"ט

קבוצת חוקרים באוניברסיטת בן-גוריון מהווה חלק ממאמץ עולמי לעבד, לשמר ולתעד כתבים היסטוריים בכלים חישוביים, שיסייעו לחוקרים במדעי הרוח.  

במסגרת מחקרם, מפתחים החוקרים טכניקות חדשות במדעי המחשב לעיבוד מסמכים עתיקים, בשפות עברית ובערבית, אשר רובם נמצא (מבחינת שימורם) במצב גרוע מאד. הטכניקות החדשות, המשלבות אלגוריתמים בראייה ממוחשבת, עיבוד תמונה, גרפיקה וגיאומטריה חישובית, כבר הוכחו כמועילות במחקר אודות סידורי תפילה עתיקים בעברית וכן בכל הקשור לכתבים היסטוריים בערבית.

פרויקטים קודמים של הקבוצה כוללים בינאריזציה ( הפיכת תמונה מגווני אפור לשחור לבן, כך שניתן יהיה להבדיל בין הטקסט לרקע) של כתבים היסטוריים במצב ירוד, זיהוי כותבים בכתבי סת"ם ובכתבי יד היסטוריים בערבית. "חלק גדול מהאלגוריתמים שיפותחו למחקר הנוכחי יהיו שימושיים גם לכתבים היסטוריים (במצב גרוע) בשפות אחרות, למשל, סגמנטציה (חלוקת תמונה דיגיטלית למקטעים) של שורות מעוקמות בטקסט ברמות אפור משתנות מאד, ואיתור מלים או חלקי מלים במסמכים אלה. אלגוריתמים אחרים יהיו ספציפיים לעברית ולערבית ויכללו ניתוח פליאוגרפי לקביעת כותב, מקום כתיבה ותקופת כתיבה של אוספי מסמכים היסטוריים, ותיוג אוטומטי של המסמכים. התוכנה שתכתב תהיה זמינה להורדה ותשמש חוקרים בתחום מדעי הרוח", אומרת פרופ' קלרה קדם מהמחלקה למדעי המחשב באוניברסיטה, הנמנית על צוות המחקר. 

הניסויים יתבצעו על מגוון אוספים היסטוריים, ביניהם הגניזה הקהירית המכילה כתבי יד בנושאים שונים, לרבות סידורים רבים מן המאות 10-14, ספריות, כתבי היד ההיסטוריים באוניברסיטת אל-אקצה בירושלים ובאוניברסיטת אל-אזאר בקהיר. 

קבוצת החוקרים באוניברסיטת בן-גוריון מונה את פרופ' קדם, דר' ג'יהאד אל-סאנע ודר' איתי בר-יוסף מהמחלקה למדעי המחשב, פרופ' ציקי דינשטיין מהמחלקה להנדסת חשמל ומחשבים ופרופ' אורי ארליך מהמחלקה למחשבת ישראל.