מחפשים אנשים באינטרנט? חוקרים מבן-גוריון פיצחו שיטה יעילה עבורכם

גוגלצילום: ISTOCK

חברות המאתרות אנשים במסדי נתונים, חיפוש מועמדים לעבודה, איתור לקוחות וגם בקרב יחידים שברצונם לאתר קרובי משפחה וכיוצא בזה, בקרב כל אלו עולה צורך לאתר שמות של אנשים במנועי חיפוש.

איתור אדם באמצעות שמו היא פעולה שגרתית המתבצעת כיום באינטרנט. אולם מנועי החיפוש השונים מספקים ביצועים נמוכים לשאילתות המכילות שמות פרטיים או שמות משפחה, כך שבמקרים מסוימים יהיה כמעט בלתי אפשרי למצוא אדם על פי שמו באינטרנט.

הסיבה לביצועים הנמוכים הקיימים במנועי החיפוש, נובעת מהעובדה שבניגוד למילה כללית, כדוגמא המילה 'כדור', שיש לה דרך אחת ויחידה להיכתב, ישנן מספר דרכים אפשריות ולגיטימיות לכתוב שמות פרטיים ושמות משפחה. למשל, Victor ו- Viktor, Sofia ו-Sophia ועוד.

אי לכך, נוצר צורך בכלי יעיל שישפר את הצעת השמות הנרדפים בהינתן שם מהמשתמש. רוב הטכניקות שמנועי החיפוש השונים משתמשים בהן בימינו על מנת להציע שמות נרדפים, מתבססות על קידוד פונטי, מציאת דמיון בין זוג מילים, אולם אלה לרוב מספקות ביצועים חלשים.

על מנת להתמודד עם הבעיה, ד"ר מיכאל פייר, ד"ר רמי פוזיס והדוקטורנט אביעד אלישר מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב, פיתחו צמד אלגוריתמים פורצי דרך בתחום אחזור השמות, המנסים לפתור את הבעיה משתי זוויות שונות:

האלגוריתם הראשון שנקרא (GRAFT)- GRAph based on names derived from digitized Family Trees מנצל מידע היסטורי שנאסף מאתרים גנאלוגיים (אתרים של שושלות יוחסין), בשילוב עם אלגוריתמים מעולם הרשתות (Network Science). אלגוריתם זה מציע מגוון אפשרויות איות (לדוגמא: Sophia ו-Sofia) וקיצורי שמות (לדוגמא: Sophie עבור השם Sofia) לשמות המסופקים כקלט מהמשתמש. דבר זה מתבצע באמצעות גרף מבוסס שמות, הנגזר מעצי משפחה דיגיטליים, הנבנים מהמידע ההיסטורי שמסופק. השמות האלטרנטיביים מוצעים מהגרף שנבנה, תוך "טיול" על הגרף ובחירה מתוחכמת של האופציות המתגלות תוך כדי הטיול, כמתואר באילוסטרציה להלן:

צילום: ללא קרדיט

האלגוריתם השני נקרא SpokenName2Vec. בניגוד לאלגוריתם הראשון, המנצל תבניות לאורך שושלות היסטוריות על מנת להציע שמות נרדפים, אלגוריתם זה, מנסה לפתור את הבעיה תוך שימוש בקול אוטומטי ולמידה עמוקה (Deep Learning). שהרי שמות דומים אומנם נכתבים שונה, אך נשמעים דומה (למשל Victor ו-Viktor, Elisabeth ו-Elizabet).

במקרה זה, הציעו החוקרים ייצוג חדשני ופורץ דרך לשמות, אשר לוקח בחשבון את הצורה בה בני אדם מבטאים את השם בשפה מסוימת ובמבטא מסוים. ייצוג חדשני זה מאוד דינמי ומאפשר לזהות שמות שנהגים בצורה דומה, אך לאו דווקא נכתבים באותה הצורה:

תרשים זיהוי שם באמצעות היגוי

צילום: ללא קרדיט

השיטות הללו נבנו על סמך מקור מידע עצום (dataset) הכולל כ- 17 מיליון בני אדם, ומכיל בתוכו מעל ל 700,000 שמות פרטים ו-500,000 שמות משפחה ייחודים. השיטות נבחנו על שלושה מקורות מידע מקוטלגים של שמות פרטיים ומשפחה הכוללים אלפי ועשרות אלפי שמות פרטיים ושמות משפחה מאומתים. ביצועי השיטה הושוו ל-10 אלגוריתמים שונים הכוללים קידוד פונטי, דמיון מילים ואלגוריתמים מבוססי למידה עמוקה ולמידת מכונה מהשנים האחרונות. האלגוריתמים המוצעים הציגו עליונות מובהקת באיתור השמות ופורסמו בכתבי העת היוקרתיים – IEEE Transactions on Knowledge and Data Engineering ו-Knowledge-Based Systems.

"הנתונים המרשימים שהתקבלו מדגישים את פריצת הדרך ואת הפוטנציאל העצום בשיטות המוצעות על מנת להקל במציאת אנשים על סמך שמות נרדפים", אמר ד"ר מיכאל פייר.

" בימים אלו אנו שוקדים על ייצור אתר שיהיה נגיש לכולם ויאפשר לאתר אנשים באמצעות האלגוריתמים שפיתחנו", בישר ד"ר רמי פוזיס.