Hakia – מנוע חיפוש סמנטי מסוג אחר, והשימוש בשירות BOSS של Yahoo

מנוע החיפוש Hakia מוגדר על ידי מפתחיו כמנוע סמנטי כללי ששם לו למטרה לאחזר תוצאות איכותיות באמצעות טכנולוגיה סמנטית. תוצאות איכותיות על פי התיעוד באתר עונות על הקריטריונים הבאים:
• מקורות מהימנים סמכותיים מומלצים על ידי ספרנים
• כוללים מידע מעודכן
• ורלוונטיים לשאילתה
תוצאות רלוונטיות כאלה משתדל המנוע להשיג באמצעות טכנולוגיה סמנטית כלומר טכנולוגיה שמאפשרת הבנה סמנטית של דפי ה-Web. 

בפוסט קודם, בהסתמך על כתבה מ-Themarker מ- 15.5.2008, תיארתי מנוע סמנטי אחר – Powerset אשר בניגוד למנועי החיפוש המסורתיים שמתייחסים אל דפי ה-Web כאסופת מלים, מנוע חיפוש זה מייצר ייצוג סמנטי של הדף על ידי ניתוח כל משפט המופיע בו, והבנת המשמעות שלו. באופן זה המנוע יכול לתת בתוצאות החיפוש אוסף של עובדות הקשורות לשאילתה, לתמצת את המידע, ולספק תשובות ישירות לשאלות עובדתיות. אלא שעל פי דברי האנליסט גרג סטרלינג מחברת Sterling Market Intelligence “אין ספק שיש כאן פוטנציאל, אבל ליישם את מה ש Powerset עשתה על הרשת כולה הוא אתגר עצום שיצריך זמן רב ומשאבים עצומים”. ואכן Powerset הצטמצם בחיפושים בוויקיפדיה. 

Hakia שקדם ל-Powerset מבחינה כרונולוגית, אימץ לו טכנולוגיה מיוחדת שבאה להתמודד עם בעיה זו. הוא מצא לו דרך חדשה לאחסון דפי Web לצורך אחזורם – שנקראת QDEX – Query Detection and Extraction. שיטה חדשה זו מחליפה את השיטה המקובלת ליצירת אינדקס. על פי השיטה המקובלת ליצירת אינדקס שמכונה קובץ מהופך –inverted file – האינדקס כולל את המונחים המופיעים בטקסט, ומצביעים אל מונחים אלה מהווים בתהליך אחזור המידע שערי גישה למסמכים. אם נשתמש בשיטת הקובץ המהופך גם להוספת קשרים סמנטיים ייווצר מבנה שיכביד מאוד על הביצועים. בשיטה החדשה של מנוע החיפוש Hakia, לעומת זאת, שערי הגישה לדפי ה-Web אינם מצביעים למלים אלא לשאילתות. המנוע מנתח באמצעות אלגוריתם מתוחכם את כל השאילתות האפשריות בדפי ה- Web והשאילתות מהוות שערי גישה לדפי ה- Web. באופן זה בעת אחזור המידע המנוע עובד על סטים קטנים יחסית של דפי Web ורק עליהם הוא מבצע את הניתוח הסמנטי. בכך נפתרת בעיית המשאבים הרבים שנדרשים לביצוע ניתוח סמנטי על מספר רב של דפים. על פי התיעוד באתר ביצוע הניתוח הסמנטי ודרוג התוצאות מתבצע באמצעות אלגוריתם מתוחכם שעושה שימוש גם באונטולוגיות.

ב-10 ביולי 2008 צוות מנוע החיפוש Hakia הודיע שהוא ישתמש בשירות החיפוש החדש שמציעה Boss – Yahoo. שירות חדש זה של Yahoo מאפשר למפתחים להשתמש בתוצאות החיפוש של Yahoo, לשלבם עם נתונים ממקורות אחרים, לדרג אותם מחדש ולהציגם באופן שונה. צוות Hakia מתכוון באמצעות השימוש בשירות זה של Yahoo להשתמש בתוצאות החיפוש של Yahoo ולהפעיל עליהם את הטכנולוגיה שלו לאחר סינון התוצאות. שיתוף פעולה זה אמור לשפר את המערכת כי הוא למעשה מאפשר ל-Hakia שימוש במאגר ובתשתיות של Yahoo. 
שיתוף פעולה זה הוא במסגרת הפתיחות של מנועי החיפוש הגדולים לחידושים. גם רכישת Powerset על ידי Microsoft היא במסגרת מגמה זו שיש לברך עליה. 

מנוע החיפוש Hakia נמצא עדיין בשלב ביתא. אשר לביצועיו – מבדיקת המנוע היום עולה שהמנוע תומך גם בעברית והתוצאות לשאילתות שבדקתי היו בדרך כלל טובות, ובד"כ הכותר בראש כל תוצאה היה אינפורמטיבי כך שהיה קל לדעת במה היא עוסקת. למונחים שגויים בשאילתה באנגלית המנוע מציע הצעות למונח הנכון. כדאי לנסות. .

אל אתר מנוע החיפוש
להודעה של צוות Hakia על השימוש בשירות BOSS של Yahoo

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *