בבלוג של Hakia שנחשב מנוע חיפוש סמנטי התפרסם פוסט מעניין שמגדיר 10 מאפיינים של חיפוש סמנטי. מאפיינים אלו נבחנו בהשוואה בין מנוע החיפוש HAKIA ובין מנוע החיפוש שמשמש את pubmed . לצורך השוואה זו נעשה שימוש ב- hakia’s online demo. דמו זה כולל 20 מיליון מסמכים מ-pubmed. בהזנת שאילתה מסוימת מקבלים במקביל תוצאות משני המנועים שמשתמשים במסמכים מאותו מאגר מידע. אלא שמנוע החיפוש Hakia משתמש בשיטה המיוחדת לו לאחסון וניתוח סמנטי של מסמכים אלו לצורך אחזורם.
על שיטה זו כתבתי בפוסט קודם.שיטה זו שנקראת QDEX – Query Detection and Extraction מחליפה את השיטה המקובלת ליצירת אינדקס. על פי השיטה המקובלת ליצירת אינדקס שמכונה קובץ מהופך –inverted file – האינדקס כולל את המונחים המופיעים בטקסט, ומצביעים אל מונחים אלה מהווים בתהליך אחזור המידע שערי גישה למסמכים. אם נשתמש בשיטת הקובץ המהופך גם להוספת קשרים סמנטיים ייווצר מבנה שיכביד מאוד על הביצועים. בשיטה החדשה של מנוע החיפוש Hakia, לעומת זאת, שערי הגישה לדפי ה-Web אינם מצביעים למלים אלא לשאילתות. המנוע מנתח באמצעות אלגוריתם מתוחכם את כל השאילתות האפשריות בדפי ה- Web והשאילתות מהוות שערי גישה לדפי ה- Web. באופן זה בעת אחזור המידע המנוע עובד על סטים קטנים יחסית של דפי Web ורק עליהם הוא מבצע את הניתוח הסמנטי. בכך נפתרת בעיית המשאבים הרבים שנדרשים לביצוע ניתוח סמנטי על מספר רב של דפים. על פי התיעוד באתר ביצוע הניתוח הסמנטי ודרוג התוצאות מתבצע באמצעות אלגוריתם מתוחכם שעושה שימוש גם באונטולוגיות.
עשרת המאפיינים שמאפיינים חיפוש סמנטי על פי HAKIA ושנבחנו בהשוואה שעליה דובר לעיל הם:
1. Handling morphological variations- טיפול בוַרְיַאצְיות מורפולוגיות – מנוע חיפוש סמנטי אמור לטפל בכל הוריאציות המורפולוגיות של המונח . באופן זה למשל תוצאות החיפוש צריכות להיות זהות אם מקישים כל אחד מהמונחים הבאים: “improve, improves, improving, improved,
2. Handling synonyms with correct senses- טיפול נכון וסמנטי במלים נרדפות תוך הבנת המשמעות הנכונה של המלה הנרדפת
3. Handling generalizations – טיפול בהכללה בצורה נכונה כך למשל השימוש במונח "מחלה" בשאילתה אמור לאחזר את כל המחלות
4. Handling concept matching – הבנת המשמעות הנכונה של מונחים
5. Handling knowledge matching – ממנוע חיפוש סמנטי מצפים שיבין למשל ש- swine flu = H1N1, flu=influenza
6. Handling natural language queries and questions – טיפול נכון בשאילתות בשפה טבעית
7. Ability to point to uninterrupted paragraph and the most relevant sentence – ממנוע חיפוש סמנטי מצפים ליותר מאשר להציג קישורים למסמכים שלמים כפי שעושים מנועי חיפוש מסורתיים אלא גם להציג קטעים רלוונטיים מהמסמך
8. Ability to enter queries freely, no special formats like quotes, or Boolean operators – אפשרות להזנת השאילתה באופן חופשי וללא צורך באופרטורים מיוחדים
9. Ability to operate without relying on statistics, user behavior, and other artificial means – ממנוע חיפוש סמנטי מצפים לאחזר תוצאות רלוונטיות על סמך ניתוח המסמך ולא על סמך אמצעים מלאכותיים שלא תמיד מצויים במסמך
10. Ability to detect its own performance – ממנוע חיפוש סמנטי מצפים שהאלגוריתם שלו לקביעת הרלוונטיות של תוצאות החיפוש לא יסתמך על אמצעים מלאכותיים כגון מספר הקישורים למסמך אלא על סמך מידת ההתאמה של תוצאות החיפוש למשמעות הנכונה של מונח החיפוש. יכולת זאת מאפשרת למפתחים לקבוע "סף משמעות/רלוונטיות" באופן שהמנוע יוכל לשפר אוטומטית את ביצועיו.