משתמשים רבים מחפשים מידע רפואי באינטרנט ואכן קיימים באינטרנט אתרים רבים דוגמת WebMD שמספקים מידע רפואי ל- consumers.
אלא שקיימת בעיית "פער השפה" – הפער בין המונחים הרפואיים ובין מונחים בסלנג שבהם מחפשים המשתמשים. בעיה זו פוגעת ברלוונטיות של תוצאות החיפוש. כדי להתגבר על הבעיה חוקרים ב- Georgia Tech פתחו את DiaTM – Dialect Topic Modeling for Improved Consumer Medical Search – שלומד את שפת המשתמש ובכך משפר את תוצאות החיפוש.
לימוד שפת המשתמש על פי DiaTM מתבצעת על ידי השוואת מסמכים רפואיים רבים שכתובים ברמות שונות של שפה טכנית. על ידי כך המערכת לומדת על הקשר בין מונחי סלנג ומצבים וסימפטומים רפואיים שונים ובכך מצטמצם פער השפה בין שפת המשתמש ובין שפת מאגרי המידע בהם הוא עורך את החיפוש. כך למשל אחרי עיבוד של כמות מספקת של מסמכים המערכת לומדת שמשמעות המונח gunk בהקשרים מסוימים היא discharge. המסמכים שמשמשים את המערכת לצורך השוואה ולימוד לקוחים ממספר מגוון של מקורות מידע כגון: WebMD Yahoo! Answers, PubMed Central, the Centers for Disease Control & Prevention website sources ואחרים.
במחקרים שנערכו לבדיקת DiaTM נמצא שהוא שיפר את הרלוונטיות של התוצאות ב- 25%
טכניקה זו של DiaTM אינה מצטמצמת רק לתחום הרפואי וניתן ליישמה על תחומים אחרים.
נייר העבודה שמתאר את המערכת:
“Dialect Topic Modeling for Improved Consumer Medical Search,”
הוצג ב- 17 בנובמבר במפגש השנתי של American Medical Informatics Association, Washington, D.C