Schema .org , מנועי חיפוש והווב הסמנטי

ב- 2 ביוני 2011 שלושת מנועי החיפוש הגדולים Google, Bing, Yahoo הצהירו על Schema.org – יוזמה משותפת שתומכת בשפה משותפת לתיוג מידע מובנה בדפי ווב.

בעזרת Schema.org בעלי אתרים ומפתחים יוכלו ללמוד יותר על נתונים מובנים, יוכלו להטמיע בקלות יחסית מידע סמנטי בתוך הקוד של דפי הווב הקיימים – דפי5 html – מידע שמכונות יכולות להבין ולחלץ אותו באופן חד משמעי. בכך יסיעו למנועי חיפוש להבין טוב יותר את התכנים של דפי הווב שלהם.

המשמעות מבחינתם של מנועי החיפוש והמשתמשים היא תשובות מדויקות יותר למספר רב יותר של שאלות. כך למשל בתוצאת חיפוש של ספר, מנוע החיפוש יוכל להציג גם את מספרי העמודים שלו ואת ה- ISBN שלו, שכן המידע המובנה יסייע למחשבים להבין את המידע ולחלץ את המידע הדרוש מתוך דפי הווב . המשמעות מבחינת אתרי ווב שיאמצו סכימה זו היא הגדלת הנראות שלהם במנועי חיפוש.

המשמעות של Schema.org היא התקדמות לקראת החזון של הווב הסמנטי שבו מידע על יסייע למחשבים להבין את התכנים, אבל בקהילת הווב הסמנטי הדעות לגבי היוזמה בכל זאת חלוקות. זמן רב עבדו על פיתוח שפות כמו RDF שיקדמו את הווב הסמנטי והם רואים ב- Schema.org מגבלות ביחס ל- RDF , אבל מצד שני בשל הפשטות היחסית שלה אחרים סבורים שיהיה יותר קל לשווק אותה ובכך לקדם את חזונו של הווב הסמנטי.

פירוט יתר על היוזמה והשלכותיה

ההצהרה על היוזמה
לאתר Schema.org

Scroogle ונטרול מאפיין הפרסונליזציה בגוגל

מנועי החיפוש וגוגל בתוכם משתדלים להתאים את תוצאות החיפוש למשתמש. האלגוריתם של מנוע החיפוש גוגל עושה זאת בשיטות שונות . בתהליך הפרסונליזציה של תוצאות החיפוש נלקחים בחשבון גורמים רבים כגון המיקום , ip , ההיסטוריה של החיפושים, הקלקה על תוצאות החיפוש על ידי המשתמש ועוד.

גוגל מאפשר גם למשתמש להשפיע על תוצאות החיפוש כדי להתאימן לצרכי המידע שלו.

גם wonder wheel  המאפיין של מנוע החיפוש של גוגל שמאפשר הצגה ויזואלית ואשכול של תוצאות החיפוש יכול לסייע למשתמש להתאים את התוצאות לצורכי המידע שלו.

אבל לא תמיד המשתמש מעוניין בפרסונליזציה של התוצאות. לצורך נטרול הפרסונליזציה בגוגל אפשר להשתמש במנוע החיפוש Scroogle – מנוע זה מציג את תוצאות החיפוש מהאינדקס של גוגל ללא מאפייני הפרסונליזציה. הדבר ניכר בעיקר בחיפושים שבהם מאפיין הפרסונליזציה כמו מקום באים יותר לידי ביטוי. כך למשל כאשר חיפשתי universities בגוגל וב- Scroogle רק 4 תוצאות מתוך עשרת התוצאות הראשונות היו משותפות. בגוגל הוצגו יותר תוצאות שקשורות לישראל. לעומת זאת כאשר חיפשתי נושא כללי בגוגל וב-scroogle כמו personalization עשרת התוצאות הראשונות בשני המנועים היו זהות.

טיפים נוספים לקבלת תוצאות ללא פרסונליזציה אפשר למצוא בעלון של המידענית Mary Ellen Bates מחודש מאי 2011

 

 

חיפוש קובצי pdf חופשיים – Pdfdbase , ומנועי חיפוש דומים נוספים

בפוסטים קודמים כתבתי על כמה מנועי חיפוש לחיפוש ספרים וקובצי pdf חופשיים כגון :Pdfgeni.com, pdf-Search-Engine.com , Data-Sheet ו- PDF Books .

Pdfdbase הוא מנוע חיפוש נוסף לחיפוש ספרים אלקטרוניים וקובצי pdf חופשיים. לא מצאתי באתר מידע כלשהו על המנוע , פרט להצגת 100 חיפושים האחרונים במנוע , מספר המבקרים ביום כולל הפניה לאתר liveinternet שם מצוין שהוא ששי בדרוג בקטגוריה חשבות. מחיפוש באתר במספר נושאים קיבלתי קובצי pdf רבים חופשיים רלוונטיים לחיפוש.

מלבד המנועים שהוזכרו לעיל קיימים מנועי חיפוש דומים לא מעטים ברשת . כאשר הזנתי את שם מנוע החיפוש באתר similarsite search קיבלתי רשימה של 62 מנועי חיפוש דומים ביניהם: PDF search books, Openpdf, .pdfoo, Toodoc, Useful PDF Search Engine For Programmers and Designers , Free PDF eBooks and Manuals – Mega-PDF.com , Free eBooks Download, Free PDF eBooks, 2dix.com – Free Download PDF ועוד..

יש לציין שהחיפוש ב- similarsite search במקרה זה היה מוצלח . מנוע חיפוש זה אינו חדש הוא כמעט בן שנתיים , הוא אוסף מידע על אתרים ממקורות שונים כולל האתרים עצמם ומבסס את תוצאות החיפוש על פי דמיון בין האתרים. קריטריונים שנלקחים בחשבון לקביעת הדמיון בין האתרים כוללים דמיון בנושאים, במידת הפופולריות של האתר, שפה, ארץ. הצעות ודרוג המשתמשים אף הם נלקחים בחשבון. אלגוריתם דרוג התוצאות מתעדכן בקביעות. מנועי חיפוש נוספים דומים לו באופיים הם similarsites , similarweb . sitelike , Insuggest, Similicio.us ' וכדאי לזכור גם אותם כאשר מחפשים אתרים דומים.

Blogpulse – לחיפוש בבלוגים ומגמות בבלוגוספירה

Blogpulse הוא מנוע חיפוש ייעודי לבלוגים. אפשר לחפש בו על פי כתובת URL ועל פי מילות מפתח. הוא תומך באופרטורים הבוליאניים : AND, OR, NOT

בחיפוש מתקדם אפשר להגביל את החיפוש על פי תאריך, למיין על פי רלוונטיות או עדכניות ולקבוע את מספר התוצאות שיוצגו בכל דף.

בתוצאות החיפוש ליד כל אחת מתוצאות החיפוש אפשר לראות את הפרופיל של הבלוג ממנו נלקחה תוצאת החיפוש.

בנוסף לחיפוש הרגיל יש ל Blogpulse מספר כלים נוספים שיכולים להצביע על מגמות. כך למשל trend search מאפשר ליצור גרפים שמצביעים על מגמה לאורך זמן בהקשר של מונח החיפוש – אנשים, חברות, נושאים שונים – או משווים בין מגמות של מספר מונחי חיפוש (עד 3) .

כלי נוסף Featured Trends מאפשר לזהות את הבאז התקשורתי בתחומים שונים כפי שבא לידי ביטוי בעולם הבלוגספירה

כלי מעניין נוסף הוא Conversation Tracker שמאפשר מעקב אחר השיח בבלוגוספירה שהתפתח מפוסט מסוים , באמצעות מעקב אחר הקישורים שמקורם בפוסט מסוים . מעקב זה מתאפשר הודות לאינדקס שיוצר המנוע מהטקסט המלא של הפוסטים בבלוגים ומעקב אחר ה- permalinks.

למנוע החיפוש 

 

BioPortal – מאגר בינלאומי לאונטולוגיות בתחום הביורפואי

BioPortal הוא מאגר בינלאומי לאונטולוגיות בתחום הביורפואי. המאגר נוצר ומתוחזק על ידי NCBO . NCBO – The National Center for Biomedical Ontology נוסד ב-2005 כדי לעזור לאנשי מדע בתחום הביורפואי להשתמש באונטולוגיות לצורך ארגון המידע.

NCBO גם מציע כלים ושירותי ווב שמאפשרים למשתמשים גישה ושימוש באונטולוגיות למגוון יישומים. מרכז זה גם תומך בפיתוח טכנולוגיות סמנטיות בתחום הביורפואי.

BioPortal הוא התרומה הנראית העיקרית של NCBO לקהילה הביורפואית. האתר מספק גישה ליותר מ- 200 אונטולוגיות ושפות מבוקרות בתחום הביורפואי. אפשר לדפדף באתר וגם לחפש אונטולוגיות על פי מונחי חיפוש. האתר מאפשר גם מיפוי בין אונטולוגיות לצורך השוואה.

כמו כן האתר מאפשר חיפוש במגוון מקורות של מידע רפואי תוך שימוש במונחי האונטולוגיות שלו. חיפוש זה אפשרי בזכות האינדקס שיצר NCBO מהתכנים של עשרות מאגרים תוך שימוש במונחי האונטולוגיות שב- BioPotal .תוצאות החיפוש מציגות את המאגרים כשליד כל אחד מהמאגר מספר התוצאות מאותו מאגר, במסך התוצאות מתקבלות גם הצעות לעידון השאילתה.

מעבר להיותו של BioPortal מאגר אונטולוגיות, ואינדקס לעשרות מאגרים  הוא מהווה גם קהילה מקוונת למפתחי אונטולוגיות ולמשתמשים שיכולים להעיר הערות ולדון בתכנים של האונטולוגיות.

למרות שהאונטולוגיות ב- BioPortal מיועדות בעיקר לתחום הביורפואי , התוכנה היא לגמרי גנרית וניתנת לשימוש ליצירת מאגרי אונטולוגיות בתחומי מחקר אחרים. פרטים נוספים על הפורטל אפשר למצוא בגיליון 11 של – Nodalitiies המגזין הייעודי לווב הסמנטי

לפורטל

לפרטים נוספים על הפורטל

גוגל , חוקרים מאוניברסיטת תל אביב וחיזוי העתיד על ידי מחשבים

חברת גוגל מממנת מחקר של חוקרים ממדעי המחשב באוניברסיטת תל אביב שמטרתו לאפשר למחשבים לחזות טוב יותר את העתיד .

המחקר בראשותו של פרופסור ישי מנצור מאוניברסיטת תל אביב הושק בכנס בינלאומי בתחום הלמידה החישובית  Conference On Learning Theory-COLT שנערך בחיפה בסוף יוני 2010 . בלמידה חישובית המערכת משתמשת בשיטות אנליטיות לניתוח מידע ומפתחת תובנות על סמך המידע שמוצג לה. חיזוי העתיד מושתת על היכולת ללמוד ולהפיק לקחים מניסיון העבר. הרעיון בחיזוי העתיד על ידי מחשבים, כפי שבא לידי ביטוי בפרויקט הנ"ל  הוא שעל ידי מדידת המרחק בין התוצאה הרצויה והמעשית , הלא כל כך רצויה, מחשבים יוכלו לקבל החלטות נכונות יותר לגבי העתיד .

מן הראוי לציין שמימון פרויקט זה על ידי חברת גוגל קדמה לו מעורבותה של גוגל ב-recorded future.com – אלגוריתם שמנתח אירועים מהעבר לצורך חיזוי העתיד.

עוד מן הראוי לציין שמחקר זה של חוקרים ממדעי המחשב באוניברסיטת תל אביב הוא אחד מיני רבים שאותם אפשר לראות באתר Tel Aviv University's American Friends

Yometa – מנוע וויזואלי חדש – גוגל, יאהו ובינג – ביחד ולחוד

Yometa הוא מנוע חיפוש-על שמחפש בשלושת מנועי החיפוש הגדולים: גוגל, בינג ויאהו ומציג את תוצאות החיפוש בצורה ויזואלית.

ההנחה שעמדה בפיתוח המנוע כפי שמוסבר באתר המנוע היא מחקרים (לא מצוין מקור) שמלמדים שהחפיפה בין שלושת המנועים נמוכה בשיעור של 3% כלומר 97% מהתוצאות אינן חופפות ולכן לחיפוש בו זמנית ב-3 המנועים יש ערך מוסף.

ל- Yometa מנגנון עצמאי משלו לחישוב הרלוונטיות של התוצאות המתקבלות מ-3 המנועים.
הצגת תוצאות החיפוש היא באמצעות דיאגרמת ון –שמתארת את הקשר בין הקבוצות במעגלים.

בתוצאות החיפוש מוצגים שלושה מעגלים שמייצגים את שלושת מנועי חיפוש. בדיאגרמת ון – החיתוך מבטא את השטח המשותף לקבוצות והאיחוד מיצג את השטח ששיך לכל אחת מהקבוצות. באופן זה ההצגה הויזואלית של תוצאות החיפוש מאפשרת לראות את התוצאות מכל אחד ממנועי החיפוש בנפרד ואת התוצאות המשותפות למנועי החיפוש.

בתצוגה ראשונה מוצגות 22 התוצאות הרלוונטיות ביותר בצורת סיכות. התוצאות שקרובות למרכז הדיאגרמה רלוונטיות יותר, והרחוקות מהמרכז פחות . לחיצה על כל אחת מהסיכות תציג בועה עם מידע על האתר. בצד השמאלי של המסך שורת רבועים שריחוף על כל אחת מהן עם העכבר מציגה 4 תוצאות שונות בהתאם לסדר התוצאות על פי מידת הרלוונטיות

כמו כן בצד שמאל של המסך מוצגת דיאגרמת ון מוקטנת שמאפשרת לצפות בתוצאות המשותפות למנועים השונים באמצעות החיתוך. לחיצה על נקודה כלשהי בשטח המשותף תצבע את השטח המשותף בצבע כהה יותר ותציג תוצאות משותפות למנועי החיפוש באותו חיתוך. לחיצה נוספת בשטח החיתוך – תציג את התוצאות המקוריות.

למנוע

שיתוף פעולה בין Biomed Central ו- OpenHelix, למען החוקרים

היום 15 למרץ 2011 המו"ל Biomed Central – חלוץ מודל הגישה הפתוחה בתחום ה- STM ו- OpenHelix – ספק/פורטל למדריכים בתחום הביואינפורמטיקה והגנומיקה הודיעו על השקתה של תוכנית לשיתוף פעולה ביניהם שמטרתה לסייע לחוקרים לרכוש ידע רחב יותר ותמיכה.

במסגרת שיתוף פעולה זה קישורים מתוך כתבי העת של Pubmed central יובילו את הקוראים למדריכים ווביים על כלים בתחום הביואינפורמטיקה והגנומיקה שנעשה בהם שימוש או צוטטו במאמרי המחקר.

המטרה לספק לחוקרים מקורות מידע נוספים בעת קריאת המאמרים בגישה פתוחה – מקורות שיוכלו לסייע לחוקרים להעמיק את הבנת החומר הנקרא כפי שאמר Matthew Cockerill בכיר ב- : Pubmed central:
“These links assist scientists by guiding them to relevant technical tutorials on resources which may be unfamiliar to them. Thanks to this partnership with OpenHelix, BioMed Central journals are able to make their scientific content more useful and accessible to readers.”

תוכנית מסוג זה היא במסגרת המגמה הכללית להעשיר את מאמרי המחקר בעיקר בתחום הביורפואי במידע מקושר נוסף. .

יש לציין שהחיפוש במנוע החיפוש הייעודי לביואינפורמטיקה וגנומיקה שבפורטל OpenHelix וחלק מהמדריכים חופשיים. לשאר המדריכים אפשר לעשות מנוי בתשלום.

להודעה על השקת התוכנית

לפורטל – OpenHelix

Wylio – חיפוש תמונות ברישיון גמיש ועריכה מהירה

כאשר אנו רוצים להוסיף תמונה חינמית מהרשת לבלוג או לכול מידע אחר שאנו מפרסמים , חשוב מתוך האוסף ההולך וגדל של תמונות לבחור את התמונות שזמינות לנו חופשי במסגרת רישיון גמיש שמתיר שימוש, הפצה ושימוש חוזר בתמונה מבלי להפר זכויות יוצרים. רישיון creative commons מתיר זאת.

תמונות חופשיות במסגרת הרישיון הגמיש  Creative commons אפשר למצוא לאחר סינון מתאים ב-flickr וגם בגוגל בחיפוש המתקדם. כדי להכניסן לבלוג או למקור מידע אחר שאנו מעוניינים, בדרך כלל יש צורך לערוך אותן תחילה בתוכנה גרפית כלשהי כדי להגיע לגודל הרצוי לנו וכו' .

מבחינה זו מנוע החיפוש Wylio מקל עלינו את העבודה. הוא כולל מיליוני תמונות שזמינים ברישיון גמיש ב- flickr ומאפשר לנו לערוך אותם מבחינת גודל ומיקום וגם מייצר את הקוד המתאים לצורך שתילתו בבלוג או באתר אחר ברשת.

מאחר ועל פי מה שכתוב באתר, התמונות ב-Wylio לקוחות מ- flickr כדאי לא לשכוח את גוגול והאפשרות שהוא מספק לנו במנשק החיפוש המתקדם לסינון תמונות חופשיות מבלי להפר זכויות יוצרים.

למנוע החיפוש Wylio

לפוסט קודם בבלוג  בנושא חיפוש תמונות במסגרת Creative commons

Google, Bing וה"רובד החברתי" בחיפוש

מנועי חיפוש משתדלים להתאים את תוצאות החיפוש למשתמש – מחפש המידע. עד כה מנועי החיפוש לקחו בחשבון יחסים בין נתונים,  כיום נראה שהם מוסיפים לתוצאות החיפוש גם יחסים בין אנשים – רובד חברתי לחיפוש.

הרובד החברתי בבינג מושתת כיום בעיקר על שיתוף פעולה עם facebook . לגוגל נכון להיום אין שיתוף פעולה עם facebook והרובד החברתי בא לידי ביטוי בשיתוף פעולה עם twitter

מנוע החיפוש   Bing הודיע על הוספת רובד חברתי לחיפוש תוך שיתוף פעולה עם facebook באוקטובר 2010 . מאז מאפיין זה עודכן וב- 24 בפברואר BING הודיע על הרחבת שיתוף הפעולה שלו עם facebook , בשלב זה למשתמשים בארה"ב .

החיפוש החברתי בא לידי ביטוי בהצגת "תוצאות Liked" של החברים מהרשת החברתית פייסבוק. כך למשל אם עורכים חיפוש מסוים בתחום התיירות ומתקבל בתוצאות החיפוש אתר  מסוים שחברים סימנו אותו כ- "like ", בתוצאת החיפוש יופיע מידע על החברים שאהבו את האתר. . מאפיין זה יכול לסייע בקבלת החלטות . כך למשל אם אנו מחפשים מכונית לקנייה ומתחת לתוצאת חיפוש מסוימת נראה שהחברים אהבו את זה – כמובן שזה יקל עלינו לקבל החלטה. באופן זה נעשה שילוב של מקור המידע הטוב ביותר – הווב, עם מנוע ההחלטות הטוב ביותר – האדם – חברים שבהם בוטחים. . שיתוף הפעולה facebook – bing משפר את תוצאת החיפוש בבינג בכל הקשור לפרסונליזציה.

כאמור לעיל , גוגל בשלב זה כולל תוצאות מ-twitter .

ומי שמעוניין בשני המאפיינים בו זמנית יכול להשתמש בתוספים לדפדפן כמו זה של Wajam, שיעשו לו את העבודה

Greplin וחיפוש ב"ענן האישי"

Greplin הוא שירות חדש שמאנדקס ומאפשר חיפוש בחשבונות האישיים במדיה חברתית – מה שמכונה לעתים ה"ענן האישי". נכון להיום השירות משתמש בשירותי הענן של אמזון.

לשירות יש גרסה חינמית וגירסה בתשלום.
הגירסה החופשית מאנדקסת תכנים מחשבונות ב-, Twitter Facebook, Gmail , Google Docs & Calendar- ו- Dropbox, LinkedIn . הגרסה בתשלום מאנדקסת מקורות נוספים כגון Evernote ו-Yammer . בעתיד תהיה אפשרות לאנדקס גם שירותים נוספים.

היישום מבקש אישור לאנדקס חומרים מהיישומים שבוחרים, ולשם כך יש להזין את שם המשתמש והסיסמה האישיים של אותו יישום. אפשר לחפש בכל היישומים שנבחרו ואפשר לסנן את החיפוש ליישום מסוים. כמו כן יש אופציות נוספות להגבלת חיפוש על פי סוגי מידע כגון הודעות, אנשים , אירועים ועוד. .

תוצאות החיפוש כוללות לא רק את הפוסטים והמסמכים האישיים מהשירותים השונים אלא גם פוסטים ומסמכים משותפים מחשבונות של חברים

לGreplin

כתבה בנושא

Nachofoto – מנוע סמנטי לחיפוש תמונות בזמן אמת

עם הגידול במידע עדכני בזמן אמת  ברשת  נולד הצורך להתאים את מנועי החיפוש לסביבת המידע המשתנה. Nachofoto  בא לענות על צורך זה בכל הקשור לחיפוש תמונות ולספק תוצאות דינמיות ועדכניות "בזמן אמת" כפי שכתוב באתר :

“ With the Advent of realtime information across the web, we think now the time has come to turn image search engines more dynamic with fresh image results using powerful navigation tools. ”

ו- " Freshness! " הוא המונח שמסביר במילה אחת את מהותו של Nachofoto.

Nachofoto כפי שמעידים עליו מפתחיו  אינו מהווה תחליף למנועי חיפוש תמונות המסורתיים Google,Yahoo or Bing אלא מנוע חיפוש משלים ייעודי לתמונות דינמיות שעוברות שינוי משמעותי עם הזמן. מטבע הדברים הוא מתמקד בקטגוריות נושאיות שאפשר להגדירן כדינמיות:
בידור, חדשות, ספורט, טכנולוגיה וגדג'טים ורכב

מונחים שמוגדרים על ידי המנוע כ"מונחים סטטייים" שהמשמעות שלהם והתמונות שקשורות אליהם לא עוברים שינוי עם הזמן לא יכללו בד"כ בתוצאות החיפוש .כמו כן, על פי מה שנכתב באתר מנוע החיפוש אינו כולל באינדקס שלו תמונות מרשתות חברתיות כמו twitter , flckr ורשתות חברתיות אחרות.

בתהליך יצירת האינדקס שלו הוא משתמש במה שנקרא Load Spreading Technique כדי להקל על העומס משרתי הווב . .

מי שסבור שהאתר שלו מתאים להיכלל באינדקס של מנוע זה ורוצה בכך יכול לשלוח את הפרטים בטופס ייעודי לכך

יש לציין שכיום המנוע עדיין בגרסת ביתא והחיפוש בו כרוך בהזנת שם משתמש וסיסמה.

למנוע החיפוש

הארכיון הגדול של יד ושם עולה לענן של גוגל

היום – 26 בינואר, יד ושם וגוגל השיקו פלטפורמה חדשה שמטרתה היא להנגיש את הארכיון של יד ושם לכלל הציבור.

בצעד ראשון זה של העלאת הארכיון של יד ושם לענן של גוגל הועברו כבר 130 אלף תמונות. חלקן עברו דיגיטציה ותיוג. כמו כן נוספו יכולות חיפוש נוספות לתמונות כולל יכולת לזהות כיתובים בתמונות באמצעות טכנולוגת OCR .

משמעות הפרויקט מבחינת המשתמשים הוא נגישות לפריטים בארכיון של יד ושם באמצעות חיפוש רגיל בגוגל ,חיפוש בארכיון באתר של יד ושם ,ואפשרות לצפות בעדוית מוקלטות של ניצולים באתר יוטיוב ששיך לגוגל.

יש לציין שמחר הוא יום השואה הבינלאומי והשקתו היום של הפרויקט, שתחילתו בשיתוף פעולה בין גוגל ויד ושם כבר לפני שלוש שנים, אינה מקרית .

מנוע החיפוש הסמנטי Hakia מאחורי השירות החדש לניתוח מניות SENSENews

מחפשים טיפים בכל הקשור להשקעות במניות – רכישה ומכירה. יתכן שתוכלו בשלב זה להיעזר תמורת תשלום חודשי בשירות החדש SENSENews .

שירות חדש זה שבו מיושמת הטכנולוגיה הסמנטית של מנוע החיפוש Hakia מסנן מידע מחדשות וממדיה חברתית ומעניק ציון לביצועי חברות.

שירות זה פועל על פי עיקרון פשוט – אם מצטברות חדשות טובות על החברה ומחיר המניה עדיין לא הגיב על כך, משמעות העניין שערכה של המניה מוערך בפחות משוויה undervalued , והיא תגיב בסופו של דבר וכדאי לרוכשה. שירות מחוון (אינדיקטור) מניות זה יכול להחליט בכל יום נתון האם המניה היא undervalued או overvalued – מה שיתפרש לרכישה או למכירה.

שלא כשיטות ניתוח מניות אחרות כגון ניתוח טכני שמתבססות על עקומות מחיר, שירות זה מציג עקומה חדשה מסוג אחר . מבחינה טכנית ד"ר ברקן מדען ראשי ב-Hakia  טוען שיש בשירות זה יותר מאשר ניתוח סנטימנט שכן ביצועי חברות אינם יכולים להיות מושתתים על סנטימנט בלבד – הניתוח כרוך באיסוף עובדות, נתונים, אירועים, אינטרפטציות, ספקולציות, גורמים חיצוניים וסנטימנט.

מבחינת מנועי החיפוש שירות זה מרמז על הצעד הבא במנועי חיפוש עסקיים – מנועי חיפוש ללא תיבת חיפוש שעומדים מאחורי מוצרים. כמו כן יש ביישום זה להצביע על העובדה שהטכנולוגיה הסמנטית עדיין מצומצת ליישומים מסויימים ואולי גם על  הקושי ליישמה  באינדקסים גדולים.

לכתבה בנושא

SENSENews

Culturomics – גוגל ספרים ומגמות תרבות לאורך ההיסטוריה

כלי חדש של גוגל – Books Ngram Viewer מאפשר ללמוד על מגמות תרבות לאורך ההיסטוריה. הכלי מבוסס על "גוגל ספרים" ומאפשר חיפוש במסד נתונים של 500 מיליארד מילים מתוך 5.2 מיליון ספרים בתקופה 1500 – 2008 בשש שפות – אנגלית, צרפתית, ספרדית, גרמנית, סינית ורוסית. תוצאות החיפוש – הצגה גרפית של שכיחותם של מונחי החיפוש לאורך השנים . שכיחות זו מאפשר ללמוד מתוך ספרים על מגמות תרבות לאורך ההיסטוריה.

כלי זה הוא פרי פרויקט מחקר של חוקרים באוניברסיטת הארוורד ובעיקר של המתמטיקאי ארז ליברמן איידן, בשיתוף עם גוגל. המחקר התפרסם בגיליון 17 בדצמבר בכתב העת science . טענתו העיקרית של ארז ליברמן איידן הייתה שעל ידי ניתוח הגידול והשינויים לאורך זמן של מלים מודפסות אפשר להבין את האבולוציה של התרבות , לבדוק את השפעתם התרבותית של אישים מסוימים לאורך ההיסטוריה ולחשוף מגמות שנעלמו לעתים מעיניהם של היסטוריונים. ניתוח זה של מידע כונה בשם : culturomics -שילוב של תרבות ומטריקה . יש לציין שמסד הנתונים ניתן להורדה ולחיפוש בכלים שייבנו על ידי המשתמשים .

עמדות החוקרים במדעי הרוח מעורבות ומהולות בהתלהבות ואכזבה. יש הטוענים שכלי זה מהווה שיטת מחקר חדשה כמותית באופייה במדעי הרוח ויש הטוענים שכלי זה יכול להיות שימושי אם לא יצטמצם רק לניתוח שכיחותם של מילים ובכל מקרה לכנותו culturomics זה יהיר מדי….

ל- Books Ngram Viewer
למאמר ב-science על הפרויקט המחקרי
לאתר Culturomics – שם אפשר למצוא קישורים רלוונטיים בנושא
לכתבה בדה –מרקר בנושא

תודה לד"ר אריאל פרנק שהפנה את תשומת ליבי למחקר בנושא

מנוע החיפוש Blekko ופילוח הווב

מנוע החיפוש BLekko אימץ לו את הסיסמה Slash the Web . ואכן המאפיין הייחודי שלו הוא סינון תוצאות החיפוש על ידי שימוש ב-Slashtags Slashtags מאפשרים למשתמש למקד את החיפוש על ידי שימוש בהגבלות מסוימות בהתאם למה שמופיע אחרי ה- / .קיימים במערכת Slashtags מוכנים ומשולבים במערכת כגון: : – flickr/, youtube /, maps/, people / שמאפשרים למשתמש לסנן את תוצאות החיפוש על פי סוג מסוים של אתרים. קיימים גם מאות Slashtags נושאיים. כמו כן המערכת מספקת למשתמש אופציה להגדיר Slashtags משלו, שיאפשרו חיפוש רק באותם אתרים שיוגדרו על ידי המשתמש. למשתמש שיוצר Slashtags יש אפשרות לשמור את ה- Slashtags כפרטיים או לשתפם ואף להתיר את עריכתם על ידי אחרים.

אפשר לשלב בשאילתת החיפוש מספר Slashtags. פירוט נוסף על אופן השימוש במערכת אפשר למצוא במערכת העזרה באתר.

בחירת אתרים נבחרים על ידי המשתמשים והגדרתם כ- Slashtags מאפשרת למטב את תוצאות החיפוש תוך ניצול חוכמת ההמונים, וזהו ייחודו של BLekko. מאפיין זה אמנם קיים במנועי חיפוש מותאמים אישית אבל ייחודו הנוסף הוא באפשרות לשלב סוגים שונים של Slashtags חלקם מובנים במערכת

למנוע החיפוש

חיפוש מידע רפואי באינטרנט – חוקרים מלמדים מנועי חיפוש רפואיים להבין סלנג

משתמשים רבים מחפשים מידע רפואי באינטרנט ואכן קיימים באינטרנט אתרים רבים דוגמת WebMD שמספקים מידע רפואי ל- consumers.

אלא שקיימת בעיית "פער השפה" – הפער בין המונחים הרפואיים ובין מונחים בסלנג שבהם מחפשים המשתמשים. בעיה זו פוגעת ברלוונטיות של תוצאות החיפוש. כדי להתגבר על הבעיה חוקרים ב- Georgia Tech פתחו את DiaTM – Dialect Topic Modeling for Improved Consumer Medical Search – שלומד את שפת המשתמש ובכך משפר את תוצאות החיפוש.

לימוד שפת המשתמש על פי DiaTM מתבצעת על ידי השוואת מסמכים רפואיים רבים שכתובים ברמות שונות של שפה טכנית. על ידי כך המערכת לומדת על הקשר בין מונחי סלנג ומצבים וסימפטומים רפואיים שונים ובכך מצטמצם פער השפה בין שפת המשתמש ובין שפת מאגרי המידע בהם הוא עורך את החיפוש. כך למשל אחרי עיבוד של כמות מספקת של מסמכים המערכת לומדת שמשמעות המונח gunk בהקשרים מסוימים היא discharge. המסמכים שמשמשים את המערכת לצורך השוואה ולימוד לקוחים ממספר מגוון של מקורות מידע כגון: WebMD Yahoo! Answers, PubMed Central, the Centers for Disease Control & Prevention website sources ואחרים.

במחקרים שנערכו לבדיקת DiaTM נמצא שהוא שיפר את הרלוונטיות של התוצאות ב- 25%

טכניקה זו של DiaTM אינה מצטמצמת רק לתחום הרפואי וניתן ליישמה על תחומים אחרים.
נייר העבודה שמתאר את המערכת:
“Dialect Topic Modeling for Improved Consumer Medical Search,”
הוצג ב- 17 בנובמבר במפגש השנתי של American Medical Informatics Association, Washington, D.C

לפרטים נוספים

Extractiv – כלי לחילוץ מידע מטקסט בשירות הווב הסמנטי – סוקר דפי ווב, מזהה קשרים סמנטיים והופך מידע לא מובנה למובנה

הווב מכיל דפים רבים עם מידע מתעדכן ומתחדש – ידיעות חדשותיות, פוסטים בבלוגים וציוצים. לעבד את המידע ידנית היא משימה בלתי אפשרית. מנועי חיפוש מסוגלים לאתר פריטי מידע של מידע אבל מותירים מאחור את התמונה השלמה. Extractiv – שירות לחילוץ מידע מטקסט יכול לסייע במשימה.

Extractiv הוא שירות שהופך באופן אוטומטי טקסט לא מובנה לטקסט סמנטי מובנה. משלב זחלן שסורק דפי ווב על פי בקשה או הגדרת מלות מפתח, ויכולת של ניתוח בשפה טבעית. מזהה זהויות וקשרים ביניהם.

Extractiv מאפשר למשתמש להגדיר מה הוא רוצה לחלץ מהטקסט כך למשל אם מגדירים לו עיר הוא יחלץ את כל הערים , כמו כן הוא מאפשר למשתמש להגדיר באיזה פורמט הוא רוצה לקבל את התוצאות. השירות הוא בתשלום. מדי פעם ג'וב של עד 1000 URL אפשר לקבל חינם לאחר הרשמה חינמית לפורטל.

במהלך תהליך הגדרת המשימה על ידי המשתמש – המשתמש בוחר נושא מתוך רשימת נושאים כגון רפואה, מחשבים, וזהויות שמוצעות למשתמש לבחירה בהתאם לתחום שבחר – כך למשל ברפואה מוצעות זהויות כמו דוקטור, תרופה, מחלה, בתי חולים וכו' , במחשבים – אלגוריתם שפת תכנות ועוד..

המשתמש בוחר קשרים אותם הוא רוצה שהכלי ינתח כמו גיל, מספר טלפון, דת, שפה. אפשר להזין מלות מפתח והיישום מחפש אתרים בהתאם. אפשר לתת רשימת אתרים ממנה יתחיל את הסריקה , אפשר לבקש שיסרוק את כל הקישורים או להתמקד בדומיינים מסוימים , להגדיר את עומק הסריקה, מספר URL שיסרוק, פילטרים , ובאיזה פורמט רוצים לקבל את התוצאות – – JSON, XML, RDF. בעתיד מבטיחים גם . sentiment analysis

שירות כזה יכול להיות יעיל לקבלת מידע על אדם מסוים או חברה מסוימת וגם על נושא מסוים והוא מהווה חזון לעתיד..

לאתר השירות
מידע באתר אודות השירות

JANE – Journal Author Name Estimator – כלי מבוסס Medline לחיפוש כתבי עת , מחברים ומאמרים רלוונטיים

לחוקרים ולכל המחפשים מידע במדעי החיים והרפואה – אם כתבתם לאחרונה מאמר ואינכם יודעים לאיזה כתב עת לשלוח אותו? מחפשים מאמרים רלוונטיים לנושא המאמר כדי לצטט אותם? אתם עורכים של כתבי עת שפיטים ומחפשים מבקרים למאמרים – JANE יוכל לעזור לכם בכך.

JANE – Journal Author Name Estimator – הוא יישום  מבוסס Medline , לא כל כך חדש אבל מעניין, חופשי, ויכול להיות שימושי. על פי מה שכתוב באתר, נכון להיום, הוא כולל את כל כתבי העת מ-Medline אבל בתוצאות החיפוש מציג רק כתבי עת פעילים. כתבי עת שלא נמצא בהם אף פריט מהשנה האחרונה נחשבים כלא פעילים ואינם מוצגים למשתמש. בכוונת מפתחי היישום היה לכלול גם כתבי עת ממספר מו"לים אבל עד כה  לא נענו בחיוב . המשתמש יכול להזין מלות מפתח, תקציר או כותר ו-JANE מחפש את המאמרים, כתבי העת והמחברים הרלוונטיים ביותר לשאילתה ומדרג אותם על פי ציוני התאמה שהוא מחשב.

על האופן בו הוא מחשב את ציוני ההתאמה והרלוונטיות אפשר לקרוא במפורט במאמר שהתפרסם ב- Bioinformatics. 2008 Mar 1;24(5):727-8 וגם מעט בדף השאלות הנפוצות באתר. במאמר הנ"ל אפשר לקרוא גם על הקריטריונים בהם משתמש המנוע להכללת מאמרים באינדקס שלו. Jane משתמש בתהליך החיפוש במנוע החיפוש שזמין בקוד פתוח Lucene

ברשימת המחברים הוא מציג בשדה מיוחד גם את הדואר האלקטרוני של המחבר. על פי מה שנכתב במאמר שהתפרסם ב- Bioinformatics. 2008 Mar 1;24(5):727-8 – ייחודו ביחס לכלים אחרים מבוססי Medline שמחפשים מחברים או כתבי עת כמו Gopubmed ו- Hubmed – הוא מקבל כקלט תקציר וכותר בעוד שהקלט בשניים האחרים הוא שאילתות בוליאניות. בהשוואה לכלי דומה שמקבל כקלט גם תקצירים – eTBLAST – הוא נמצא יעיל יותר.

למנוע החיפוש

kngine – Knowledge Engine – מנוע חיפוש סמנטי

Kngine הוא מנוע חיפוש סמנטי שמשתמש בטכנולוגיות מתקדמות כדי להבין את המשמעות של התכנים , לספק תשובות לשאלות המשתמש ולחפש קשרים בין סוגי מידע שונים שקשורים לשאילתה של המשתמש.

המנוע מבחין בין המשמעויות השונות של מונח מסוים, מספק מידע ישיר במקום שורה של קישורים ועונה על שאילתות בשפה טבעית, מספק למשתמש אפשרות לקבל מידע על אספקטים שונים של מונח החיפוש בהתאם למונח החיפוש, עונה על שאלות היסטוריות וסטטיסטיות, מספק מידע עדכני שקשור למזג אויר, שערי מניות ומטבעות, תוצאות ספורט ועוד..

באתר יש המלצות למשתמש כיצד לחפש כדי להשיג תוצאות אופטימליות כך למשל:
כדי לקבל מידע על תוצאות ספורט יש להוסיף לשאילתה results""
כדי לקבל מידע מה קרה ביום מסוים די לכתוב את התאריך
שאלות יש לכתוב בשפה טבעית
לקבלת מידע על מזג אויר יש להוסיף weather לאחר שם העיר

המלצות נוספות כיצד לחפש אפשר למצוא באתר.

המנוע הוא רק בראשית דרכו ובעתיד מפתחיו מבטיחים שיפורים נוספים. על כך אפשר לקרוא בבלוג של המנוע