Wikidata והווב הסמנטי – הדבר הגדול הבא לוויקיפדיה

היום הוויקיפדיה כוללת עובדות וקישורים למאמרים אחרים שלא מובנים בקלות על ידי מחשבים. דוגמאות למידע עובדתי זה הם נתונים על אוכלוסייה של ארץ מסוימת או מקום הולדתה של אישיות מסוימת.

פרויקט חדש  של Wikimedia  בשם Wikidata שם לו למטרה לבנות מאגר חופשי , שיתופי, מובנה של מידע עובדתי זה שיתמוך בוויקיפדיה ויובן על ידי בני אדם ומחשבים כאחת.

משמעות הדבר שב- Wikidata אפשר יהיה להזין את המידע באופן שיהיה ניתן לעיבוד על ידי מחשב על כל המשתמע מכך:  המידע יהיה בשפות שונות , יוצג בפורמטים שונים : רשימות, טבלאות וכו' ואפשר יהיה לקבל תשובות שכיום קשה לקבלן בצורה אוטומטית.

מנשק העריכה והכתיבה של ה-Wikidata יהיה שונה מזה של הוויקיפדיה.המנשק של הוויקיפדיה מאפשר לערוך טקסט, המנשק של ה- Wikidata יהיה בצורת טופס שיאפשר הזנת נתונים באופן שיהיה קל לעיבוד עתידי .

מן הראוי לציין שהפרויקט הוצג בכנס SemTechBiz האחרון בברלין כדבר הגדול הבא של הוויקיפדיה והווב הסמנטי כאחד.

מתי נוכל ליהנות מפרויקט זה – לכך יש להתאזר בסבלנות. על פי התחזיות אמורים להתחיל בפרויקט באפריל 2012 , הוספת הנתונים תתחיל כנראה בחורף 2012 . ההצלחה של הפרויקט תלויה כמובן במסה גדולה של אנשים שמוכנים לתרום לפרויקט . ולכל המעוניינים הדרך הטובה ביותר להתעדכן בהתפתחויות העתידיות היא להירשם לרשימת התפוצה של הפרויקט

לכתבה בנושא

 

 

ספריות והווב הסמנטי – היוזמה הספרדית ו- MARImBA כלי לספרנים

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הווב יכול לאפשר לקשור בין נתונים קשורים. וזוהי מטרתו של הווב הסמנטי אשר מורכב למעשה מנתונים מקושרים . מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי וגם מידע ספרני ..

ספריות מייצרות היום מידע דיגיטלי כדי לתאר מקורות מידע או כדי לסייע באחזורו. מידע זה כולל רשומות ביבליוגרפיות , זהויות, וסכימות של מושגים.

מידע זה נמצא היום במאגרי מידע שיש להם לרוב מנשק וובי אבל הם לא משולבים באופן עמוק עם מקורות אחרים בווב.

המצב היום הוא שהסטנדרטים של הספרייה כגון MARC או הפרוטוקול לאחזור מידע – Z39.50 מתוכננים רק לקהילה הספרנית, ולקהילה הספרנית ולקהילת הווב הסמנטי טרמינולוגיה שונה לאותם מושגים של מידע על . במצב זה, בעתיד בסביבה של נתונים מקושרים, בהם הנתונים מבוטאים על ידי סטנדרטים שונים כגון RDF שמגדיר יחסים בין דברים, קשה יהיה לקשר בין מידע ספרני ומקורות אחרים בווב. .

אבל לאחרונה אנו עדים ליזמות של ספריות בתחום.
אחת היזמות עליה הוצהר לאחרונה היא היוזמה הספרדית

ב- 13 בפברואר 2012 – Ontology Engineering Group הודיעה על השקתה של היוזמה datos.bne.es – שמטרתה העשרת הווב של נתונים בנתונים של הספרייה הלאומית בספרד .

ההמרה של רשומות MARC 21 ל- RDF בוצעה באמצעות MARiMbA – כלי שמאפשר למשתמשים ללא ידע טכני לעבוד על המיפוי MARC21 ל-RDF תוך שימוש במגוון vocabularies במבנה של RDF/OWL .

קרוב ל-2.4 מיליון רשומות ביבליוגרפיות של מונוגרפיות וחומר דיגיטלי הומרו ל- RDF . כמו כן 4 מיליון רשומות זהויות של אנשים, חברות ונושאים הומרו. במסגרת ההמרה נעשו קישורים למאגרים נוספים כגון: DBPedia או VIAF .

עם השקתה של יוזמה זו ספרד הצטרפה ליוזמות של ספריות אחרות בכיוון זה כגון אלו של אנגליה וגרמניה.

 

 

ספריות והווב הסמנטי – W3C Library Linked Data Incubator Group Final Report

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הווב יכול לאפשר לקשור בין נתונים קשורים. וזוהי מטרתו של הווב הסמנטי אשר מורכב למעשה מנתונים מקושרים . מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי ועוד

ומה לגבי מידע ספרני?  ספריות מייצרות היום מידע דיגיטלי כדי לתאר מקורות מידע או כדי לסייע באחזורו. מידע זה כולל רשומות ביבליוגרפיות , זהויות, וסכימות של מושגים.
מידע זה נמצא היום במאגרי מידע שיש להם לרוב מנשק וובי אבל הם לא משולבים באופן עמוק עם מקורות אחרים בווב.

המצב היום הוא שהסטנדרטים של הספרייה כגון MARC או הפרוטוקול לאחזור מידע – Z39.50 מתוכננים רק לקהילה הספרנית, ולקהילה הספרנית ולקהילת הווב הסמנטי טרמינולוגיה שונה לאותם מושגים של מידע על . במצב זה, בעתיד בסביבה של נתונים מקושרים, בהם הנתונים מבוטאים על ידי סטנדרטים שונים כגון RDF שמגדיר יחסים בין דברים ו- URI להגדרת כתובות אינטרנט, קשה יהיה לקשר בין מידע ספרני ומקורות אחרים בווב. .

המטרה שהציבה לה הקבוצה Library Linked Data Incubator Group שפעלה במסגרת קונסורציום הרשת הכלל עולמית W3C  בתקופה מאי 2010 ועד אוגוסט  2011 ,  היא לעזור להגדיל את האינטראופרביליות של המידע הדיגיטלי שמיוצר בספריות לצורך תיאור מקורות מידע או שעוזר לאחזורן, על ידי קיבוץ אנשים מקהילת הספרייה ומחוצה לה, שמעורבים בפעילות הווב הסמנטי ומתמקדים בנתונים המקושרים, לצורך הגדרת צעדים לקראת שיתוף פעולה בעתיד..

הדוח הסופי של הקבוצה מאוקטובר 2011 בדק כיצד ניתן להשתמש בסטנדרטים של הווב הסמנטי ובעקרונות של הנתונים המקושרים כדי להגדיל את הנראות של המידע שמייצרת ומשמרת הספרייה כגון רשומות ביבליוגרפיות וזהויות ולאפשר שימוש מחודש במידע זה בווב מחוץ לספרייה המקורית .

הדוח ניתח את התועלת בנתונים המקושרים לחוקרים, לסטודנטים ,לארגונים, לספרנים למפתחים ולספקים, כלל דיון בנושאים שקשורים לנתונים של הספרייה המסורתית, יזמות של ספריות בכל הקשור לנתונים מקושרים, היבטים משפטיים שקשורים לזכויות על המידע שמייצרת הספרייה , והמלצות לצעדים הבאים. הדוח כלל גם סיכום של תוצאות סקר על הטכנולוגיות העכשוויות של הנתונים המקושרים, ומקורות שקשורים לנתונים מקושרים וספריות,  שזמינים היום.

ההמלצות בדוח דנו במספר נושאים ובראשם: כיצד להגדיל את האינטראופרביליות של המידע המיוצר בספריות ולהגדיל את השיתוף של הספרייה בתקינה של הווב הסמנטי, וכיצד לפתח תקנים של ספרייה שתואמים את הנתונים המקושרים. – ההמלצות התייחסו למנהלי הספריות, לגופים האחראים על התקנים, למעצבי מערכות , ולספרנים וארכיונאים.

לדוח המלא

תודה לאייל סלע , מנהל פרוייקטים באיגוד האינטרנט הישראלי ומשרד ה- W3C הישראלי על ההפניה לדו"ח זה

התפתחויות בתחום הווב הסמנטי – הכנס ה- 10 הבינלאומי בנושא הווב הסמנטי

הרעיון המרכזי בווב הסמנטי הוא להרחיב את הווב הנוכחי שקריא ומובן על ידי אדם באופן שמכונות מחשבים יוכלו אף הם להבין אותו. מחשבים יוכלו לחפש, לעבד, לשלב ולהציג את התכנים בצורה יותר משמעותית ואינטליגנטית.

תיאור מפורט של מנוע חיפוש סמנטי, הארכיטקטורה ואופן פעילותו אפשר למצוא במאמר :
Searching and browsing Linked Data with SWSE: The Semantic Web Search Engine

אבני היסוד של הווב הסמנטי כגון אונטולוגיות כבר קיימים היום וה- W3C אחראי לתקנים והפצתם.

W3C מקיים זו שנה עשירית מדי שנה כנס בינלאומי בנושא הווב הסמנטי שמטרתו לשתף תוצאות מחקרים עדכניים בתחום ולהציג יישומים חדשים כבסיס לדיון ולשיתוף. השנה הכנס התקיים בבון גרמניה באוקטובר 2011 בתאריכים 23.10 -27.10 . דווח על כל אחד מימי הכנס עם קישורים לפירוט יתר אפשר למצוא באתר semanticweb.com . בכנס התקיימו סדנאות והדרכות והרצאות במגוון נושאים בנושא. הנושאים נתונים מקושרים ואונטולוגיות תפסו מקום מרכזי.

ענן תגיות שמשקף את נושאי ההרצאות בשנת 2011 לעומת הנושאים בכנס הראשון ב- 2001 יכול לשקף ולשפוך מעט אור על ההתפתחויות במשך השנים בנושא. השנה המונח DATA מופיע בגדול, המונח ONTOLOGY שומר על מקומו בשני הכנסים לעומת זאת המונח WEB שהופיע ב- 2001 כמעט נעלם השנה והמונח query שלא הופיע ב- 2001 כן מופיע השנה.

הרצאת מפתח ביום הרביעי בכנס בשם : 10 Years of Semantic Web:
does it work in theory?
יכולה לעזור לנו להבין יותר את ההתפתחויות. המצגת של ההרצאה אף היא זמינה באתר .

במסגרת הכנס הודיעו על הזוכים ב- Semantic Web Challenge 2011 – תחרות בין יישומים שונים בווב הסמנטי . מטרת התחרות היא להדגים לכול את יכולותיו של הווב הסמנטי ומה הוא יכול לתת ולתרום, לתת הזדמנות לחוקרים להציג את עבודתם ולהשוותה לאחרים ולעודד את המחקר הנוכחי למטרות מתקדמות יותר על ידי הצגת המצב הנוכחי.

אחד היישומים שזכה בפרס הוא BOTTARI יישום שמדגים ניתוח של מדיה חברתית מבוססת מיקום באמצעות טכניקות של הווב הסמנטי.

עיון בחומרי הכנס מאפשר לנו להבין יותר את ההתפתחויות בתחום. מידע נוסף שוטף ומחקרי בנושא אפשר למצוא בכתב העת בגישה פתוחה : Journal of web semantic

 

Semantic Web Special Interest Group – SWSIG – ספריות והווב הסמנטי

הטכנולוגיה שמשה מאז ומתמיד אמצעי לספריות לתגבר את השירותים שלהן. עתה לאחר שספריות אמצו טכנולוגיות של ווב 2.0 , הווב הסמנטי פותח הזדמנויות חדשות לספריות בעיקר בכל הקשור למודלים של מידע על.

העניין בטכנולוגיות סמנטיות גדל מאחר שכריית מידע, טקסונומיות וטכנולוגיות דומות מקבלות חשיבות בפיתוח אוספים גדולים, ספריות דיגיטליות וכו'..

אך הזדמנויות אלה ידועות רק לקהילה קטנה של ספרנים , הטכנולוגיות והמודלים של מידע עדיין בשלב ראשוני וחשוב ליצור פלטפורמה שתקבץ אנשי מקצוע שיעודדו אימוץ טכנולוגיות סמנטיות בקרב הספרנים.

לשם כך הוקמה במסגרת IFLA
Semantic Web Special Interest Group -SWSIG .
SWSIG מתעתדת להיות פלטפורמה שבמסגרתה אנשי מקצוע יוכלו להתקבץ ולקבל על עצמם משימות שנדרשות לפיתוח ואימוץ טכנולוגיות סמנטיות בקרב קהילת הספרנים. היא שמה לה למטרה להגביר את התודעה בקרב הקהילה הספרנית בדבר הפוטנציאל שגלום לספריות בטכנולוגיות ווב 3.0 , לספק הדרכות בנושא , לעקוב אחר פרויקטים, סטנדרטים, כלים וטכניקות בתחום בתוך ומחוץ ל- IFLA ולספק מידע עדכני, להקים ולארגן קבוצות משימה ולקיים אירועים במהלך הכנסים של IFLA שיתרמו למימוש מטרות אלו.

מפגש ראשון של  SWSIG התקיים בכנס IFLA 2011 ב- 17 באוגוסט 2011

לידיעה בנושא

News360 2.0 – אגרגטור של חדשות מדור שני – שילוב של טכנולוגיה סמנטית ואתרים חברתיים

News360  2.0 היא אפליקציה תואמת ווב וגם מגוון פלטפורמות ניידות : iPad, iPhone, BlackBerry PlayBook, Windows Phone, Android אשר מציגה למשתמש חדשות רלוונטיות לו על סמך פעילותו באתרים חברתיים. News360 עושה שימוש בטכנולוגיות סמנטיות וכרית מידע. היא מנתחת את  פעילותו של המשתמש באתרים חברתיים כגון: Facebook, Twitter, Google Reader, Evernote במטרה לבחור חדשות רלוונטיות למשתמש מכול מקור שהוא.. ניתוח הפעילות של המשתמש באתרים החברתיים  מתבצע כמובן בהרשאתו של המשתמש.

החידושים העיקריים בגרסה חדשה זו של האפליקציה היא קיומה בגרסה וובית ותמיכתה בפרסונליציה. הפרסונליצזיה ב- News360 משתמשת בסמנטיקה של התכנים עצמם. היא בונה מפה סמנטית מכל פריט תוכן ומשווה בינו ובין גרף תחומי העניין של המשתמש מהיישומים החברתיים : Evernote, Twitter, Facebook , Twitter ו-Google reader במטרה למצוא תכנים שמעניינים את המשתמש.

לכתבה בנושא

I-SEARCH , SemWebVid הווב הסמנטי והחזון לעתיד

I-Search הוא מנוע חיפוש שפותח/מפותח במסגרת פרויקט מחקרי של האיחוד האירופי ואשר שם לו למטרה כפי שכתוב באתר לפתח מנוע חיפוש שמסוגל לקבל כשאילתה סוגים שונים של קובצי מולטימדיה ותכנים שונים – אובייקטים תלת מימדיים, תמונות דו- מימדיות, אודיו, וידאו, וצירופים שלהם ולאחזר תכנים רלוונטיים מהסוגים השונים של התכנים.

כיום כפי שנראה באתר הוא תומך ב-3 סוגי קבצים בו זמנית כשאילתה – – *.OFF אובייקטים תלת מימדיים, – *.JPG – תמונות דו מימדיות, ו- *.WAV – קובצי אודיו . ממעט החיפושים שערכתי, נראה שהוא באמת עדיין רק בשלבי פיתוח.

SemWebVid – Semantic Web Video הוא פרויקט במסגרת I-SEARCH שמטרתו להוסיף אוטומטית מידע על – כותרים, תיאור וכו' לקובצי וידאו תוך שימוש ב-RDF. הוא עושה שימוש גם בשירותי שפה טבעית בקוד פתוח כגון OpenCalais, Zemanta, and Alchemy כדי להעשיר את המידע ולחלץ זהויות. בשלב זה הפרויקט מתמקד ביוטיוב אבל המטרה היא להכליל את הפרויקט לכל פורטל וידאו אחר.

שני הפרויקטים עדיין בשלבי פיתוח, קשה להעריך את הביצועים, אבל הם יכולים אולי ללמד על הצפוי בעתיד בתחום תעשיית מנועי החיפוש , כדאי לעקוב… .

CLAROS – כאשר האמנות פוגשת את הווב הסמנטי

CLAROS שהושק ב- 17 במאי 2011 הוא מאגר אמנות שמאגד בתוכו אוספים רבים בארכיאולוגיה ואמנות ממוזיאונים ואוניברסיטאות. כולל למעלה מ-2 מיליון רשומות ותמונות ומהווה כלי מחקרי חשוב בתחום. . אבל כפי שמעידים עליו הוא הרבה מעבר ל"עוד מאגר רגיל" – CLAROS is far more active and dynamic, datacentre more than database, and an important new research capability

והוא "information about the world, from around the world, for the world.

כל זה התאפשר בזכות הווב הסמנטי וטכנולוגיות מתקדמות שאפשרו אינטראופרביליות בין המאגרים תוך שימוש באונטולוגיה CIDOC CRM, ונגישות למאגרים ואפשרות חיפוש על פי טקסט או תמונה מה שמאפשר את חצית מגבלות השפה. הפרויקט הוא פרי של שיתוף פעולה במישור הבינלאומי ומובילה אותו אוניברסיטת אוקספורד.

למאגר

מידע טכני על המאגר

Learning Resources Framework Initiative – חיפוש חומרי לימוד יהיה קל יותר בעתיד

בפוסט קודם כתבתי על היוזמה המשותפת של שלושת מנועי החיפוש הגדולים בכיוון הווב הסמנטי Schema.org – יוזמה משותפת שתומכת בשפה משותפת לתיוג מידע מובנה בדפי ווב.

על יוזמה דומה Learning Resources Framework – יצירה של מסגרת למידע על ייעודי לחומרי לימוד, הצהירו ב- 7 ביוני 2011 Creative Commons ו- Association of Educational Publishers .

על פי דברי Catherine Casserly, CEO of Creative Commons סטודנטים ואנשי חינוך מחמיצים היום חומרי לימוד והוראה רבים , והיוזמה Learning Resources Framework Initiative באה לפתור זאת ולהקל על איתור חומרי לימוד ברשת, כולל חומרי לימוד שניתנים לשימוש חוזר במסגרת הרישיון הגמיש של Creative Commons. יוזמה זו ליצירת סכימה של מידע על לחומרי לימוד זכתה כבר לתמיכה של ארגונים מסחריים ולא מסחריים מובילים.

אימוץ סכימה זו של מידע על ייעודי לחומרי לימוד יהיה ווֹלוּנְטָרִי מבחינתם של מנועי החיפוש וספקי התכנים, אך בשל התמיכה המשתמעת של ספקי התכנים המסחריים והלא מסחריים יש לצפות שסכימה זו תתקבל בברכה.

פרטים נוספים על היוזמה

 

HealthMash – מנוע חיפוש רפואי סמנטי ואפליקציות ל- iPhone ול- Android

HealthMash הוא מנוע חיפוש רפואי למשתמש שפותח על יד חברת WebLib שמתמחה בטכנולוגית חיפוש ושפה טבעית. על פי מה שנכתב באתר שולבו בפיתוחו טכנולוגיות של הווב הסמנטי כדי לאתר מידע שקשור למחלות, סימפטומים, טיפול, תרופות וגישות של רפואה אלטרנטיבית ממקורות מהימנים בווב. המנוע משלב את התוצאות עם משאפס של תמונות , וידאו, חדשות , בלוגים וציוצים מהווב. המנוע עושה גם שימוש ב-MESH וב- UMLS.

מן הראוי לציין שאפליקציה של  HealthMash נמנית  על האפליקציות שאפשר להוסיף בחיפוש ב- SciVerse של Elsevier,  והיא  פרי של שיתוף פעולה בין Elsevier ו- WebLib.

ב- 8 ביוני 2011 החברה הודיעה על השקת אפליקציות חופשיות של מנוע החיפוש ל- iPhone ול- Android.

האפליקציה ל-iPhone זמינה ב- iPhone appStore ואת האפליקציה ל- Android אפשר להוריד מ- Android Market

Schema .org , מנועי חיפוש והווב הסמנטי

ב- 2 ביוני 2011 שלושת מנועי החיפוש הגדולים Google, Bing, Yahoo הצהירו על Schema.org – יוזמה משותפת שתומכת בשפה משותפת לתיוג מידע מובנה בדפי ווב.

בעזרת Schema.org בעלי אתרים ומפתחים יוכלו ללמוד יותר על נתונים מובנים, יוכלו להטמיע בקלות יחסית מידע סמנטי בתוך הקוד של דפי הווב הקיימים – דפי5 html – מידע שמכונות יכולות להבין ולחלץ אותו באופן חד משמעי. בכך יסיעו למנועי חיפוש להבין טוב יותר את התכנים של דפי הווב שלהם.

המשמעות מבחינתם של מנועי החיפוש והמשתמשים היא תשובות מדויקות יותר למספר רב יותר של שאלות. כך למשל בתוצאת חיפוש של ספר, מנוע החיפוש יוכל להציג גם את מספרי העמודים שלו ואת ה- ISBN שלו, שכן המידע המובנה יסייע למחשבים להבין את המידע ולחלץ את המידע הדרוש מתוך דפי הווב . המשמעות מבחינת אתרי ווב שיאמצו סכימה זו היא הגדלת הנראות שלהם במנועי חיפוש.

המשמעות של Schema.org היא התקדמות לקראת החזון של הווב הסמנטי שבו מידע על יסייע למחשבים להבין את התכנים, אבל בקהילת הווב הסמנטי הדעות לגבי היוזמה בכל זאת חלוקות. זמן רב עבדו על פיתוח שפות כמו RDF שיקדמו את הווב הסמנטי והם רואים ב- Schema.org מגבלות ביחס ל- RDF , אבל מצד שני בשל הפשטות היחסית שלה אחרים סבורים שיהיה יותר קל לשווק אותה ובכך לקדם את חזונו של הווב הסמנטי.

פירוט יתר על היוזמה והשלכותיה

ההצהרה על היוזמה
לאתר Schema.org

BioPortal – מאגר בינלאומי לאונטולוגיות בתחום הביורפואי

BioPortal הוא מאגר בינלאומי לאונטולוגיות בתחום הביורפואי. המאגר נוצר ומתוחזק על ידי NCBO . NCBO – The National Center for Biomedical Ontology נוסד ב-2005 כדי לעזור לאנשי מדע בתחום הביורפואי להשתמש באונטולוגיות לצורך ארגון המידע.

NCBO גם מציע כלים ושירותי ווב שמאפשרים למשתמשים גישה ושימוש באונטולוגיות למגוון יישומים. מרכז זה גם תומך בפיתוח טכנולוגיות סמנטיות בתחום הביורפואי.

BioPortal הוא התרומה הנראית העיקרית של NCBO לקהילה הביורפואית. האתר מספק גישה ליותר מ- 200 אונטולוגיות ושפות מבוקרות בתחום הביורפואי. אפשר לדפדף באתר וגם לחפש אונטולוגיות על פי מונחי חיפוש. האתר מאפשר גם מיפוי בין אונטולוגיות לצורך השוואה.

כמו כן האתר מאפשר חיפוש במגוון מקורות של מידע רפואי תוך שימוש במונחי האונטולוגיות שלו. חיפוש זה אפשרי בזכות האינדקס שיצר NCBO מהתכנים של עשרות מאגרים תוך שימוש במונחי האונטולוגיות שב- BioPotal .תוצאות החיפוש מציגות את המאגרים כשליד כל אחד מהמאגר מספר התוצאות מאותו מאגר, במסך התוצאות מתקבלות גם הצעות לעידון השאילתה.

מעבר להיותו של BioPortal מאגר אונטולוגיות, ואינדקס לעשרות מאגרים  הוא מהווה גם קהילה מקוונת למפתחי אונטולוגיות ולמשתמשים שיכולים להעיר הערות ולדון בתכנים של האונטולוגיות.

למרות שהאונטולוגיות ב- BioPortal מיועדות בעיקר לתחום הביורפואי , התוכנה היא לגמרי גנרית וניתנת לשימוש ליצירת מאגרי אונטולוגיות בתחומי מחקר אחרים. פרטים נוספים על הפורטל אפשר למצוא בגיליון 11 של – Nodalitiies המגזין הייעודי לווב הסמנטי

לפורטל

לפרטים נוספים על הפורטל

מגמות ברשת האינטרנט ב- 2010 ותחזיות לעתיד

עם תחילתה של השנה החדשה מעניין מה היו המגמות ברשת האינטרנט בשנה החולפת ומה הן התחזיות לעתיד. בכתבה מעניינת סוקרת Paula J. Hane מגמות בשנת 2010. על פי סקירה זו אין ספק ששנת 2010 הייתה שנת המחשוב הנייד – השנה של האפליקציות. אבל יחד עם זאת הייתה גם שנת הספר האלקטרוני והקוראים האלקטרוניים.

התחזיות לשנת 2011 מלמדות על המשך ביקוש לאפליקציות של הנייד ואתרי ווב תומכי נייד, מנשקים שתומכים בטכנולוגית מגע, עניין גדל בנתונים מקושרים, דגש על ניידות של ספרים אלקטרוניים וקוראים אלקטרוניים מוזלים, עלייה ביישומים מבוססי מחשוב עננים , והמשך גידול בשימוש בפייסבוק.

נתונים ומגמות דומים ב- 2010 אפשר למצוא בסקירה נוספת ב-ReadWriteWeb שמונה את עשרת הכלים המובילים על פי קטגוריות שונות . גם על פיה הנייד , קוראים אלקטרוניים ופייסבוק מובילים בתחומם.

לאור נתונים אלה ותחזיות אלה ביחס לפייסבוק, נתוני StatCounter Global Stats בכל הקשור לשימוש במדיה חברתית ב-2010 מפתיעים מעט. כאשר מדברים היום על מדיה חברתית מיד חושבים על פייסבוק וטוויטר כאתרים מובילים. אולם על פי נתוני StatCounter Global Stats דווקא StumbleUpon , רשת חברתית שלא כל כך מוכרת אפילו , היא המובילה מבחינת תעבורה ופעילות בארה"ב ב- 2010 – 43% לעומת 38% שלהם זכתה פייסבוק. הנתונים מפתיעים יותר בהתייחס למספר המשתמשים בשתי המערכות –   500 מיליון  משתמשי פייסבוק לעומת 13 מיליון משתמשי StumbleUpon. בעולם כולו התמונה שונה – פייסבוק היא הרשת החברתית  המובילה עם 87% , StumbleUpon תופסת מקום שני עם 21% ו- YouTube את המקום השלישי.

נתונים מפורטים יותר אפשר למצוא בשלושת הכתבות שלהלן :

כתבה של Paula J. Hane ב- Information today

כתבה ב- ReadWriteWeb

נתוני StatCounter Global Stats

מנוע החיפוש הסמנטי Hakia מאחורי השירות החדש לניתוח מניות SENSENews

מחפשים טיפים בכל הקשור להשקעות במניות – רכישה ומכירה. יתכן שתוכלו בשלב זה להיעזר תמורת תשלום חודשי בשירות החדש SENSENews .

שירות חדש זה שבו מיושמת הטכנולוגיה הסמנטית של מנוע החיפוש Hakia מסנן מידע מחדשות וממדיה חברתית ומעניק ציון לביצועי חברות.

שירות זה פועל על פי עיקרון פשוט – אם מצטברות חדשות טובות על החברה ומחיר המניה עדיין לא הגיב על כך, משמעות העניין שערכה של המניה מוערך בפחות משוויה undervalued , והיא תגיב בסופו של דבר וכדאי לרוכשה. שירות מחוון (אינדיקטור) מניות זה יכול להחליט בכל יום נתון האם המניה היא undervalued או overvalued – מה שיתפרש לרכישה או למכירה.

שלא כשיטות ניתוח מניות אחרות כגון ניתוח טכני שמתבססות על עקומות מחיר, שירות זה מציג עקומה חדשה מסוג אחר . מבחינה טכנית ד"ר ברקן מדען ראשי ב-Hakia  טוען שיש בשירות זה יותר מאשר ניתוח סנטימנט שכן ביצועי חברות אינם יכולים להיות מושתתים על סנטימנט בלבד – הניתוח כרוך באיסוף עובדות, נתונים, אירועים, אינטרפטציות, ספקולציות, גורמים חיצוניים וסנטימנט.

מבחינת מנועי החיפוש שירות זה מרמז על הצעד הבא במנועי חיפוש עסקיים – מנועי חיפוש ללא תיבת חיפוש שעומדים מאחורי מוצרים. כמו כן יש ביישום זה להצביע על העובדה שהטכנולוגיה הסמנטית עדיין מצומצת ליישומים מסויימים ואולי גם על  הקושי ליישמה  באינדקסים גדולים.

לכתבה בנושא

SENSENews

כתב עת חופשי חדש בנושא הווב הסמנטי – Semantic Web – Interoperability, Usability, Applicability

גיליון ראשון של כתב עת חופשי חדש בנושא הווב הסמנטי בשם: Semantic Web – Interoperability, Usability, Applicability יצא לאור בדצמבר 2010.

כתב העת הוא כתב עת שפיט ויתפרסם מדי רבעון . יתקבלו בברכה מחקרים ומאמרים שעוסקים בהיבט החברתי והיישומי של הווב הסמנטי. שמו מלמד על מגוון הנושאים שבהם יעסוק: שיטות וטכנולוגיות חדשות, אינטגרציה של מידע ממקורות הטרוגניים, פרדיגמות חדשות של אחזור מידע , מנשק המשתמש, טכנולוגיות לויזואליזציה של מידע ועוד..

הגיליון הראשון של כתב העת כולל הצהרות על חזונו של הווב הסמנטי , היבטים תיאורטיים ויישומיים של אונטולוגיות , אינטראופרביליות של אונטולוגיות, פיתוח תוכנה, ארגון המידע בווב הסמנטי , הווב הסמנטי וההיבט המדעי ועוד..

לתוכן העניינים של הגיליון הראשון .

 

ממציא הווב – טים ברנרס-לי – כיצד להגן על הווב ?

במאמר מעניין שהתפרסם בגיליון דצמבר 2010 של Scientific American מספר טים ברנרס-לי ממציא הווב על העקרונות עליהם מושתת הווב , הסכנות האורבות לווב וכיצד נוכל להגן עליו מפניהם.

הווב הפך להיות כלי בעל עצמה בשל היותו מושתת על עקרונות שוויוניים ובזכות עבודתם המשותפת של אנשים פרטיים, חברות ואוניברסיטאות במסגרת ה- World Wide Web Consortium למען הרחבת יכולותיו של הווב שמושתתים על עקרונות אלו.

הווב היום ניצב בפני מספר סכנות כאשר חלק מדייריו המוצלחים החלו לכרסם בעקרונות עליהם הוא מושתת. אתרי רשתות חברתיות החלו בהצבת חומות ובחסימת מידע מפני שאר חלקיו של הווב, ספקי אינטרנט אלחוטי פועלים למען האטת התעבורה לאתרים שלא עשו עמם עסקים, ממשלים טוטליטריים ודמוקרטיים כאחד עוקבים אחרי הרגליהם המקוונים של אנשים תוך פגיעה בזכויות אדם חשובות.

אחד העקרונות החשובים עליהם מושתת הווב הוא האוניברסליות. קיימת הזכות לכול להעלות חומרים לווב ולא משנה איזה מחשב, תוכנה, שפה, וסוג תקשורת – אלחוטית או חוטית יש ברשותם. הווב חייב להיות נגיש גם לבעלי מוגבלויות.

דֶּצֶנְטְרָלִיזַצְיָה – ביזור – הוא מאפיין חשוב אחר. אין צורך לקבל אישור משום גוף מרכזי להוסיף אתר או קישור. כל מה שצריך לעשות הוא לעשות שימוש ב- 3 פרוטורקלים – html לכתיבת דף ווב, ULI להענקת כתובת לדף , ו- http להעלות אותו לרשת האינטרנט.

ה- ULI הוא המפתח לאוניברסליות …
מספר תופעות שמאיימות על האוניברסליות קשורות ל-ULI . בידי רשתות חברתיות כגון Facebook, LinkedIn, Friendster יש מידע על המשתמשים שלהן, בו הן משתמשות למען ייעול שירותיהם, אבל המידע הזה אינו זמין לגופים אחרים, כל רשת פועלת כגוף נפרד . אתרי הווב פתוחים לכול אבל לא הנתונים. בידוד זה קורה מכיוון שאין לכל פיסת מידע URI …… הקשר בין הנתונים קיים רק בתוך האתר. באופן זה אתרי רשתות חברתיות הפכו לפלטפורמות סגורות.

סכנה נוספת היא שרשת חברתית גדולה או מנוע חיפוש או דפדפן יהפכו למונופול …. מכיוון שזה עלול להגביל את החדשנות…

תופעת חברות הכבלים אשר מוכרות קישוריות לאינטרנט ושוקלות להגביל את משתמשי האינטרנט להורדה של חבילות הבידור שלהן בלבד, אף היא מאיימת על האוניברסליות..

עיקרון האוניברסליות הוא רק אחד העקרונות עליהם מושתת הווב . עקרונות נוספים הם סטנדרטים פתוחים , עקרון ההפרדה בין השכבות – הפרדה בין הווב והאינטרנט ….

על כך ועוד דברים מעניינים אפשר לקרוא במאמר המלא

Extractiv – כלי לחילוץ מידע מטקסט בשירות הווב הסמנטי – סוקר דפי ווב, מזהה קשרים סמנטיים והופך מידע לא מובנה למובנה

הווב מכיל דפים רבים עם מידע מתעדכן ומתחדש – ידיעות חדשותיות, פוסטים בבלוגים וציוצים. לעבד את המידע ידנית היא משימה בלתי אפשרית. מנועי חיפוש מסוגלים לאתר פריטי מידע של מידע אבל מותירים מאחור את התמונה השלמה. Extractiv – שירות לחילוץ מידע מטקסט יכול לסייע במשימה.

Extractiv הוא שירות שהופך באופן אוטומטי טקסט לא מובנה לטקסט סמנטי מובנה. משלב זחלן שסורק דפי ווב על פי בקשה או הגדרת מלות מפתח, ויכולת של ניתוח בשפה טבעית. מזהה זהויות וקשרים ביניהם.

Extractiv מאפשר למשתמש להגדיר מה הוא רוצה לחלץ מהטקסט כך למשל אם מגדירים לו עיר הוא יחלץ את כל הערים , כמו כן הוא מאפשר למשתמש להגדיר באיזה פורמט הוא רוצה לקבל את התוצאות. השירות הוא בתשלום. מדי פעם ג'וב של עד 1000 URL אפשר לקבל חינם לאחר הרשמה חינמית לפורטל.

במהלך תהליך הגדרת המשימה על ידי המשתמש – המשתמש בוחר נושא מתוך רשימת נושאים כגון רפואה, מחשבים, וזהויות שמוצעות למשתמש לבחירה בהתאם לתחום שבחר – כך למשל ברפואה מוצעות זהויות כמו דוקטור, תרופה, מחלה, בתי חולים וכו' , במחשבים – אלגוריתם שפת תכנות ועוד..

המשתמש בוחר קשרים אותם הוא רוצה שהכלי ינתח כמו גיל, מספר טלפון, דת, שפה. אפשר להזין מלות מפתח והיישום מחפש אתרים בהתאם. אפשר לתת רשימת אתרים ממנה יתחיל את הסריקה , אפשר לבקש שיסרוק את כל הקישורים או להתמקד בדומיינים מסוימים , להגדיר את עומק הסריקה, מספר URL שיסרוק, פילטרים , ובאיזה פורמט רוצים לקבל את התוצאות – – JSON, XML, RDF. בעתיד מבטיחים גם . sentiment analysis

שירות כזה יכול להיות יעיל לקבלת מידע על אדם מסוים או חברה מסוימת וגם על נושא מסוים והוא מהווה חזון לעתיד..

לאתר השירות
מידע באתר אודות השירות

kngine – Knowledge Engine – מנוע חיפוש סמנטי

Kngine הוא מנוע חיפוש סמנטי שמשתמש בטכנולוגיות מתקדמות כדי להבין את המשמעות של התכנים , לספק תשובות לשאלות המשתמש ולחפש קשרים בין סוגי מידע שונים שקשורים לשאילתה של המשתמש.

המנוע מבחין בין המשמעויות השונות של מונח מסוים, מספק מידע ישיר במקום שורה של קישורים ועונה על שאילתות בשפה טבעית, מספק למשתמש אפשרות לקבל מידע על אספקטים שונים של מונח החיפוש בהתאם למונח החיפוש, עונה על שאלות היסטוריות וסטטיסטיות, מספק מידע עדכני שקשור למזג אויר, שערי מניות ומטבעות, תוצאות ספורט ועוד..

באתר יש המלצות למשתמש כיצד לחפש כדי להשיג תוצאות אופטימליות כך למשל:
כדי לקבל מידע על תוצאות ספורט יש להוסיף לשאילתה results""
כדי לקבל מידע מה קרה ביום מסוים די לכתוב את התאריך
שאלות יש לכתוב בשפה טבעית
לקבלת מידע על מזג אויר יש להוסיף weather לאחר שם העיר

המלצות נוספות כיצד לחפש אפשר למצוא באתר.

המנוע הוא רק בראשית דרכו ובעתיד מפתחיו מבטיחים שיפורים נוספים. על כך אפשר לקרוא בבלוג של המנוע

 

 

אונטולוגיות והווב הסמנטי

האונטולוגיות הם מרכיב חשוב בווב הסמנטי. מה הן אונטולוגיות וכיצד לבנות אותם?
סדרה של מאמרים/מדריכים אשר עשויים לשפוך אור על ההיבט המתודולוגי והמעשי בכל הקשור לאונטולוגיות אפשר למצוא ב-TechWiki

במסגרת מדריכים אלה יש גם רשימה של כ-200 כלים לבניית אונטולוגיות רובם בקוד פתוח

 

מאפיינים של חיפוש סמנטי על פי Hakia

בבלוג של Hakia שנחשב מנוע חיפוש סמנטי התפרסם פוסט מעניין שמגדיר 10 מאפיינים של חיפוש סמנטי. מאפיינים אלו נבחנו בהשוואה בין מנוע החיפוש HAKIA ובין מנוע החיפוש שמשמש את  pubmed . לצורך  השוואה זו  נעשה  שימוש ב- hakia’s online demo. דמו זה כולל 20 מיליון מסמכים מ-pubmed. בהזנת שאילתה מסוימת מקבלים במקביל תוצאות משני המנועים שמשתמשים במסמכים מאותו מאגר מידע.  אלא שמנוע החיפוש Hakia משתמש בשיטה המיוחדת לו לאחסון וניתוח סמנטי של מסמכים אלו לצורך אחזורם.

על שיטה זו כתבתי בפוסט קודם.שיטה זו שנקראת QDEX – Query Detection and Extraction מחליפה את השיטה המקובלת ליצירת אינדקס. על פי השיטה המקובלת ליצירת אינדקס שמכונה קובץ מהופך –inverted file – האינדקס כולל את המונחים המופיעים בטקסט, ומצביעים אל מונחים אלה מהווים בתהליך אחזור המידע שערי גישה למסמכים. אם נשתמש בשיטת הקובץ המהופך גם להוספת קשרים סמנטיים ייווצר מבנה שיכביד מאוד על הביצועים. בשיטה החדשה של מנוע החיפוש Hakia, לעומת זאת, שערי הגישה לדפי ה-Web אינם מצביעים למלים אלא לשאילתות. המנוע מנתח באמצעות אלגוריתם מתוחכם את כל השאילתות האפשריות בדפי ה- Web והשאילתות מהוות שערי גישה לדפי ה- Web. באופן זה בעת אחזור המידע המנוע עובד על סטים קטנים יחסית של דפי Web ורק עליהם הוא מבצע את הניתוח הסמנטי. בכך נפתרת בעיית המשאבים הרבים שנדרשים לביצוע ניתוח סמנטי על מספר רב של דפים. על פי התיעוד באתר ביצוע הניתוח הסמנטי ודרוג התוצאות מתבצע באמצעות אלגוריתם מתוחכם שעושה שימוש גם באונטולוגיות.

עשרת המאפיינים שמאפיינים חיפוש סמנטי על פי HAKIA ושנבחנו בהשוואה שעליה דובר לעיל הם:
1. Handling morphological variations- טיפול בוַרְיַאצְיות מורפולוגיות – מנוע חיפוש סמנטי אמור לטפל בכל הוריאציות המורפולוגיות של המונח . באופן זה למשל תוצאות החיפוש צריכות להיות זהות אם מקישים כל אחד מהמונחים הבאים: “improve, improves, improving, improved,
2. Handling synonyms with correct senses- טיפול נכון וסמנטי במלים נרדפות תוך הבנת המשמעות הנכונה של המלה הנרדפת
3. Handling generalizations – טיפול בהכללה בצורה נכונה כך למשל השימוש במונח "מחלה" בשאילתה אמור לאחזר את כל המחלות
4. Handling concept matching – הבנת המשמעות הנכונה של מונחים
5. Handling knowledge matching – ממנוע חיפוש סמנטי מצפים שיבין למשל ש- swine flu = H1N1, flu=influenza
6. Handling natural language queries and questions – טיפול נכון בשאילתות בשפה טבעית
7. Ability to point to uninterrupted paragraph and the most relevant sentence – ממנוע חיפוש סמנטי מצפים ליותר מאשר להציג קישורים למסמכים שלמים כפי שעושים מנועי חיפוש מסורתיים אלא גם להציג קטעים רלוונטיים מהמסמך
8. Ability to enter queries freely, no special formats like quotes, or Boolean operators – אפשרות להזנת השאילתה באופן חופשי וללא צורך באופרטורים מיוחדים
9. Ability to operate without relying on statistics, user behavior, and other artificial means – ממנוע חיפוש סמנטי מצפים לאחזר תוצאות רלוונטיות על סמך ניתוח המסמך ולא על סמך אמצעים מלאכותיים שלא תמיד מצויים במסמך
10. Ability to detect its own performance – ממנוע חיפוש סמנטי מצפים שהאלגוריתם שלו לקביעת הרלוונטיות של תוצאות החיפוש לא יסתמך על אמצעים מלאכותיים כגון מספר הקישורים למסמך אלא על סמך מידת ההתאמה של תוצאות החיפוש למשמעות הנכונה של מונח החיפוש. יכולת זאת מאפשרת למפתחים לקבוע "סף משמעות/רלוונטיות" באופן שהמנוע יוכל לשפר אוטומטית את ביצועיו.

פרטים נוספים בפוסט המלא