Aquaring – פורטל עולם המים ושימוש בטכנולוגיות סמנטיות

 Aquaring הוא פורטל של מקורות מידע באירופה על עולם החי והצומח במים.
המטרה של הפורטל היא לספק נקודת גישה לאוסף ההטרוגני של מקורות דיגיטליים בנושא זה.
האוספים שמשמשים את הפורטל הם של מוזיאונים, אַקְוַרְיוּמִים ומוסדות מחקר באירופה.

המידע באוסף דינמי באופיו בשל תוצאות של המחקר המדעי. כך לדוגמה FishBase  שכולל מידע על מיני הדגים שידועים למדע, כלל 25000 מינים באוקטובר 2006 , ושנתיים וחצי לאחר מכן המספר הגיע ל- 32200 .

מה שמייחד את הפורטל הוא השימוש בטכנולוגיות סמנטיות על מנת לשפר את החיפוש. נעשה שימוש ב-7 אונטולוגיות ופותח עורך מידע-על שאפשר שימוש באונטולוגיות ובתיוג חופשי .

השימוש בטכנולוגיות סמנטיות מאפשר לנהל את האוסף ההטרוגני ביתר קלות, מאפשר שיתוף נתונים בין מקורות המידע ואת התאמת המידע בהתאם למאפיינים של המשתמש – שפה, קהל יעד והעדפות.

אפשר לחפש ולדפדף בנושאים רחבים : Biological species, Marine Biology, Vessels, Fishing Areas, Land Areas, Habitats , Education ולצמצם את החיפוש על פי תתי נושאים נוספים, סוג מסמך, קהלי יעד ועוד.. המנשק הויזואלי תורם לחווית המשתמש.

לפורטל
על הפורטל והטכנולוגיות הסמנטיות בהן נעשה שימוש

הווב הסמנטי מהו?

מהו הווב הסמנטי ?   הסבר בהמשכים, ב"מלים פשוטות"  מתפרסם לאחרונה בטכנורטי .הווב  הסמנטי הוא צעד לקראת ווב  3.0 שמטרתו הפיכת התכנים בווב לידידותיים למכונות ..

הווב הסמנטי מתבסס על שפות שמתמקדות בתיוג התכנים  על פי משמעותם.

ווב  סמנטי יותר יאפשר למנועי חיפוש לאחזר תוצאות רלוונטיות יותר מכיוון שהתכנים יהיו מסומנים בצורה כזו שמכונות יוכלו להבין ביתר קלות את משמעות הדברים ולא רק להציג את המידע אלא גם לעשות בו שימוש.

2 דרכים להשגת מטרה זו היא באמצעות נתונים מובנים  ונתונים מקושרים.

לפוסט  זה יש המשך  בשבועות הבאים וכדאי לעקוב..

הבהרות נוספות בנושא הווב הסמנטי עקרונותיו ויישומים שעושים שימוש ב- RDF – אבן הבניין של הווב הסמנטי,  אפשר לשמוע בהרצאה המוקלטת של איל סלע מפעיל משרד ה-W3C הישראלי,אותה נשא ביום ד' ב-23 ביוני 2010  באוניברסיטת בר אילן ושהתפרסמה  באתר משרד ה-W3C הישראלי.

לפוסט

להרצאה

למצגת ההרצאה

הערה: המידע על ההרצאה לקוח מתוך ידיעון יולי – ספטמבר 2010 של W3C הישראלי

מכנס IFLA האחרון – נתונים מקושרים וספריות, אוריינות מידע ועוד..

כנס IFLA ה- 76 התקיים השנה ב- 10-15 לאוגוסט בגוטנברג שבשבדיה . הוא עמד בסימן הגישה החופשית למידע ולכל האוכלוסייה והוצגו בו נושאים ספרניים מגוונים: רכש ופיתוח אוספים, קטלוגים, הספקת מסמכים, סוגים שונים של ספריות, ספריות ואוכלוסיות שונות, ניהול ושיווק, אוריינות מידע , ספרים נדירים, שימור, מולטימדיה, טכנולוגיות מידע ועוד..

אחת ההרצאות המעניינות הייתה בנושא נתונים מקושרים וספריות.

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הוא יכול לאפשר לקשור בין נתונים קשורים. מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים.

היום עדיין ספריות מבודדות במונחים של חילופי נתונים מכיוון שהנתונים בעיקרם נאספים על ידי ספרנים למען ספרנים, והתהליך של חילופי נתונים ושיתופן עם מוסדות לא ספרניים הוא עדיין בחתוליו.

שיתוף פעולה קיים בעיקרו בין ספריות, והנתונים הספרניים הם עדיין אינם חלק אינטגרלי מהווב. הסיבה העיקרית לכך היא דרגה נמוכה של קישוריות בין מאגרי הספרייה ומאגרים מתחומים אחרים, אבל גם בשל תהליך איסוף המידע והפורמטים של המידע.

הווב הסמנטי ובמיוחד יוזמת הנתונים הפתוחים והמקושרים מעודדים מוסדות לפרסם, לשתף ולכונן קישורים עם מקורות מידע אחרים. זה רלוונטי למוסדות מסחריים ולמוסדות שלא למטרות רווח. מבחינת הספריות – להיות חלק מרשת הנתונים המקושרים או הענן הסמנטי משמעותו גם שספריות יוכלו לענות יותר טוב על ציפיות המשתמשים כמו מידע נגיש בפורמט שמובן גם לא למומחים בספרנות .

פעילות במסגרת מאגר המידע ההולך וגדל של הענן תוכל להוריד מהנטל הקיים היום על הספרנים בתחזוקת מאגרי המידע שלהם, וגם לסלול דרך לשירותים חדשים שמתבססים על יותר מנתונים של מוסד בודד.

המאגרים הספרניים הם איכותיים ומקצועיים ולפיכך יש להם את הפוטנציאל להפוך עמוד התווך לאמינות בווב הסמנטי שהולך וגדל.

ספריות החלו להבין את הפוטנציאל שטמון בווב הסמנטי, ומספר מוסדות מתכוננים לפרסם את הנתונים שלהם כנתונים מקושרים. בפועל זהו תהליך מאתגר. בנוסף למכשולים הארגוניים , ההיבט הטכני של פרסום נתונים בווב הסמנטי ושימוש בנתונים מהווב הסמנטי יכולים להערים בעיות לא מבוטלות למוסדות מסורתיים כמו ספריות, במיוחד אלו עם תקציבי IT מצומצמים יותר. מאידך, התנאים להגשמתו של חזון זה מבטיחים, שכן מוסדות אלה משתמשים בסטנדרטים משותפים כמו MARC21 או RAKWB ,  למרות שהם צריכים עדיין להתאים עצמם לתהליך חילופי הנתונים הכללי בווב .

נייר עבודה מעניין שהוצג בכנס IFLA האחרון שהתקיים באוגוסט 2010 עוסק בנתונים המקושרים מפרספקטיבה של ספריות ומוסדות תרבות אחרים. כמו כן מתאר את ניסיונה של הספרייה הלאומית בגרמיה לכונן שירות כזה. פרסום המאגר המקומי בצורת נתונים מקושרים הוא צעד עיקרי לקראת החזון. אך אתגרים לא מעטים ניצבים בדרך:אתגרים טכניים, קונספטואליים שקשורים למידול הנתונים ובחירה באונטולוגיות מתאימות ולהגדרת ה- URIs, ואתגרים משפטיים . המאמר מתאר את האתגרים בפניהם עמדה הספרייה הלאומית בגרמניה בבואה להקים שירות של נתונים מקושרים. אתגרים אלה כללו – המרת הנתונים ל-RDF והעשרתם בהפניות למקורות חיצוניים כגון וויקיפדיה ו-דיביפדיה, בחירת הנתונים ובחירת אונטולוגיות מתאימות למודל הנתונים.

במאמר יש גם תיאור של הישגים ומטרות בטווח הקצר והרחוק. .
בכינון שירות מסוג זה הספרייה צעדה צעד אחד לקראת החזון התרבותי הגלובלי, אבל המטרה הרחוקה תושג כאשר גישה זו של פרסום וחילופי נתונים תזכה לתמיכה רחבה.

נושא אחר שנדון בכנס הוא אוריינות מידע .
קישורים למספר מצגות מהרצאות בנושא זה זמינים כעת

לאתר הכנס
לנייר עבודה – ספריות ונתונים מקושרים
למצגת בנושא ספריות ונתונים מקושרים
למצגות בנושא אוריינות מידע

ספריות והנתונים המקושרים

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הווב יכול לאפשר לקשור בין נתונים קשורים. וזוהי מטרתו של הווב הסמנטי אשר מורכב למעשה מנתונים מקושרים . מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי ועוד .. 

מה הם העקרונות, ההיבט הפרקטי? הפוטנציאל של הנתונים המקושרים? ותפקיד הספריות בתחום זה?

היום מספר ארגונים בווב כגון: data.gov.uk וה- bbc אימצו את הנתונים המקושרים. גם לספריות יש יוזמות בתחום.

מידע על יזמות אלו ונושאים כלליים בנושא אפשר למצוא בהרצאות שהתקיימו ביום הפתוח שארגנה TALIS ב- British Library ביולי 2010.

כל הרצאות הוידיאו זמינות עתה לצפייה חופשית

קטלוג הספרייה כחלק מהווב הסמנטי

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הווב יכול לאפשר לקשור בין נתונים קשורים. וזוהי מטרתו של הווב הסמנטי אשר מורכב למעשה מנתונים מקושרים . מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי ועוד .. 

קטלוג הספרייה כולל כמות גדולה של מידע איכותי מובנה. למרות זאת מידע זה אינו נגיש ליישומים סמנטיים. נייר עבודה מכנס שעסק בנושא דבלין קור ויישומי מידע-על – 2008 , מתאר כלים וטכניקות בהם השתמשו בקטלוג המאוחד בשוודיה – LIBRIS כדי להפוך את הקטלוג לחלק מהווב הסמנטי והנתונים המקושרים (linked data ) . ובכך לחשוף את המידע שבו.

LIBRIS מאחד 175 ספריות וכולל 6 מיליון רשומות.
המטרות ביצירת מנשק וובי חדש ל-LIBRIS הייתה:
• לאפשר באופן שקוף את זמינות המידע , שמוצג היום למשתמש, גם למכונות/לרובוטים של הווב.
• לאפשר הכנסתו לקטלוג של מידע לא אִינְהֶרֶנְטִי לרשומה עצמה כמו הערות משתמש וקישור לרשומות אחרות
• לטפל בחוסר העקביות בקטלוג שהיה תוצאה של שינויים בכללי הקטלוג במהלך השנים.

נייר העבודה כולל סקירה על ההיבט הטכני של המנשק החדש של הקטלוג ומתמקד יותר בקישורים אל ובין מקורות המידע והמכניזם שאפשרו את נגישות הנתונים יותר מאשר בתיאור מלא של מקורות המידע .

במסגרת פיתוח מנשק חדש שיהיה חלק מהווב הסמנטי פותחו מספר מרכיבים שמטרתם הייתה להפוך את מערכת ניהול הספרייה לדוברת RDF . נגישות הקטלוג למערכות מחוץ לקהילת הספרייה מתאפשר בשל שימוש בסטנדרטים מקובלים לתיאור פריטי המידע – Dublin core לתיאור המידע הביבליוגרפי, FOAF לתיאור אנשים וארגונים ו- SKOS לשפות מבוקרות. הכנסת קישורים בין רשומות עם אותו מפתח וקישורים למקורות חיצוניים כגון: Wikipedia ו- DBpedia מאפשרים למשתמש לאתר מידע נוסף על כל אחד מפריטי המידע.

פרטים נוספים בנייר העבודה עצמו
ה-proceeding של הכנס : international conference on Dublin Core and Metadata Applications

Metaweb, Freebase וגוגל

ב- 16 ביולי 2010 גוגל הצהירה שהיא רכשה את חברת metaweb כדי לשפר את תוצאות החיפוש שלה על ידי שימוש במאגר freebase , כדברי Jack Menzel מנהל מוצר בגוגל :
"Working together we want to improve search and make the web richer and more meaningful for everyone,"

ואכן נראה שהחברה ובעיקר מאגר המידע שלה יוכל לתרום לכל מה שקשור בהיבט הסמנטי של החיפוש.

חברת metaweb היא שעומדת מאחורי המאגר החופשי freebase . freebase שידוע כ- "an open database of the world’s information" הוא מאגר מידע חופשי קולקטיבי מובנה שכולל נכון להיום קרוב ל- 12 מיליון נושאים או זהויות עם מזהה ייחודי לכל זהות – מה שמאפשר להבחין בין זהויות שונות עם שם דומה. זהויות יכולות להיות אדם, מקום או אובייקט. לכל אחת מהזהויות יש מידע-על מובנה. אפשר למשל למצוא בחיפוש באתר מהו גודלה של יבשת מסוימת, מהו תאריך הפקה של סרט מסוים ומהו תאריך הלידה של אדם מסוים.

קטלוג המידע במאגר יוצר גם קשרים בין הנתונים במאגר שכן רוב הזהויות במאגר קשורות עם אחד או יותר סוגים כגון אנשים, מקומות, סרטים וכו' . ואחזור המידע מהמאגר הוא בהתאם.

רכישה זו היא מאמץ נוסף של גוגל לאחר Google Squared בכיוון שיפור החיפוש הסמנטי שלה וחילוץ מידע מובנה מהווב.

להצהרה של גוגל בנושא
מידע על metaweb

ויקיפדיה והווב הסמנטי

ויקיפדיה, שנוצרה על ידי הרבה אנשים, היא למעשה התגלמותו של ווב 2.0 שמושתת על חוכמת ההמונים. אבל עתה Wikimedia Foundation הארגון שלא למטרות רווח שעומד מאחורי הויקיפדיה חושב כיצד להפוך את הויקיפדיה לרכיב מרכזי בווב הסמנטי – ווב 3.0.

משמעות הדבר היא  שמחשבים יוכלו להבין את המשמעות של הערכים, יוכלו למשל לזהות שמידע מסוים בטבלה מסוימת הוא תאריך, ונוכל לקבל תשובות, שהיום כדי לקבלן המשתמש צריך לקרוא את הערך הרלוונטי המסוים.

בכנס 2010 Semantic Technology , שהתקיים ב- 21-25 ביוני 2010 בסן פרנסיסקו, בכירים ב- Wikimedia דיברו על צעדים בכיוון זה שננקטים על ידי Wikimedia. הם גם קראו לקהילת הווב הסמנטי לסייע בהפיכת התכנים הנמצאים בויקיפדיה לנגישים ומובנים על ידי מחשבים.

דוגמאות בכיוון זה כבר קיימים כגון: DBPedia, WikiPics והמאגר Freebase שמשמש את מנוע החיפוש PowerSet שנרכש על ידי מיקרוסופט . היכולת לעשות שימוש חוזר בתכנים של הויקיפדיה כמו יצירה אוטומטית של טבלאות ומפות הוא דבר גדול.

על האתגרים שעומדים בדרך לכך והמאמצים בכיוון אפשר לקרוא בכתבה המלאה בנושא זה : Wikipedia to Add Meaning to Its Pages

OpenCalais והווב הסמנטי

OpenCalais הוא שירות חינמי שמאפשר לתייג אוטומטית דפי ווב ומסמכים שונים. באמצעות שירות זה אפשר לעבד חינם עד 50000 מסמכים ( פוסטים של בלוגים, חדשות, דפי ווב) ליום ללא תשלום. למו"לים ואחרים שנזקקים לעיבוד של מספר גדול יותר של מסמכים קיימת אופציה בתשלום –OpenCalais Professional השירות תומך היום בשפות אנגלית וצרפתית עם תכניות לתמיכה בשפות נוספות בעתיד..

כלי זה הוא יוזמה של Thomson Reuters ששם לו למטרה לתמוך באינטראופרביליות של תכנים בעולם הדיגיטלי באופן שיתאים וישרת את הווב הסמנטי. הכלי יכול לשמש חברות סטרט-אפ , מו"לים, ומוסדות כמו ספריות ואוניברסיטאות לסלול דרך לעתיד של המדיה הדיגיטלית. הכלי חוסך זמן וכסף שכן הוא מתייג אנשים מקומות, עובדות ואירועים בתכנים השונים, והוא אמצעי יעיל ומהיר ליצירה אוטומטית של מידע-על מהתכנים תוך שימוש בטכנולוגיה של ClearForest שכוללת טכניקות סמנטיות מתקדמות של עיבוד שפה טבעית – NLP.

דוגמה לביצועי השירות אפשר לראות באתר – Calais Viewer מאפשר להזין טקסט כלשהו והתוצאה תיוג אוטומטי של הטקסט ויצירה אוטומטית של מידע-על מהטקסט. הוא תואם את הדפדפנים Firefox ו- Internet Explorer

באתר אפשר לראות דוגמאות ליישומים שונים שנעשו באמצעות הכלי , כך לדוגמה חוקרים ב- University of Karlsruhe אחד מהמוסדות המובילים בתחום המדע והטכנולוגיה בגרמניה בנו באמצעות OpenCalais אונטולוגיה של חדשות בתחום העסקים שמתארת ישויות ואירועים בתחום זה .

לאתר

RankSpeed – כלי לחיפוש ודירוג אתרים ומוצרים תוך שימוש ב"ניתוח סנטימנט " של הבלוגוספירה

ניתוח המידע באתרים של רשתות חברתיות כולל טוויטר נעשה לפעמים באמצעות "ניתוח סנטימנט" – " Sentiment Analysis". שיטה זו מתבססת על הבנת היחס של כותב התוכן לאובייקט מסוים. ניתוח סמנטי כזה, שמכונה לעיתים גם "opinion mining" וגם "emotional polarity computation", מאפשר לנו לדעת מהו יחס הכותבים כלפי אותו אובייקט – מהו אחוז השבחים לעומת התלונות כלפי אותו אובייקט ובכך לקבל רושם כללי על איכותו של האובייקט ומאפייניו – טוב, מצוין , שלילי וכו'

RankSpeed הוא מנוע חיפוש שמסייע לאתר את האתרים והמוצרים הטובים ביותר על ידי ניתוח סנטימנט של הבלוגוספירה / טוויטרספירה.

אסטרטגיית החיפוש כוללת בנוסף למונח/מונחי החיפוש גם מונחים רגשיים סנטימנטליים שהמשתמש בוחר מתוך רשימה מוצעת או מונחים שהוא בוחר להזין כגון: מצוין, קל, שימושי , בעייתי וכו' .

RankSpeed מבצע ניתוח סנטימנט של הבלוגוספירה/טוויטרספירה, מחפש אחרי אזכורים של מונחי החיפוש, מנתח אותם סמנטית כדי להבין את היחס של הכותב כלפי אותו מונח/אובייקט , מדרג את תוצאות החיפוש על פי אזכורים של כל מונח רגשי שהוזן כמילת חיפוש : "מצוין", "שימושי" וכו' ומציג את אחוז המשתמשים שדעתם על המוצר/אתר היא כמונח הרגשי שהוזן בחיפוש "מצוין", "שימושי" וכו' .

מנוע חיפוש זה שמאפשר למשתמש לחוש את המצב ב"שטח", נמצא עדיין בגרסת ביתא ובשלב זה כפי שכתוב באתר המנוע, מאגר המידע של המנוע כולל אתרים ומוצרים פופולריים בלבד. גרסאות עתידיות של RankSpeed ישתמשו במאגר מידע גדול הרבה יותר.

לאתר המנוע
אודות המנוע

Tim Berners-Lee וחזון הנתונים הפתוחים והמקושרים

טים ברנס לי ממציא ה-WWW, מייסדו ומנהלו של קונסורציום הרשת הכלל עולמית W3C, פרש את חזונו ב- 11 בינואר 2010 , בפני סטודנטים ב- MIT בנושא הנתונים הפתוחים והמקושרים.

היום הווב מאפשר לקשור בין מסמכים קשורים. באופן דומה הוא יכול לאפשר לקשור בין נתונים קשורים. מטרת הנתונים המקושרים היא לאפשר שיתוף בין נתונים מובנים בווב באותה קלות שניתן היום לשתף מסמכים. הנתונים המובנים יכולים לכלול מידע בנושאים שונים: מדע, בריאות, חדשות, מידע ממשלתי ועוד ..

הווב הסמנטי מורכב למעשה מנתונים מקושרים….

לא עוד דפדוף בלבד בווב  – נתונים מקושרים ופתוחים יאפשרו בעתיד להריץ תוכניות שבאופן אוטומטי יחפשו וימצאו מידע רלוונטי . נתונים הופכים ליותר ויותר פתוחים במספר קטגוריות כגון מפות ( OpenStreetMap), מידע ממשלתי ומחקר מדעי.

חוקרים במדעי החיים במיוחד, צועדים לקראת סְטַנְדַּרְטִיזַצְיָה של נתונים באופן שאפשר יהיה להשתמש בהם מעבר לגבולות המסורתיים של המחקר.

הגישה הקניינית ביחס לנתונים משתנה. חוקרים מתחילים להכיר בכוחו של השיתוף בהשגת מטרות משותפות.

טים ברנס לי הביע את אכזבתו מאתרים חברתיים שמונעים מהמשתמשים לשתף מידע באופן חוצה רשתות . לאתרים שמקיפים עצמם בחומה הוא חוזה אחד משני התסריטים – להפוך לאתר בעל העוצמה הגדולה ביותר או למות … –

לדווח המלא מ- 11 בינואר 2010
שאלות נפוצות בנושא הנתונים המקושרים

 

 

ResearchGATE השיקה מאגר הפקדה עצמי בגישה הפתוחה

בזמנו כתבתי על הרשת החברתית לקהילה האקדמית ResearchGATEResearchGATE. כיום חברים ברשת כ- 150000 חברים. במחצית ספטמבר 2009 הושק במסגרת פעילות הרשת מאגר הפקדה עצמי שיאפשר למשתמשים גישה חופשית למאגר גדול של מאמרים בטקסט מלא.

במסגרת יוזמה זאת יוכלו המשתמשים להעלות לדפי הפרופיל שלהם את הטקסט המלא של המחקרים שלהם. האינדקס של הפרסומים של הרשת שכולל 35 מיליון פרסומים יותאם אוטומטית למאגר של מדיניות האירכוב העצמי של המו"לים וכתבי העת SHERPA RoMEO , ובאופן זה המחברים יוכלו לדעת אילו גרסאות של המאמרים שלהם הם יכולים להעלות מבלי להפר זכויות יוצרים.

מאחר ו- 9 מבין 10 כתבי עת מאפשרים אירכוב עצמי, פרויקט זה יאפשר לחוקרים גישה מיידית להרבה מאמרים בטקסט מלא.

מאגר הפקדה עצמי זה אינו מהווה הפרה של זכויות יוצרים, שכן כל פרופיל ב- ResearchGate נחשב משפטית כאתר אישי, ורוב המו"לים מאפשרים גישה חופשית למחקרים באתרים אישיים.

מאחר וכל פרופיל מקושר לפלטפורמה הרחבה, המחקרים שיועלו לדפי הפרופיל ברשת יהוו מאגר מחקר חופשי גדול לחברים בה.

להודעה המלאה על היוזמה

ResearchGATE – רשת חברתית לקהילה האקדמית ברוח Web 2.0 ומאפיינים של Web 3.0

הרעיון של רשת חברתית לקהילה האקדמית אינו חדש. בזמנו כתבתי על הרשת החברתית לקהילה האקדמית labmeeting שתוכננה בראש וראשונה כאתר לניהול מסמכים, שמאפשר לאנשי אקדמיה, חוקרים וסטודנטים להעלות קבצים, לארגן אותם, לערוך בהם חיפושים ולשתף אותם עם עמיתים. קיימות רשתות חברתיות מדעיות נוספות דומות כגון: academia.edu  Ologeez, ו –ResearcherID כך שהיישום אינו חדש. ובכל זאת, ברשת ResearchGATE יש הרבה מאפיינים ייחודיים שיכולים לסייע לחוקרים.

האינטרקציה עם עמיתים היא אחת מסודות ההצלחה של כל מחקר מדעי. מבחינה זו ResearchGATE מספקת כלים שעונים על צורכי החוקרים ומייעלים את המחקר באמצעות מגוון מאפיינים אופציונאליים שמאפשרים:
• בניית פרופיל אישי, שכולל את תחומי העניין שלו ומחקריו
• יצירת קשר עם עמיתים ברחבי העולם כולו , תוך שיתוף מחקרים ורעיונות
• הצטרפות לקבוצות דיון קיימות ויצירת קבוצות חדשות בנושאי עניין משותפים
• שיתוף פעולה באמצעות חבילת יישומים שנבנתה במיוחד לחוקרים : Restory – לעריכה משותפת של מסמכים, Remeet לארגון פגישות ו- Revote ליצירת סקרים בכל נושא שמעניין את החוקר.
• איתור מאמרים ושיטות מחקר חדשות באמצעות מנוע חיפוש סמנטי שמבצע חיפוש במאגר מידע משולב שכולל את המסמכים ברשת ומספר מאגרי מידע חשובים: Pubmed, CiteSeer, IEEE Xplore, RePeC, arXiv, NTRS, Pubmed Central. נכון להיום על פי מה שמוצהר באתר מנוע החיפוש מאפשר לחפש במאגר שכולל למעלה מ- 35 מיליון פרסומים ומאפשר ליצור קשר עם למעלה מ- 120000 אנשי מדע מרחבי העולם כולו.
• איתור מאמרים רלוונטיים על סמך תקציר שמוזן למערכת. מנוע חיפוש ייעודי לכך – "Similar Abstract Search Engine" מאפשר לחוקר להזין תקציר ולאחזר מאמרים רלוונטיים לנושא על סמך התקציר שהוזן.
• איתור כתבי עת רלוונטיים לפרסום מחקר על סמך תקציר שמוזן למערכת באמצעות " Journal Finder"
• דרוג המאמרים על ידי המשתמש

ResearchGATE נבנתה על ידי אנשי מדע שמונעים על ידי הקונספט של Science 2 ומוגדרת באתר כפלטפורמה החברתית הראשונה של Web 3.0 שמיועדת לאנשי מדע וחוקרים ברחבי העולם. ה-Web 3.0 בא לידי ביטוי ביכולתה של המערכת לזהות קשרים סמנטיים "" semantic relations, ולהציע למשתמש על סמך הפרופיל שלו עמיתים, קבוצות ומקורות מידע רלוונטיים לו, ובמנוע החיפוש של המערכת שמוגדר במערכת כמנוע חיפוש סמנטי שמושתת על קורלציות סמנטיות.

אל האתר

Web 3.0 – מה זה אומר במילים פשוטות

הבלוג Digital Inspiration, מאת הבלוגר Amit Agarwal  מציג 6 סרטונים, שמסכמים במילים פשוטות את ההבדלים בין שלושה דורות האינטרנט. כל סרטון נוקט בגישה שונה, כשהאחרון (2 חלקים), משתמש בבול דואר כדוגמה לווב הסמנטי.

בבלוג מוצגת טבלה שמסכמת את ההבדלים העיקריים בין ווב 1.0, ווב 2.0 ו-ווב 3.0.
להלן כמה מההבדלים:

ווב 1.0  (1990-2000 ) –  עידן ההוטמייל ובריטניקה, שמאופיין בקריאה סטטית בלבד. 45 מיליון משתמשים ב-1996.
ווב 2.0  (2002 ואילך) – יצירה ושיתוף של תכנים הנוצרים בעיקר על ידי הגולשים עצמם. המהפכה היא בעיקרה סוציולוגית ולא רק טכנולוגית. מצרכן/גולש פסיבי ליצרן מידע. למעלה מבליון משתמשים ב-2006
אנשים תורמים ומשתפים מידע באמצעות בלוגים ובאמצעות כלים כמו : פליקר,יוטיוב, וויקיפדיה דלישס ועוד. הקו שמפריד בין הצרכן לבין יוצר המידע הולך ומיטשטש.
ווב 3.0  או הווב הסמנטי – זהו הדור השלישי של האינטרנט ומהווה הרחבה של הווב הקיים. 
כאן מיוחסת משמעות מוגדרת היטב למידע, לשם הגברת שיתוף הפעולה בין מחשבים ואנשים. זו תשתית חדשה המבוססת על XML והמאפשרת למכשירי ווב להבין אותנו ולא רק לקרוא אותנו, כפי שהיה בדור הראשון של האינטרנט, כאשר הHTML איפשר רק לקרוא ולא להבין.
האינטרנט כולו יוכל להבין את צרכי המשתמש באופן יותר אינטיליגנטי, ויותר אינטואיטיבי. מילת המפתח היא: "פרסונליזציה".

קישור לסרטונים

כנס WWW2009 הבינלאומי – מדריד

כנס הווב הבינלאומי ה-18 נערך השנה במדריד ב- 20-24 באפרילכנס הווב הבינלאומי ה-18 נערך השנה במדריד. הכנס הוא מקום מפגש לחוקרים, מפתחים, מקבלי החלטות , טכנולוגים, אנשי עסקים וגופים שקובעים סטנדרטים לעיצוב הווב. הכנס מאורגן מדי שנה מאז 1994 על ידי International World Wide Web Conferences Steering Committee – IW3C2. ההרצאות בכנס ושאר הפעילויות עסקו השנה בווב המתפתח- תשתיות, אלגוריתמים, ויישומים חדשניים.

המצגות עסקו במגוון נושאים- כריית מידע, הווב הסמנטי, רשתות חברתיות, מנשקים, הווב הסלולרי, אבטחה ופרטיות, מפתחים. את המצגות וקבצי ה- pdf אפשר לראות ולהוריד מאתר הכנס. אפשר לדפדף בהם על פי נושא, מחבר והשתייכות מוסדית. גם לאוניברסיטת תל אביב היה ייצוג בכנס.

לאתר הכנס
למצגות וקבצי ה-pdf

כלים ביבליוגרפיים מבוססי ווב מהדור החדש ל"הפשרת" ספריות דיגיטליות

מאמר מעניין מגיליון אוקטובר 2008 של PLos Computational Biology עוסק בנושא כלים ביבליוגרפיים וספריות דיגיטליות. המאמר מתמקד בתחום ביולוגיה ויישומי מחשב אך הוא רלוונטי לכל תחומי המחקר. ההגדרה של ספריה דיגיטלית על פי מאמר זה היא: מאגר מידע שכולל מאמרים מדעיים וטכניים, פרסומים מכנסים וספרים ברי חיפוש ודפדוף, תוך שימוש בדפדפן אינטרנט. בהגדרה רחבה זו נכללים גם מאגרים ביביליוגרפיים מקוונים.

דוגמאות לספריות דיגיטליות שמשמשים חוקרים בתחום יישומי מחשב בביולוגיה הם:
ACM Digital Library
IEE Xplore
DBLP
Pubmed
Web of Knowledge
Scopus
Citeseer
Google Scholar
arXiv

הבעיה עמה מתמודדים החוקרים בשימוש בספריות דיגיטליות היא לא רק איתור החומר אלא ארגונו בצורה יעילה. כל התהליך של איתור החומר וארגונו מסובך ו"קר". המחבר מכנה את מרבית הספריות הדיגיטליות הנוכחיות כ"קרות". חסרים בהם המימדים האישיים, החברתיים והאינטגרליים. אמנם חוקרים משתמשים לא מעט בתוכנות ביבליוגרפיות מסורתיות לארגון החומר (כגון:BibTeX, EndNote, Reference Manager   RefWorks ), ובכך מתווסף לספריות הדיגיטליות ההיבט האישי, אבל עדיין תוכנות אלו חסרות את האספקט החברתי של יכולת לשתף את החומר עם עמיתים. לעומת זאת הכלים החדשים שמציע הווב לארגון החומר מספקים גם את ההיבט החברתי של האפשרות לשתף את החומר, ובכך הם תורמים לתהליך ה"הפשרה" של הספריות הדיגיטליות ה"קרות". הם מאפשרים למשתמש גם לתייג את החומר ולאחזר את החומר בצורה יעילה. מדובר באתרי סימניות כגון:
CiteUlike
Connotea
גם Hubmed בזכות מאפייניו הייחודיים תורם ל"הפשרה"

אלו הם כלים במסגרת הגל הראשון של כלי Web2.0 , Library2.0 או אפילו Science2.0 . בעתיד קרוב לודאי שיתווספו כלים חדשים. כך לדוגמה המרכז  למחקר ב-British Library בודק אפשרות לפיתוח כלים חדשים בתחום זה בגיבויה של Microsoft – כלי Web3.0.

עתיד הספריות הדיגיטליות והפרסומים המדעיים הכלולים בהם אינו בטוח. מה שבטוח הוא שאנו עדים להתפתחותה של ספרייה דיגיטלית יותר אינטגרטיבית, בעלת מאפיינים של פרסונליזציה, חברותית יותר ידידותית יותר ונגישה יותר. קרוב לוודאי שנראה בעתיד הרבה יישומי ספריות דיגיטליות שינצלו את המאפיינים החברתיים החדשים של פלטפורמות כמו Facebook ו- OpenSocial. הזן החדש של כלים ביבליוגרפיים תומכים ומסיעים לשינוי זה, והכלים החדשים המתפתחים ישלימו ויעצימו את המגמה. הכלים החדשים גם תומכים במגמה החדשה המסתמנת של אינטגרציה והסרת החיץ בין סוגים שונים של מידע וידע.

אך ספריות דיגיטליות "חמות" יותר לא יושגו על ידי כלי תוכנה בלבד. בתהליך זה חייבות גם הספריות הדיגיטליות לנקוט מספר צעדים ……

על כך במאמר המלא

ומשהו בנימה אישית… מהיכרות עם השירותים החופשיים לשמירה, ארגון ושיתוף מאמרים שהוזכרו במאמר כ"מפשירים" כגון: Citeulike ו- Connotea – הם אתרים מצוינים. בשל מאפייני השיתוף שלהם הם מהווים גם מקור לחיפוש מאמרים איכותיים, אך אין בהם, בשלב זה, כדי להחליף את התוכנות הביבליוגרפיות המסורתיות כגון: BibTeX, EndNote, RefWorks, שכן אין הם תומכים ביצירת רשימות ביבליוגרפיות. אך הם "עובדים" בשיתוף פעולה עם תוכנות ביבליוגרפיות מסורתיות ומאפשרים יצוא ויבוא הדדיים של רשומות. לעומת זאת Endnote Web, שירות של Web of Knowledge למנויים, יכול בנוסף לשיתוף הפעולה עם התוכנות המסורתיות גם לעמוד בפני עצמו בכל הקשור לניהול רשומות ביבליוגרפיות. יש בו כמעט את כל המאפיינים של התוכנות המסורתיות לצד המאפיין ה"מפשיר" עליו דובר במאמר- מאפיין ה"שיתוף". . יתכן שזה אחד הצעדים של הספריות הדיגיטליות לקראת ה"הפשרה" ואימוץ Science2.0 .

BioLit – מאגר מידע ביורפואי חדש – דוגמה לניצול טכנולוגיות מתקדמות לטיפול יעיל בספרות Open Access

לחוקרים היום יש מגוון מקורות מידע למחקר – מספר לא מבוטל של מאגרי מידע בנושא מסוים, ספרות ב-open access ומקורות נוספים, וחיפוש מידע מחייב לא אחת חיפוש מפרך במספר מקורות.

BioLIT הוא פרי של פרויקט בתחום הביורפואי אשר מנסה לנצל את היתרונות של ספרות ה-Open Access, טכנולוגיות מתקדמות של עיבוד טקסט ושימוש באונטולוגיות כדי להקל על עבודתם של החוקרים. המאגר כולל את כל המאמרים המחקריים מ- Pubmed Central (הארכיון הדיגיטלי החופשי של כתבי עת ביורפואיים) מתויגים עם מזהים (identifiers) ממאגרי מידע ביולוגים, ומונחים מאונטולוגיות בתחום הביולוגיה. בתוצאות החיפוש המשתמש מקבל את הטקסט המלא של המאמר כאשר המזהים ממאגרי המידע והמונחים מהאונטולוגיות, אשר מופיעים בטקסט, מוארים. לחיצה על המונח המואר מובילה לרשומה במאגר המידע המתאים או למונח באונטולוגיה עם קישורים נוספים קרובים וקשורים. באופן זה נעשה שילוב מוצלח של הספרות ב-open aceess עם מאגרי המידע במטרה להקל על מלאכתו של החוקר.

כל זה התאפשר בזכות תנועת ה-Open Acess אשר מתירה לבצע עיבודים נוספים על הטקסט  ושילובו במקורות אחרים, ובזכות טכנולוגיות וכלים של הווב הסמנטי.
מפתחי הפרוייקט מודים שהם אינם מומחים בשפה טבעית ושיש עדיין מקום לשיפורים טכנולוגיים בתחום כריית טקסט (כמו איתור קשרים בין המזהים של מאגרי המידע והמונחים בטקסט – טכנולוגיה שלא  יושמה בגרסה הנוכחית של המאגר) וקוראים לשיתוף פעולה  בגרסאות הבאות של המאגר.  גם בגרסתו הנוכחית המאגר חשוב בפני עצמו, אבל חשובים עוד יותר הרעיון והטכנולוגיה של שילוב ספרות חופשית ומאגרי מידע כדוגמה לטיפול יעיל בספרות ה-open access.
נקווה שזוהי רק סנונית ראשונה שבעקבותיה יבואו נוספות…

למאגר
למאמר בנושא – Nucleic Acids Research, 2008, Vol. 36, No. suppl_2 W385-W389
לשאלות נפוצות על המאגר

חמשת התקוות של ווב 3.0

יש הרבה דיבורים איזה תחום באינטרנט יהיה דומיננטי בתקופת הווב 3.0. אין כמעט וויכוח שרשתות חברתיות כמו פייסבוק ומייספייס ואתרים לשיתוף קבצים (וידאו ותמונות) שלטו בתקופת הווב 2.0. לגבי ווב 3.0 יש כאלה שטוענים שהעולם הוירטואלי יהיה חזק וכן החיפוש הסמנטי, אגרגציה, פלטפורמות, API וכו’.

לידיעה המלאה שהתפרסמה  בבלוג  "עוגיות – טעימות מעולם האינטרנט"

מנוע החיפוש של הסטארט-אפ Powerset הוא מנוע חיפוש מסוג אחר – האם יתחרה בגוגל?

כתבה מ- TheMarker מ-15.5.2008.

Powerset השיקה השבוע גרסה ניסיונית של מנוע חיפוש חדשני שמשתמש בטכניקות חיפוש מתקדמות, שמאפשרות הבנה סמנטית של דפי ה-Web. מנועי החיפוש המסורתיים, כולל גוגל משתמשים בשיטת החיפוש הקונבנציונלית שמתייחסת אל דפי ה-Web כאסופת מלים. בניגוד למנועי החיפוש המסורתיים מנוע חיפוש זה הוא מנוע חיפוש סמנטי אשר מייצר ייצוג סמנטי של הדף על ידי ניתוח כל משפט המופיע בו, והבנת המשמעות שלו. באופן זה המנוע יכול לתת בתוצאות החיפוש אוסף של עובדות הקשורות לשאילתה, לתמצת את המידע, ולספק תשובות ישירות לשאלות עובדתיות.
האם בזכות שיטת החיפוש יוכל מנוע החיפוש של Powerset להתחרות בגוגל? היתרון העצום של גוגל בנוסף לאלגוריתם המתוחכם שלו הוא האינדקס העצום שלו . על פי דברי מריסה מאייר, סגנית נשיא בגוגל האחראית על מוצרי החיפוש וחוויית משתמש, "עם כמויות מידע כל כך גדולות, בסופו של דבר מתקבלות תוצאות שנראות אינטליגנטיות, למרות שהן נאספו באמצעות כוח-גס ותו לא".
האינדקס של Powerset לעומת זו מוגבל ביותר, וכולל רק כמיליון דפים מוויקיפדיה וממסד הנתונים האינטרנטי Metaweb Technologies' Freebase. עם זאת, מנהל המוצר של Powerset סקוט פרווסט מבטיח שהאינדקס יתחיל לגדול בתוך חודש מרגע ההשקה, ובסופו של דבר יוכל להתחרות מבחינת גודלו מול גוגל, יאהו ואחרים.
בעתיד Powerset תצטרך להוכיח שמנוע החיפוש שלה יכול להתמודד עם אינדקס של מיליארדים רבים של דפי אינטרנט, ולשרת מיליוני משתמשים במקביל. "אין ספק שיש כאן פוטנציאל, אבל ליישם את מה ש-Powerset עשתה על הרשת כולה הוא אתגר עצום שיצריך זמן רב ומשאבים עצומים",אומר האנליסט גרג סטרלינג מחברת Sterling .Market Intelligence
אשר לגוגל אין ספק שהיא שוקדת על פיתוח טכנולוגיות סמנטיות ומנוע החיפוש שלה יהיה בעתיד חלק מה- Web הסמנטי . מי יקדים את מי? ימים יגידו…

ובינתיים, כדאי להשתמש במנוע חדש וחדשני זה לחיפוש מאמרים מה-wikipedia

לכתבה המלאה ב-TheMarker
קרדיט לד"ר אריאל פרנק שהפנה את תשומת לבי לכתבה

עתיד ה-Web מפי דמויות מובילות בתחום

 במלאת 15 שנים לפתיחת ה- Web לציבור הרחב בכל העולם (30 באפריל 1993) מציג ה-bbc את תחזיותיהם של דמויות מובילות בתחום ה- Web על עתידו בשנים הבאות. בין המרואיינים גם ממציא ה-Web טים ברנרס לי.

נשמעו תחזיות כמו יישום ה-Web הסמנטי, הובעה תקווה שהמערכות החברתיות החדשות יולידו דרכים חדשות לעבודה משותפת אפקטיבית במישור הגלובלי. דובר על הצורך הדחוף בחקיקה הקשורה להתנהגות ב-Web- חקיקה אחידה ומקובלת על העולם כולו. נשמעו גם תחזיות על טכנולוגיות מתקדמות כמו עדשות שיאפשרו לבעליהם כאשר יביט באדם מסוים לדעת מה נכתב עליו בוויקיפדיה או מהו הדף שלו ב-facebook, או מכשירים מחוברים ביניהם במערכת חיישנים משולבת ב-Web. טכנולוגיות שנשמעות לנו כאלו נלקחו ממדע בדיוני, אבל בהתחשב בעובדה שטכנולוגיות שנשמעו לנו בדיוניות לפי 15 שנה מקובלות מאוד היום, אז אין לדעת..

לכתבה המלאה

קרדיט לד"ר אריאל פרנק שהפנה את תשומת לבי לכתבה

Web 3.0 – ה- Web הסמנטי ותפקיד הספרנים

ה-Web ממשיך לגדול ולהתפתח מבחינה כמותית וטכנולוגית.
מקובל היום לומר שאנו עומדים על סף המהפכה הסמנטית. ה- Web היום הוא בעיקרו Web סינטקטי היצגי – בו מציגים המשתמשים מידע . תוכנו של ה-Web היום מובן לבני אדם אך אינו מובן למחשבים. ה-Web הסמנטי, חזונו של Berners-Lee, לעומת זאת יאפשר למכונות – למחשבים לקרוא ולהבין את משמעותם של התכנים וזאת על ידי הצמדת מידע–על (metadata) למידע ב-Web בשפה שתהיה מובנת למחשבים. מרכיב חשוב ב-Web הסמנטי הם האונטולוגיות. המושג אונטולוגיה שאול מתחום הפילוסופיה ופירושו תיאור היש הקיים. בתחום המידע והמחשבים זהו מודל המתאר את מפת המושגים בתחום מסוים תכונותיהם והקשרים ביניהם. ההגדרה המצוטטת ביותר היא זו של Gruber:
“an explicit specification of conceptualization "
המבנה של האונטולוגיות מתואר על ידי שפות סמנטיות RDF/ RDFS ו- OWL באמצעותן "מבינים" המחשבים את משמעות הטקסט – מושגים, תכונות וקשרים, וכתוצאה מכך מתאפשר אחזור מידע ברמה שקשה להשגה ב-Web הסינטקטי.
הצגת המושגים והעקרונות של ה-Web הסמנטי מוצגים במאמר מעניין "An introduction to the Semantic Web for health sciences librarians" . מאמר זה סוקר בקצרה מספר פרויקטים בתחום הביו-רפואי בהם נעשה שימוש בטכנולוגיות של ה- Web הסמנטי כמו ה- UMLS – Unified Medical Language System מערכת שקרובה ביותר לאונטולוגיה בשל הרשת הסמנטית שהיא כוללת בנוסף למרכיביה האחרים וביניהם המטא-תזאורוס.
ולנו הספרנים מבטיח המחבר כר נרחב של פעילויות בעתיד בתחום זה – שכן תחום זה שעוסק למעשה בשפה מבוקרת ובארגון מידע זקוק למומחיותם ולניסיונם של הספרנים