גידול דרמטי בפרסומי ה"גישה הפתוחה" בשנת 2010

במסגרת אחד מהפרויקטים של IQSS – The Institute for Quantitative Social Science שבאוניברסיטת הרווארד מתחקים באופן קבוע מאז 2005 אחר הגידול במשאבי ה"גישה הפתוחה", והנתונים והניתוח מתפרסמים כל שנה מדי רבעון ( מרץ, יוני, ספטמבר ודצמבר) ב- The Imaginary Journal of Poetic Economics
בסדרה Dramatic Growth of Open Access Series

על פי נתונים מ- 31 בדצמבר 2010 – שנת 2010 היא השנה בה נרשם הגידול הגבוה ביותר במשאבי מידע ב"גישה הפתוחה". כך למשל:

בשנת 2010 נוספו 1401 כתבי עת ל- DOAG שמונה נכון לדצמבר  5936 כתבי עת. ב-
The Electronic Journals Library רשומים למעלה מ- 27000 כתבי עת חופשיים , מתוכם למעלה מ-3500 כתבי עת נוספו השנה.
OpenDOAR מונה 1817 מאגרים מוסדיים, מתוכם 257 נוספו השנה.
האינדקס של Scientific Commons מונה 38 מיליון פריטי מידע , גידול של 6 מיליון מאז השנה שעברה. האינדקס של Base כולל 25.5 מיליון פריטי מידע – 3.5 מיליון מהם נוספו בשנת 2010

נתונים אלה הם בבחינת ברכה  לשנה  טובה חדשה לכל תומכי תנועת ה"גישה הפתוחה".
לפרטים נוספים

כתב עת חופשי חדש בנושא הווב הסמנטי – Semantic Web – Interoperability, Usability, Applicability

גיליון ראשון של כתב עת חופשי חדש בנושא הווב הסמנטי בשם: Semantic Web – Interoperability, Usability, Applicability יצא לאור בדצמבר 2010.

כתב העת הוא כתב עת שפיט ויתפרסם מדי רבעון . יתקבלו בברכה מחקרים ומאמרים שעוסקים בהיבט החברתי והיישומי של הווב הסמנטי. שמו מלמד על מגוון הנושאים שבהם יעסוק: שיטות וטכנולוגיות חדשות, אינטגרציה של מידע ממקורות הטרוגניים, פרדיגמות חדשות של אחזור מידע , מנשק המשתמש, טכנולוגיות לויזואליזציה של מידע ועוד..

הגיליון הראשון של כתב העת כולל הצהרות על חזונו של הווב הסמנטי , היבטים תיאורטיים ויישומיים של אונטולוגיות , אינטראופרביליות של אונטולוגיות, פיתוח תוכנה, ארגון המידע בווב הסמנטי , הווב הסמנטי וההיבט המדעי ועוד..

לתוכן העניינים של הגיליון הראשון .

 

Culturomics – גוגל ספרים ומגמות תרבות לאורך ההיסטוריה

כלי חדש של גוגל – Books Ngram Viewer מאפשר ללמוד על מגמות תרבות לאורך ההיסטוריה. הכלי מבוסס על "גוגל ספרים" ומאפשר חיפוש במסד נתונים של 500 מיליארד מילים מתוך 5.2 מיליון ספרים בתקופה 1500 – 2008 בשש שפות – אנגלית, צרפתית, ספרדית, גרמנית, סינית ורוסית. תוצאות החיפוש – הצגה גרפית של שכיחותם של מונחי החיפוש לאורך השנים . שכיחות זו מאפשר ללמוד מתוך ספרים על מגמות תרבות לאורך ההיסטוריה.

כלי זה הוא פרי פרויקט מחקר של חוקרים באוניברסיטת הארוורד ובעיקר של המתמטיקאי ארז ליברמן איידן, בשיתוף עם גוגל. המחקר התפרסם בגיליון 17 בדצמבר בכתב העת science . טענתו העיקרית של ארז ליברמן איידן הייתה שעל ידי ניתוח הגידול והשינויים לאורך זמן של מלים מודפסות אפשר להבין את האבולוציה של התרבות , לבדוק את השפעתם התרבותית של אישים מסוימים לאורך ההיסטוריה ולחשוף מגמות שנעלמו לעתים מעיניהם של היסטוריונים. ניתוח זה של מידע כונה בשם : culturomics -שילוב של תרבות ומטריקה . יש לציין שמסד הנתונים ניתן להורדה ולחיפוש בכלים שייבנו על ידי המשתמשים .

עמדות החוקרים במדעי הרוח מעורבות ומהולות בהתלהבות ואכזבה. יש הטוענים שכלי זה מהווה שיטת מחקר חדשה כמותית באופייה במדעי הרוח ויש הטוענים שכלי זה יכול להיות שימושי אם לא יצטמצם רק לניתוח שכיחותם של מילים ובכל מקרה לכנותו culturomics זה יהיר מדי….

ל- Books Ngram Viewer
למאמר ב-science על הפרויקט המחקרי
לאתר Culturomics – שם אפשר למצוא קישורים רלוונטיים בנושא
לכתבה בדה –מרקר בנושא

תודה לד"ר אריאל פרנק שהפנה את תשומת ליבי למחקר בנושא

פרויקט הדיגיטציה של האנציקלופדיה לחלוצי היישוב מאת דוד תדהר

ספריות באוניברסיטת טורו בניו-יורק בשיתוף עם משפחתו של דוד תדהר , סיימו לאחרונה פרויקט של סריקת האנציקלופדיה לחלוצי הישוב מאת דוד תדהר (19 כרכים במקור) והעלאתה לאינטרנט.

המידע פתוח לצבור הרחב.

האנציקלופדיה היא מקור ביוגרפי חשוב וכוללת מידע על כ- 6000 אישים . אפשר לדפדף על פי רשימה אלפביתית של האישים ועל פי כרך ואפשר גם לחפש באתר.

תודה לחוה רמברנד
ספרנית המכללה האקדמית עמק יזרעאל ע"ש מקס שטרן על המידע

לאתר

פרסומים במסגרת ה"גישה הפתוחה" – מהי עמדתם של החוקרים?

תנועת ה"גישה הפתוחה" הפכה לפופולרית בשנים האחרונות . מספר כתבי העת ב"גישה פתוחה" הולך וגדל וכנ"ל גם מספר ה"מאגרים המוסדיים" של המוסדות האקדמיים השונים בהם מופקדת התנובה המחקרית של החוקרים במוסדות אלו. נראה שתנועת ה"גישה הפתוחה" זוכה לתמיכת קהילת המחקר.

אבל נשאלת השאלה עד כמה החוקרים משתמשים בחומרים פתוחים אלו ועד כמה הם מפרסמים בכתבי עת פתוחים ומעלים חומרים למאגרים מוסדיים פתוחים. מהי עמדתם ביחס למהימנות החומרים הללו?

מחקר שהתפרסם בגיליון דצמבר 2010 של כתב העת Journal of Electronic Publishing שופך אור על הנושא. המחקר שנערך בתקופה יוני – אוגוסט 2009 שם לו למטרה לבדוק עמדות אלה של החוקרים והתמקד בעיקר בנושא המאגרים המוסדיים. שיטת המחקר הייתה סקר בקרב קבוצת מדגם אקראית שכללה 532 חוקרים בתחומי מדעי החברה והטבע מ- 20 מוסדות אקדמיים באירופה וצפון אמריקה .

מממצאי המחקר עולה שעדיין קיימת הסתייגות מסוימת בקרב החוקרים ביחס לפרסומים בגישה הפתוחה – רוב המשתתפים במחקר השתמשו בפרסומים בגישה פתוחה כקוראים, למרות שלא כולם מעריכים אותם כמהימנים באותה מידה כמו פרסומים מסורתיים. גם אלה שטענו שהם רואים את פרסומי הגישה הפתוחה כמהימנים פחות ממחציתם פרסמו את עבודתם במדיום זה .
רוב המשתתפים במחקר אמרו שהם יקבלו בברכה הליכים קפדניים יותר להכללתם של חומרים במאגרים מוסדיים . הליכים קפדניים אלה יגדילו את אימונם במאגרים מוסדיים ואת נכונותם להעלות חומרים למאגרים אלו. הם הביעו נכונות גם לסייע בהליכים אלו.

לאור ממצאי המחקר מסתבר שלמרות ההתקדמות בנושא פרסומים בגישה הפתוחה , הדרך עדיין ארוכה, במיוחד בכל מה שקשור למאגרים המוסדיים, וכדי לזכות באמון ובתמיכה של הקהילה המדעית המחקרית כולה יש לנקוט במספר צעדים שיבטיחו את איכות המידע המתפרסם

למאמר המלא

ממעבדות גוגל – Body Browser – מודל תלת ממדי של גוף האדם

Body Browser של גוגל הוא מודל תלת ממדי של גוף האדם. המודל שהושק ב- 16 בדצמבר הוא בדמות אישה ומאפשר למשתמש בעזרת הסמן לנווט בין חלקי הגוף השונים, לקלף שכבות ולראות את מבנה השרירים, כלי הדם והעצבים. לחיצה על אופצית labels מקשרת למידע מתוך ספר ביולוגיה על כל איבר בו נמצאים.

אפשר לשתף את מה שרואים על ידי העתקת הקישור של אותו חלק שרואים. בעתיד הקרוב יתווסף מודל בדמות גבר.

לסטודנטים לרפואה מודל זה יכול להוות תחליף לרישומים סטטיים בספרי רפואה או למודלים תלת ממדיים אחרים שעלותם גבוהה.

השימוש במודל שנמצא עדיין בגרסת ביתא מצריך דפדפן שתומך ב- WebGL כמו Google Chrome Beta

איגוד האינטרנט הישראלי – פיקיוויקי והנצחת יופיו של הכרמל

בזמנו כתבתי על פיקיוויקי – מאגר שיתופי לתצלומים בנושאי היסטוריה, גיאוגרפיה וחברה במדינת ישראל ובארץ ישראל. הפריטים במאגר נתרמים ומוזנים למאגר על ידי כל מי שמצויה בידו תמונה רלוונטית שיש בה עניין לציבור.. הזנת התצלומים על ידי הגולשים מתבצעת באמצעות מערכת פשוטה כתובה בעברית. השימוש במאגר חופשי לכל, במסגרת רישיון גמיש של זכויות יוצרים.

יתרונותיו הגדולים של המאגר ביחס לתצלומים וקבצי מדיה רבים אחרים בווב המתעדים את מדינת ישראל וארץ ישראל הם:
א. שימוש במסגרת רישיון גמיש של זכויות יוצרים
ב. החומר מאורגן בצורה שמאפשרת את אחזורו בקלות תוך שימוש בשיטות מיון וקטלוג מתקדמות

איגוד האינטרנט הישראלי שהוא אחד השותפים למיזם פרסם לאחרונה בעלון "עדכון פעילויות איגוד האינטרנט הישראלי" מדצמבר גיליון 116 – קריאה לכל מי שבידו תמונות שיכולות לסייע בהנצחת יופיו של הכרמל , להעלות אותם למאגר פיקיוויקי.

מידע על הכללים להעלאת תמונות למאגר
למאגר התמונות
לקריאת איגוד האינטרנט הישראלי להנצחת הכרמל

מנוע החיפוש Blekko ופילוח הווב

מנוע החיפוש BLekko אימץ לו את הסיסמה Slash the Web . ואכן המאפיין הייחודי שלו הוא סינון תוצאות החיפוש על ידי שימוש ב-Slashtags Slashtags מאפשרים למשתמש למקד את החיפוש על ידי שימוש בהגבלות מסוימות בהתאם למה שמופיע אחרי ה- / .קיימים במערכת Slashtags מוכנים ומשולבים במערכת כגון: : – flickr/, youtube /, maps/, people / שמאפשרים למשתמש לסנן את תוצאות החיפוש על פי סוג מסוים של אתרים. קיימים גם מאות Slashtags נושאיים. כמו כן המערכת מספקת למשתמש אופציה להגדיר Slashtags משלו, שיאפשרו חיפוש רק באותם אתרים שיוגדרו על ידי המשתמש. למשתמש שיוצר Slashtags יש אפשרות לשמור את ה- Slashtags כפרטיים או לשתפם ואף להתיר את עריכתם על ידי אחרים.

אפשר לשלב בשאילתת החיפוש מספר Slashtags. פירוט נוסף על אופן השימוש במערכת אפשר למצוא במערכת העזרה באתר.

בחירת אתרים נבחרים על ידי המשתמשים והגדרתם כ- Slashtags מאפשרת למטב את תוצאות החיפוש תוך ניצול חוכמת ההמונים, וזהו ייחודו של BLekko. מאפיין זה אמנם קיים במנועי חיפוש מותאמים אישית אבל ייחודו הנוסף הוא באפשרות לשלב סוגים שונים של Slashtags חלקם מובנים במערכת

למנוע החיפוש

מאגר התמונות החדש של NCBI ושילובו ב-Pubmed

NCBI השיקה לאחרונה את מאגר התמונות שלה. המאגר כולל נכון לאוקטובר 2010 , כפי שמצוין באתר,  3 מיליון תמונות ואובייקטים גרפיים מתוך המאמרים החופשיים בטקסט מלא של Pubmed Central.

מן הראוי לציין שחיפוש במאגר התמונות מחפש סטטיסטית את מונח החיפוש בכל שדות הרשומה ואינו תומך בחיפוש המשופר של Pubmed . מנשק החיפוש כולל חיפוש בסיסי ומתקדם שמאפשר להגביל את החיפוש על פי שדות. בתוצאות החיפוש לחיצה על citation מציגה את תקציר המאמר, לחיצה על full text מציגה את הטקסט המלא של המאמר.

מתחת לתקציר מוצגות כל התמונות והאובייקטים הגרפיים שמופיעים במאמר .

אפשר לחפש במאגר התמונות דרך המנשק של מאגר המידע PUBMED אם בוחרים ברשימת הגלילה ב- images.

למאגר התמונות

Africa portal – פורטל וספרייה דיגיטלית חופשיים בנושאים שקשורים למדיניות באפריקה

CIGI בשיתוף עם גופים אחרים – Makerere University ו- South African Institute of International Affairs השיקו לאחרונה את Africa portal – פורטל חופשי שכולל מחקרים ומידע בנושאים עכשוויים שקשורים למדיניות באפריקה – פתרון קונפליקטים, אנרגיה, מזון, הגירה, בריאות ושינויי אקלים .

מרכיב מרכזי בפורטל הוא ספרייה דיגיטלית שכוללת נכון להיום כפי שכתוב באתר – אוסף חופשי בטקסט מלא שכולל 2,500 ספרים, כתבי עת ומסמכים דיגיטליים . כמו כן אפשר למצוא בפורטל מדריך מומחים ולוח כנסים ואירועים

לפורטל

הערך העסקי של טכנולוגיות ווב 2.0

מחקר מעניין שהתפרסם בגיליון דצמבר 2010 של Communications of the ACM שם לו למטרה לבדוק את הערך העסקי של יישומי ווב 2.0 – אתרי וויקי, בלוגים, פודקסטים, פולקסונומיות, משאפס, רשתות חברתיות, עולמות וירטואליים, אתר סימניות חברתיים, ו-RSS .
יעדי המחקר היו להבין אלו כלים וטכניקות של ווב 2.0 תורמים לניהול ולפרודוקטיביות, לזהות כלים של ווב 2.0 בהם ניתן להשתמש כדי לשפר את הפרודוקטיביות והניהול, ולמדוד את השפעתם .

שיטות המחקר שנעשה בהם שימוש במחקר זה כללו ראיונות, תצפיות וסקר שנערכו בחברות שונות בעיקר בארה"ב .

נמצא שאתרי וויקי, בלוגים ו- RSS הן הטכנולוגיות בעלות ההשפעה הגדולה ביותר ושטכנולוגיות של ווב 2.0 תורמות לתקשורת ולשיתוף.

רוב החברות מיישמות בלוגים, אתרי וויקי, RSS ופודקסטים , מעט מיישמות רשתות חברתיות ופולקסונומיות ועוד פחות משקיעות באתרי סימניות חברתיים ועולמות וירטואליים.

בעיית הבטיחות נותרה הבעיה העיקרית באימוץ טכנולוגיות ווב 2.0.

פרטים נוספים במאמר המלא

ממציא הווב – טים ברנרס-לי – כיצד להגן על הווב ?

במאמר מעניין שהתפרסם בגיליון דצמבר 2010 של Scientific American מספר טים ברנרס-לי ממציא הווב על העקרונות עליהם מושתת הווב , הסכנות האורבות לווב וכיצד נוכל להגן עליו מפניהם.

הווב הפך להיות כלי בעל עצמה בשל היותו מושתת על עקרונות שוויוניים ובזכות עבודתם המשותפת של אנשים פרטיים, חברות ואוניברסיטאות במסגרת ה- World Wide Web Consortium למען הרחבת יכולותיו של הווב שמושתתים על עקרונות אלו.

הווב היום ניצב בפני מספר סכנות כאשר חלק מדייריו המוצלחים החלו לכרסם בעקרונות עליהם הוא מושתת. אתרי רשתות חברתיות החלו בהצבת חומות ובחסימת מידע מפני שאר חלקיו של הווב, ספקי אינטרנט אלחוטי פועלים למען האטת התעבורה לאתרים שלא עשו עמם עסקים, ממשלים טוטליטריים ודמוקרטיים כאחד עוקבים אחרי הרגליהם המקוונים של אנשים תוך פגיעה בזכויות אדם חשובות.

אחד העקרונות החשובים עליהם מושתת הווב הוא האוניברסליות. קיימת הזכות לכול להעלות חומרים לווב ולא משנה איזה מחשב, תוכנה, שפה, וסוג תקשורת – אלחוטית או חוטית יש ברשותם. הווב חייב להיות נגיש גם לבעלי מוגבלויות.

דֶּצֶנְטְרָלִיזַצְיָה – ביזור – הוא מאפיין חשוב אחר. אין צורך לקבל אישור משום גוף מרכזי להוסיף אתר או קישור. כל מה שצריך לעשות הוא לעשות שימוש ב- 3 פרוטורקלים – html לכתיבת דף ווב, ULI להענקת כתובת לדף , ו- http להעלות אותו לרשת האינטרנט.

ה- ULI הוא המפתח לאוניברסליות …
מספר תופעות שמאיימות על האוניברסליות קשורות ל-ULI . בידי רשתות חברתיות כגון Facebook, LinkedIn, Friendster יש מידע על המשתמשים שלהן, בו הן משתמשות למען ייעול שירותיהם, אבל המידע הזה אינו זמין לגופים אחרים, כל רשת פועלת כגוף נפרד . אתרי הווב פתוחים לכול אבל לא הנתונים. בידוד זה קורה מכיוון שאין לכל פיסת מידע URI …… הקשר בין הנתונים קיים רק בתוך האתר. באופן זה אתרי רשתות חברתיות הפכו לפלטפורמות סגורות.

סכנה נוספת היא שרשת חברתית גדולה או מנוע חיפוש או דפדפן יהפכו למונופול …. מכיוון שזה עלול להגביל את החדשנות…

תופעת חברות הכבלים אשר מוכרות קישוריות לאינטרנט ושוקלות להגביל את משתמשי האינטרנט להורדה של חבילות הבידור שלהן בלבד, אף היא מאיימת על האוניברסליות..

עיקרון האוניברסליות הוא רק אחד העקרונות עליהם מושתת הווב . עקרונות נוספים הם סטנדרטים פתוחים , עקרון ההפרדה בין השכבות – הפרדה בין הווב והאינטרנט ….

על כך ועוד דברים מעניינים אפשר לקרוא במאמר המלא

מחדשות המו"לים וספקי המידע – חיפוש מידע וארגונו – מאפיינים חדשים ב- EndNote Web , ResearcherID וב-ScienceDirect

בזמנו כתבתי על שני כלים של Thompson Reuters:
התוכנה לניהול רשומות ביבליוגרפיות Endnote web
ResearcherID – קהיליית מחקר רב תחומית

לאחרונה כפי שפרסם Thompson Reuters נוצר קשר בין שני כלים אלו ונוספו לשניהם מאפיינים חדשים. ל- Endnote Web נוספו מספר מאפיינים:
1. תמיכה מלאה במהדורה שישית של APA Style
2. יצירה מהירה של ביבליוגרפיות ב- Word 2010
3. תמיכה מלאה בנייד – אפשרות לחפש ולראות רשומות מכל מכשיר נייד

ל- ReasercherID נוספו מספר מאפיינים:
1. קשר ישיר עם Endnote Web מכל אחד מהדפים של ReasercherID באופן שמאפשר מתוך Endnote- Web לארגן לערוך ולנהל את רשימת הפרסומים האישית ב- ReasercherID
2. האפשרות להשוות את רשימת הפרסומים האישית עם Web of Science ולהוסיף באופן אוטומטי פרטים על מספר הציטוטים

הקשר בין הכלים השונים של Thompson Reuters מאפשר היום שימוש בסיסמה אחת ל- ResearcherID ל- EndNote Web ו- Web of Knowledge

פרטים מלאים אפשר למצוא בחדשות Thompson Reuters

sciencedirectעוד מחדשות ספקי המידע – האפשרות לחפש אובייקטים גרפיים – תמונות, מידע מטבלאות וכו' ב- SciVerse ScienceDirect. מאפיין ה- image search ב- SciVerse ScienceDirect מאפשר לחפש מידע ויזואלי – טבלאות קובצי וידאו וגרפים – מתוך מיליוני מאמרים וספרים . אחזור המידע מתבצע היום על סמך מידע טקסטואלי שנלווה לאובייקט הגרפי אבל בעתיד מבטיחים ליעל ולשפר את טכניקת החיפוש.

פרטים מלאים על כך אפשר למצוא בכתבה בנושא

חיפוש מידע רפואי באינטרנט – חוקרים מלמדים מנועי חיפוש רפואיים להבין סלנג

משתמשים רבים מחפשים מידע רפואי באינטרנט ואכן קיימים באינטרנט אתרים רבים דוגמת WebMD שמספקים מידע רפואי ל- consumers.

אלא שקיימת בעיית "פער השפה" – הפער בין המונחים הרפואיים ובין מונחים בסלנג שבהם מחפשים המשתמשים. בעיה זו פוגעת ברלוונטיות של תוצאות החיפוש. כדי להתגבר על הבעיה חוקרים ב- Georgia Tech פתחו את DiaTM – Dialect Topic Modeling for Improved Consumer Medical Search – שלומד את שפת המשתמש ובכך משפר את תוצאות החיפוש.

לימוד שפת המשתמש על פי DiaTM מתבצעת על ידי השוואת מסמכים רפואיים רבים שכתובים ברמות שונות של שפה טכנית. על ידי כך המערכת לומדת על הקשר בין מונחי סלנג ומצבים וסימפטומים רפואיים שונים ובכך מצטמצם פער השפה בין שפת המשתמש ובין שפת מאגרי המידע בהם הוא עורך את החיפוש. כך למשל אחרי עיבוד של כמות מספקת של מסמכים המערכת לומדת שמשמעות המונח gunk בהקשרים מסוימים היא discharge. המסמכים שמשמשים את המערכת לצורך השוואה ולימוד לקוחים ממספר מגוון של מקורות מידע כגון: WebMD Yahoo! Answers, PubMed Central, the Centers for Disease Control & Prevention website sources ואחרים.

במחקרים שנערכו לבדיקת DiaTM נמצא שהוא שיפר את הרלוונטיות של התוצאות ב- 25%

טכניקה זו של DiaTM אינה מצטמצמת רק לתחום הרפואי וניתן ליישמה על תחומים אחרים.
נייר העבודה שמתאר את המערכת:
“Dialect Topic Modeling for Improved Consumer Medical Search,”
הוצג ב- 17 בנובמבר במפגש השנתי של American Medical Informatics Association, Washington, D.C

לפרטים נוספים

Extractiv – כלי לחילוץ מידע מטקסט בשירות הווב הסמנטי – סוקר דפי ווב, מזהה קשרים סמנטיים והופך מידע לא מובנה למובנה

הווב מכיל דפים רבים עם מידע מתעדכן ומתחדש – ידיעות חדשותיות, פוסטים בבלוגים וציוצים. לעבד את המידע ידנית היא משימה בלתי אפשרית. מנועי חיפוש מסוגלים לאתר פריטי מידע של מידע אבל מותירים מאחור את התמונה השלמה. Extractiv – שירות לחילוץ מידע מטקסט יכול לסייע במשימה.

Extractiv הוא שירות שהופך באופן אוטומטי טקסט לא מובנה לטקסט סמנטי מובנה. משלב זחלן שסורק דפי ווב על פי בקשה או הגדרת מלות מפתח, ויכולת של ניתוח בשפה טבעית. מזהה זהויות וקשרים ביניהם.

Extractiv מאפשר למשתמש להגדיר מה הוא רוצה לחלץ מהטקסט כך למשל אם מגדירים לו עיר הוא יחלץ את כל הערים , כמו כן הוא מאפשר למשתמש להגדיר באיזה פורמט הוא רוצה לקבל את התוצאות. השירות הוא בתשלום. מדי פעם ג'וב של עד 1000 URL אפשר לקבל חינם לאחר הרשמה חינמית לפורטל.

במהלך תהליך הגדרת המשימה על ידי המשתמש – המשתמש בוחר נושא מתוך רשימת נושאים כגון רפואה, מחשבים, וזהויות שמוצעות למשתמש לבחירה בהתאם לתחום שבחר – כך למשל ברפואה מוצעות זהויות כמו דוקטור, תרופה, מחלה, בתי חולים וכו' , במחשבים – אלגוריתם שפת תכנות ועוד..

המשתמש בוחר קשרים אותם הוא רוצה שהכלי ינתח כמו גיל, מספר טלפון, דת, שפה. אפשר להזין מלות מפתח והיישום מחפש אתרים בהתאם. אפשר לתת רשימת אתרים ממנה יתחיל את הסריקה , אפשר לבקש שיסרוק את כל הקישורים או להתמקד בדומיינים מסוימים , להגדיר את עומק הסריקה, מספר URL שיסרוק, פילטרים , ובאיזה פורמט רוצים לקבל את התוצאות – – JSON, XML, RDF. בעתיד מבטיחים גם . sentiment analysis

שירות כזה יכול להיות יעיל לקבלת מידע על אדם מסוים או חברה מסוימת וגם על נושא מסוים והוא מהווה חזון לעתיד..

לאתר השירות
מידע באתר אודות השירות

JANE – Journal Author Name Estimator – כלי מבוסס Medline לחיפוש כתבי עת , מחברים ומאמרים רלוונטיים

לחוקרים ולכל המחפשים מידע במדעי החיים והרפואה – אם כתבתם לאחרונה מאמר ואינכם יודעים לאיזה כתב עת לשלוח אותו? מחפשים מאמרים רלוונטיים לנושא המאמר כדי לצטט אותם? אתם עורכים של כתבי עת שפיטים ומחפשים מבקרים למאמרים – JANE יוכל לעזור לכם בכך.

JANE – Journal Author Name Estimator – הוא יישום  מבוסס Medline , לא כל כך חדש אבל מעניין, חופשי, ויכול להיות שימושי. על פי מה שכתוב באתר, נכון להיום, הוא כולל את כל כתבי העת מ-Medline אבל בתוצאות החיפוש מציג רק כתבי עת פעילים. כתבי עת שלא נמצא בהם אף פריט מהשנה האחרונה נחשבים כלא פעילים ואינם מוצגים למשתמש. בכוונת מפתחי היישום היה לכלול גם כתבי עת ממספר מו"לים אבל עד כה  לא נענו בחיוב . המשתמש יכול להזין מלות מפתח, תקציר או כותר ו-JANE מחפש את המאמרים, כתבי העת והמחברים הרלוונטיים ביותר לשאילתה ומדרג אותם על פי ציוני התאמה שהוא מחשב.

על האופן בו הוא מחשב את ציוני ההתאמה והרלוונטיות אפשר לקרוא במפורט במאמר שהתפרסם ב- Bioinformatics. 2008 Mar 1;24(5):727-8 וגם מעט בדף השאלות הנפוצות באתר. במאמר הנ"ל אפשר לקרוא גם על הקריטריונים בהם משתמש המנוע להכללת מאמרים באינדקס שלו. Jane משתמש בתהליך החיפוש במנוע החיפוש שזמין בקוד פתוח Lucene

ברשימת המחברים הוא מציג בשדה מיוחד גם את הדואר האלקטרוני של המחבר. על פי מה שנכתב במאמר שהתפרסם ב- Bioinformatics. 2008 Mar 1;24(5):727-8 – ייחודו ביחס לכלים אחרים מבוססי Medline שמחפשים מחברים או כתבי עת כמו Gopubmed ו- Hubmed – הוא מקבל כקלט תקציר וכותר בעוד שהקלט בשניים האחרים הוא שאילתות בוליאניות. בהשוואה לכלי דומה שמקבל כקלט גם תקצירים – eTBLAST – הוא נמצא יעיל יותר.

למנוע החיפוש

שילוב קוראים אלקטרוניים בקטלוג הספרייה – פרויקט ה- eReaders באוניברסיטת Duke

כנס צ'ארלסטון הוא מפגש שנתי של ספרנים, מנהלי ספריות, מו"לים, יועצים, וספקים שבאים לדון באווירה לא פורמלית יחדיו בנושאים חשובים שמעניינים אותם. השנה היה זה המפגש השנתי ה-30, הוא התקיים ב- 3-6 בנובמבר 2010 ועסק בנושא רכש ספרים וכתבי עת .

אחת ההרצאות המעניינות הייתה הצגת פרויקט ה- eReaders של הספריות באוניברסיטת Duke.
במסגרת פרוייקט זה נרכשו קוראי ספרים אלקטרוניים Kindles- ושולבו בקטלוג להשאלה למשתמשים.

הפרוייקט החל כפרוייקט פיילוט בראשית 2010 עם מספר מצומצם יחסית של מכשירי קינדל וגדל עד כה ל-40 קוראים אלקטרוניים. האוסף נבנה על פי נתוני השאלה של הספרים המודפסים. כל כותר שנמצא מושאל מעל 3 פעמים נוסף לקינדל. כמו כן במסגרת הפרוייקט יצרו רשימת תפוצה ייעודית לקינדל דרכה המליצו המשתמשים על כותרים להוספה לקוראים האלקטרוניים.

לצורך שיווק הפרויקט הקימו אתר ייעודי. כל הכותרים שולבו בקטלוג ודרכו מצאו המשתמשים את הקוראים האלקטרוניים.

פרויקט מעניין שמרמז על העתיד…

פרטים נוספים אפשר למצוא בדווח של מי שנכח בכנס. המצגות עדיין לא עלו לאתר
לאתר הפרויקט

kngine – Knowledge Engine – מנוע חיפוש סמנטי

Kngine הוא מנוע חיפוש סמנטי שמשתמש בטכנולוגיות מתקדמות כדי להבין את המשמעות של התכנים , לספק תשובות לשאלות המשתמש ולחפש קשרים בין סוגי מידע שונים שקשורים לשאילתה של המשתמש.

המנוע מבחין בין המשמעויות השונות של מונח מסוים, מספק מידע ישיר במקום שורה של קישורים ועונה על שאילתות בשפה טבעית, מספק למשתמש אפשרות לקבל מידע על אספקטים שונים של מונח החיפוש בהתאם למונח החיפוש, עונה על שאלות היסטוריות וסטטיסטיות, מספק מידע עדכני שקשור למזג אויר, שערי מניות ומטבעות, תוצאות ספורט ועוד..

באתר יש המלצות למשתמש כיצד לחפש כדי להשיג תוצאות אופטימליות כך למשל:
כדי לקבל מידע על תוצאות ספורט יש להוסיף לשאילתה results""
כדי לקבל מידע מה קרה ביום מסוים די לכתוב את התאריך
שאלות יש לכתוב בשפה טבעית
לקבלת מידע על מזג אויר יש להוסיף weather לאחר שם העיר

המלצות נוספות כיצד לחפש אפשר למצוא באתר.

המנוע הוא רק בראשית דרכו ובעתיד מפתחיו מבטיחים שיפורים נוספים. על כך אפשר לקרוא בבלוג של המנוע

 

 

מחדשות ASK.COM – שירותי ה-RSS של Bloglines יפעלו מחדש , ולא עוד השקעות במנוע החיפוש אלא התמקדות בשירותי שאלות תשובות

בפוסט קודם מ-15 בספטמבר כתבתי על כוונת ask.com לסגור את השירות של קורא ה- RSS – Bloglines החל בראשון לאוקטובר. מסתבר עתה כפי שפורסם ב- 4 בנובמבר בבלוג של ask.com ששירות זה ימשיך להתקיים. בעקבות פניות רבות של משתמשים ומגעים של ASK.COM עם גופי צד שלישי הגיע החברה להסכם עם MerchantCircle על המשך השירות.

MerchantCircle תנהל בעתיד את bloglines מה שיאפשר ל- 2.7 מיליון המשתמשים של bloglines להמשיך וליהנות מהשירות, במקביל כפי שנכתב בידיעה החדשותית שפרסמה החברה , יש בכוונת MerchantCircle לקדם את השירות בקרב חבריה והחל מ- 1 בדצמבר יוכנסו מאפיינים חדשים לשירות שיקנו לו אופי מקומי ומסחרי יותר.

הודעה נוספת של ask.com מ- 9 בנובמבר בבלוג הרשמי של החברה מדברת על כוונת החברה לצמצם את השקעותיה בתעשיית החיפוש ופיתוח אלגוריתמים של חיפוש, לטובת התמקדות בשירותי השאלות והתשובות שלה, זאת על פי דברי נשיא החברה Doug Leeds בשל אי היכולת של החברה לעמוד בתחרות עם גוגל.

על פי נתוני Nielsen MegaView Search מאוגוסט 2010 גוגל תופסת פלח שוק של 65% מתעשיית החיפוש בעוד שחלקה של Ask.com הוא רק 2%. תיבת החיפוש באתר של ASK תמשיך להתקיים אבל התוצאות תהיינה של אחת ממתחרותיה.. Ask לעומת זאת תשקיע משאבים בשירותי השאלות והתשובות שלה.

שירותי השאלות והתשובות של ASK יאפשרו חיפוש בשפה טבעית . התשובות תהיינה מקישורים לאתרי ווב רלוונטיים וגם תשובות אנושיות של חברי קהילת ASK.COM

בכל הקשור לשירותי השאלות והתשובות , ASK תאלץ להתמודד עם חברות סטרטאפ שעוסקות בתחום כגון: Quora, Formspring , ChaCha וגם עם שחקנים חדשים בתחום – Facebook עם מאפיין השאלות והתשובות החדש שלה, וגוגל שהודיעה בראשית השנה על רכישת שירות השאלות והתשובות של Aardvark

אונטולוגיות והווב הסמנטי

האונטולוגיות הם מרכיב חשוב בווב הסמנטי. מה הן אונטולוגיות וכיצד לבנות אותם?
סדרה של מאמרים/מדריכים אשר עשויים לשפוך אור על ההיבט המתודולוגי והמעשי בכל הקשור לאונטולוגיות אפשר למצוא ב-TechWiki

במסגרת מדריכים אלה יש גם רשימה של כ-200 כלים לבניית אונטולוגיות רובם בקוד פתוח