פרויקט הדיגיטציה של האנציקלופדיה לחלוצי היישוב מאת דוד תדהר

ספריות באוניברסיטת טורו בניו-יורק בשיתוף עם משפחתו של דוד תדהר , סיימו לאחרונה פרויקט של סריקת האנציקלופדיה לחלוצי הישוב מאת דוד תדהר (19 כרכים במקור) והעלאתה לאינטרנט.

המידע פתוח לצבור הרחב.

האנציקלופדיה היא מקור ביוגרפי חשוב וכוללת מידע על כ- 6000 אישים . אפשר לדפדף על פי רשימה אלפביתית של האישים ועל פי כרך ואפשר גם לחפש באתר.

תודה לחוה רמברנד
ספרנית המכללה האקדמית עמק יזרעאל ע"ש מקס שטרן על המידע

לאתר

שימור דיגיטלי – המלצות

בשנת 2009 DPC , ULCC ו- PORTICO ערכו ניתוח של תוכנית הדיגיטציה של JISC , במסגרתו נבחנו 16 פרויקטים של JISC בתחום השימור.

תוצאותיו של ניתוח זה כלולות בדו"ח שמשתרע על פני 65 עמודים. הדו"ח כולל בין היתר המלצות ל- JISC – המלצות שיכולות להיות יישומיות לפרויקטים אחרים בתחום השימור

ההמלצות כוללות המלצות למוסדות ולפרויקטים, ולמממנים.
בין ההמלצות למוסדות ולפרויקטים :
• כתיבת מדיניות שימור לכל אחד מהפרויקטים – המדיניות צריכה לכלול מידע אילו תכנים יישמרו, מי אחראי לשימור הקבצים, מידע על מקורות המימון לשימור וכיצד תבחן הצלחת השימור
• הגדרה של האוסף והתהליכים לניהול התוכן – תוך התייחסות לייצור האוסף, תחזוקתו והעתקתו ומידע העל שלו מפלטפורמות שונות
• שימור התכנים בתשתית מתאימה לשימור דיגיטלי – הרבה מוסדות אינם יכולים לתמוך לבדם בשימור לטווח ארוך. מוסדות חייבים לשקול שיתוף פעולה או שימוש בשירותיו של צד שלישי. חייבים להתייחס לאופן בו יעברו התכנים משירות אחד לאחר במשך הזמן
• הגדרת אופן התחזוקה של האוסף לאורך זמן – מוסדות חייבים להכיר בעובדה שכדי לשמר אוספים דיגיטליים יש לדאוג לתחזוקה שוטפת ולמחויבות פיננסית ברורה לתמיכה בתחזוקה זו
• הכרה בעובדה שהסכמה למימון לדיגיטציה כרוכה במחויבות המוסד בטווח רחוק מעבר לתקופת המימון – מימון קצר טווח כרוך במחויבות ארוכת טווח של המוסד לאספקת גישה, ניהול והפקת תועלת מהתכנים

ללא יישום ההמלצות שלעיל השימושיות והגישה לאוסף הדיגיטלי הוא בסכנה.

פרטים נוספים בדו" ח המלא

סקר Ithaka – אנשי סגל על ספריות, מו"לים ואגודות מדעיות

IthakaIthaka S+R הוא גוף שלא למטרות רווח ששם לו למטרה לסייע לקהילה האקדמית לנצל את טכנולוגיות המידע המתפתחות. סקרים שנערכים על ידי Ithaka באופן קבוע מאז שנת 2000 שופכים אור על מאמצים אלו . מן הראוי לציין שהארכיב הדיגיטלי JSTOR והשירות לשימור דיגיטלי Portico הם חלק מ- Ithaka .

סקר מעניין של Ithaka שנערך בשנת 2009 והתפרסם ב-7 באפריל 2010 בדק גישות והתנהגות של אנשי סגל מתחומי המדע השונים, תוך התמקדות בכמה תחומים:
• גישות והתנהגות של אנשי סגל ביחס לספריות ותפקידן כשער גישה למידע
• מעורבותם של אנשי הסגל במאגרים המוסדיים ודעותיהם על תנועת הגישה הפתוחה
• ותפקידן של אגודות מדעיות וחשיבותן לאנשי הסגל.

שאלון הסקר הופץ בספטמבר 2009 בקרב 35184 אנשי סגל במוסדות להשכלה גבוהה בארה"ב – מכללות ואוניברסיטאות. מספר אנשי הסגל שענו על השאלון -3025 כ- 8.6% מכלל הנחקרים.

הדו"ח המלא משתרע על פני 37 עמודים. ממצאיו העיקריים של הדו"ח:
• בשנים האחרונות חל שינוי בכל הקשור לאיתור ושימוש במידע . כתוצאה מכך הספרייה האקדמית איבדה את תפקידה המרכזי בתהליך גילוי הידע עד כדי סכנה של אבדן הרלוונטיות שלה בתחום
• ההסתמכות ההולכת וגדלה של אנשי סגל על החומר האלקטרוני פותח הזדמנויות חדשות לספריות, מודלים עסקיים חדשים למו"לים ואתגרים חדשים לשימור
• למרות מאמצים מתמשכים של מספר שנים מצד מו"לים, ספריות, אנשי סגל ואחרים למען הכנסת רפורמות במערכת התקשורת המדעית – מספר גישות שמרניות מצד אנשי סגל ממשיכות לטרפד שינוי שיטתי.

פרטים מלווים בנתונים מספריים וגרפים על המגמות המסתמנות אפשר למצוא בדו"ח המלא.

 

 

פרויקט Turning the pages online של NLM – ספרים עתיקים בתחום הביו-רפואי חופשיים לדפדוף בווב

ספרים וכתבי יד עתיקים נשמרים בספריות, אבל לא תמיד נגישים למשתמשי הספרייה מהסיבה הפשוטה ששימוש יום-יומי עלול לגרום נזק לפריטים יקרי ערך אלו.

כדי לפתור את הבעיה יזמו את טכנולוגית TTP- Turning the pages שמאפשרת למשתמשים לדפדף בגרסה וירטואלית של הספרים. British Library הייתה החלוצה בתחום ואפשרה למבקרים בספרייה, ולציבור הרחב, תוך שימוש בתוכנה מסוימת, לדפדף וירטואלית בספרים . NLM שיכללה את הטכנולוגיה ופיתחה גרסה וובית של TTP .

הגרסה הוובית אינה מצומצמת עוד למקום פיזי מסוים, אלא מאפשרת למשתמשים בכל דפדפן וללא צורך בתוכנות נוספות, בכל רחבי העולם לדפדף בספרים. יש אפשרות לצפייה בהגדלה ולהדפסה.

ספריות נוספות החלו להשתמש אף הן באותה טכנולוגיה.

על הפרויקט והטכנולוגיה
לאתר הספרים העתיקים של ה- NLM
פוסט מעניין שכתבה רחל שיאון על Turning the pages  ב-British Library

התפתחויות בספרייה הדיגיטלית HathiTrust

באוקטובר 2008 כתבתי פוסט על HathiTrust – ספרייה דיגיטלית שהיא פרי יוזמה של ספריות בארה"ב להקים מאגר דיגיטלי משותף של האוספים שלהן – ספרים וכתבי עת. ב-13 באוקטובר 2008 הוצהר רשמית על המאגר.

בזמנו עדיין לא היה קיים מנשק חיפוש משותף לכל המאגרים. היום, אפשר לחפש בקטלוג משותף באוסף שגדל בינתיים , בד בבד עם הגידול במספר ספריות המחקר שמשתתפות בפרויקט .

הקטלוג מאפשר חיפוש על פי מספר שדות – כותר, מחבר, נושא, מו"ל, סדרה, שנת הוצאה לאור, מספר ISBN/ISSN. ליד כל אחת מתוצאות החיפוש יש מידע אם פריט המידע נגיש בטקסט מלא או מוגבל לחיפוש בלבד. גם אם ספר מסוים אינו נגיש בטקסט מלא בשל זכויות יוצרים שחלים עליו, אפשר לחפש בתוך הספר כדי לראות כמה פעמים מונח החיפוש מופיע בספר, ובכך להתרשם האם הספר מתאים לצורכי המשתמש. אפשר גם לעדן את תוצאות החיפוש לפריטים שנגישים בטקסט מלא בלבד.

חיפוש בטקסט המלא אפשרי היום דרך מנשק ניסיוני. במחצית נובמבר הקרוב יהיה מנשק מלא לחיפוש בטקסט המלא של קרוב ל-5 מיליון פריטים.
היום משתתפות בפרויקט 25 ספריות מחקר . המאגר כולל 4,448,451 כרכים,
1,556,957,850 עמודים. לפרויקט תוכניות פיתוח נוספות שעליהם אפשר לקרוא ב- http://www.hathitrust.org/objectives. במצב זה, ספרייה דיגיטלית זו, שנוצרה ומנוהלת על ידי ספרנים למען ספרנים, יכולה להוות מקור טוב לחיפוש לא פחות מגוגל ספרים. למעשה, שני המקורות יכולים להשלים אחד את השני. על פי מה שכתוב באתר, ספריות ברחבי העולם יכולות לשלב את הרשומות הביבליוגרפיות של HathiTrust בקטלוגים שלהם ובכך להגדיל את הנראות של החומרים.

לקטלוג המשותף
למנשק הניסיוני של חיפוש בטקסט מלא
לכתבה בנושא
לשאלות נפוצות

פתרונות אפשריים לאירכוב ושימור – מחקר משווה

עם הגידול באוספים האלקטרוניים מתעוררות שתי בעיות עיקריות:
א. בעיית ה- Perpetual access – כיצד להבטיח גישה קבועה לארכיב. בעוד שבמדיה המודפסת יש לנו תמיד גישה לארכיב של החומרים עליהם היינו מנויים הרי במדיה האלקטרונית הדבר אינו מובן מאליו. כך למשל, במקרה של ביטול מנוי לכתב-עת אלקטרוני מסוים קיים חשש שלא תהיה עוד גישה לגליונות קודמים של כתב העת, עליהם היינו מנויים.

ב. בעיית ה- Long-term Preservation – כיצד להבטיח את הגישה לחומרים האלקטרוניים לדורות הבאים. במדיה האלקטרונית שינויים טכנולוגיים עלולים ליצור מצב שקבצים בפורמטים שונים שקריאים היום, עקב שינויים טכנולוגיים לא יהיו קריאים בעתיד.

בבואנו לבחור בפתרונות לאירכוב ושימור יש להבחין בין שני מונחים אלה – Perpetual access ו- Long-term Preservation.
מונחים אלו מוגדרים על ידי JISC כך:

Perpetual Access

‘Perpetual access is most commonly associated with e-journal licence clauses designed to provide assurance of continued access to subscribed material in certain
circumstances, including post-cancellation…

Long-term preservation
Long-term preservation refers to the processes and procedures required to ensure

content remains accessible well into the future…

בדו"ח של מחקר משווה בנערך ביוזמתה של JISC בשנת 2008 מוצגים 6 מודלים/פתרונות לאירכוב ושימור – יתרונות וחסרונות, וכיצד הם עונים על תסריטים עתידיים אפשריים. הדו"ח הסתמך גם על ספרות כתובה בנושא ולאחר התייעצות עם שחקנים עיקריים בתחום.

שני מודלים חשובים ושונים זה מזה שמוצגים בדו"ח הם מודל האירכוב והשימור של Lockss והמודל של Portico .

מההשוואה בין שני המודלים עולה שעל פי המודל של LOCKSS הספריות פעילות יותר- על פי הסכם עם המו"לים משתפי הפעולה, הספריות יכולות ליצור ארכיב של החומרים האלקטרוניים עליהם הן מנויות בעזרת תוכנה חופשית, ובעת הצורך הגישה לארכיב ישירה. כלומר על פי מודל זה מובטחת "גישה קבועה וישירה " לחומרים. מבחינה טכנית הקבצים בארכיב הם לא הקבצים המקוריים אלא הקבצים כפי שמופיעים בווב ולכן פעולות הקשורות לשימור לטווח רחוק כגון הגירת קבצים, אמנם אפשרית, אך עלולה להיות בעייתית יותר.. מספר המו"לים המשתתפים בפרויקט זה הולך וגדל וביניהם גם מו"לים קטנים. השתתפות מו"לים קטנים בהסכם יכולה מבחינה מסוימת להוות גם יתרון, שכן בכך מבטיחים חומרים שעלולים להיות פגיעים יותר.

מודל זה דומה ביותר למודל של החומרים המודפסים. כפי שמצוין בדו"ח : .

LOCKSS (Lots Of Copies Keep Stuff Safe) enables libraries to play an active part in
preservation. LOCKSS libraries maintain “LOCKSS boxes” which are used to store
copies of all e-journal material that the library subscribes to (subject to publisher
agreement). LOCKSS is therefore a closer analogue to paper distribution than any of
the other solutions

הפתרון של Portico, לעומת זאת, הוא למעשה שירות ארכיב (dark archive) קבוע של צד שלישי. כפי שכתוב בדו"ח:

Portico is specifically designed as a third-party electronic archiving service. Portico’s
role is as a permanent dark archive. Access is only permitted when there has been
substantial disruption to access via the publisher

עד כה מספר המו"לים המשתתפים ב- Portico קטן יותר, אך יש ביניהם מו"לים גדולים כגון Elsevier. מבחינת המודל הכלכלי של הפתרון – שותפים בעלות בו גם הספריות וגם המו"לים, ובסך הכול מבחינת הספריות הוא יקר יותר. פעילות בקונסורציום מוזילה מעט את העלות . על פי פתרון זה, שהוא כפי שנזכר לעיל בחינת dark archive, מתאפשרת גישה קבועה לארכיב רק בעת הצורך (ראה בדו"ח – תסריטים אפשריים), והדגש הוא על שימור לטווח רחוק. מבחינה טכנית על פי פתרון זה נשמרים בארכיב הקבצים המקוריים doc, xml – וכו' ופעולות הקשורות לשימור לטווח רחוק כגון הגירת קבצים בטוחה יותר.

בדו"ח מפורטים היתרונות והחסרונות של כל אחד מהמודלים, יש בדו"ח פרטים על הפתרונות המוצעים בכל אחד מהמודלים במקרה של תסריטים אפשריים שקשורים לבעיות אצל המו"לים או ביטול המנוי על ידי הספרייה. כמו כן ישנה טבלה שמשווה את המו"לים המשתתפים.

המסקנה המתבקשת מהדו"ח היא שאין פתרון אחד מועדף, מודלים שונים יכולים להיות משלימים והשאלה היא עד כמה ספריות מכירות בסיכונים עתידיים ועד כמה הן מוכנות להשקיע…

לדו"ח המלא

שימור וטכנולוגיית מחשוב עננים בספריות – תוכנית ספריית הקונגרס ו- DuraCloud- שירות וובי חדש לשירותי שימור בענן

היעד של National Digital Information Infrastructure and Preservation Program – תוכנית של ספריית הקונגרס הוא לפתח אסטרטגיה לאומית לאיסוף ושימור תכנים דיגיטליים לשימוש שוטף ועתידי של הדורות באים.

במסגרת תוכנית זו ספריית הקונגרס ו-DuraCloud השיקו תוכנית פיילוט בת שנה תוך שימוש בטכנולוגית ענן לבדוק אספקת גישה מתמדת לתכנים דיגיטליים.

DuraCloud הוא שירות וובי חדש מבוסס טכנולוגית ענן שפותח על ידי Duraspace – ארגון שלא למטרות רווח שמשרת למעלה מ- 750 מוסדות שמחויבים לשימוש בתוכנות של קוד פתוח למען הפצה, שימור של נכסים אקדמיים, מדעיים ותרבותיים .

בטכנולוגיית ענן משתמשים במחשבים מרוחקים על מנת לספק שירותים מקומיים באמצעות האינטרנט. המשתמשים שוכרים את השירותים מספקים שמעמידים כוח מחשוב נגיש דרך האינטרנט. היתרון למשתמשים בשירותי מחשוב עננים הוא חסכון והתייעלות כתוצאה מהעובדה שאין צורך לרכוש ציוד ותוכנות, לתחזקן, ולנהלן. החזון של מחשוב ענן הוא לאפשר למשתמשים להתחבר לכל שירותי המחשוב דרך האינטרנט.

המטרה של DuraCloud היא לסייע למוסדות כגון ספריות, אוניברסיטאות ולאנשים פרטיים לנצל את טכנולוגיית הענן על מנת לספק שירותי שימור – אחסון וגישה מתמדת למשאבים הדיגיטליים שלהם מבלי צורך לתחזק את התשתית הטכנית.

בין המשתתפות בתוכנית הפיילוט של ספריית הקונגרס : New York Public Library and the Biodiversity Heritage Library. . ספריות אלו ישתמשו בשירותי מחשוב הענן של DuraCloud לניתוח טקסטים, שכפולם ושימורם.

לכתבה בנושא

ספריות ושימור דיגיטלי – Codex Sinaiticus – כתב יד עתיק של הביבליה עלה לאינטרנט

לאחרונה אנו עדים ליזמות של שימור דיגיטלי בו נוטלות חלק גם ספריות. פרויקט בולט מסוג זה הוא פרויקט ה- Codex Sinaiticus.
ה- Codex Sinaiticus הוא כתב יד עתיק ביוונית של הביבליה  (הברית הישנה והחדשה)  מהמאה הרביעית, כולל  את  העותק השלם העתיק ביותר של הברית החדשה, ונחשב כאחד הספרים החשובים בעולם.

ה- Codex Sinaiticus מפוזר היום בין בריטניה, גרמניה, רוסיה ומנזר סנטה קתרינה בסיני. מיזם הדיגיטציה של כתב היד והעלאתו לאינטרנט היה פרויקט משותף של:

The British Library , UK
Leipzig University Library, Germany
St Catherine's Monastery, Sinai
The National Library of Russia, St Petesburg
תוך שיתוף פעולה עם גופים רבים אחרים שתרמו לפעילויות השונות במסגרת הפרויקט ומימונו כגון: המכון למחקר טקסטואלי ועריכה אלקטרונית באוניברסיטת בירמינגהאם.

הפרויקט כלל כמה פעילויות כולל מחקר היסטורי, דיגיטציה, תעתוק והפצה. מעניין במיוחד לקרוא באתר על פרויקט הדיגיטציה של כתב היד שהווה את לב ליבו של הפרויקט.

הפרויקט חשוב ומעניין במיוחד לחוקרים. אפשר באתר לראות את כתב היד, לבחור ספרים מסוימים ממנו כגון: יהודית, נחום, חבקוק. בכל אחד מהספרים אפשר לבחור פרקים ודפים מסוימים לצפייה. הצילומים הדיגיטליים הם ברזולוציה גבוהה.

פרויקט מסוג זה  מדגיש את תפקיד הספריות בפעילויות של דיגיטציה ושימור.

הגעתי למידע על הפרויקט דרך כתבה שהתפרסמה היום בעיתון ה"ארץ" (גרסה מודפסת). המידע בפוסט זה התבסס על מה שנכתב באתר הפרויקט

לאתר הפרויקט

PARSE.Insight ושימור חומר מדעי לטווח ארוך

חומר מדעי רב משלבי המחקר השונים החל מנתונים גולמיים וכלה בניתוח ובתוצאות המחקר מצוי בצורה דיגיטלית. השינויים המהירים בטכנולוגיות המידע שמטפלות במדיה, שינויים בפורמטים של הקבצים ובתוכנות, והשינויים בטרמינולוגיה – כל אלה עלולים להביא למצב בו החומר לא יהיה קריא בעתיד, וגם אם החומר יהיה עדיין קריא, הוא עלול להיות מובן שלא כהלכה על ידי הדורות הבאים. העובדה שפעמים החומר מפוזר במוסדות מחקר שונים ומנוהל על ידי החוקרים עצמם מעלה את הסיכונים לאבדנו .

הפרויקט PARSE.Insight – פרויקט דו שנתי (מרץ 2008 – פברואר 2010 ) שממומן על ידי האיחוד האירופי שם לו למטרה להתמודד עם סיכונים אלה. מטרתו של הפרויקט היא להתוות תכנית עבודה והמלצות למען פיתוח תשתית מתאימה שתבטיח את נגישותו ושימושיותו של החומר הדיגיטלי המדעי באירופה בטווח הרחוק .

תכנית העבודה והמלצותיו של הפרויקט יתבססו על ממצאי סקרים וחקר מקרים בדיסציפלינות השונות, ועל מידע שקשור להתפתחויות המתמשכות. עובדים בפרויקט תשעה שותפים מתחום הספריות, מחקר, עיתונות ופוליטיקה. הפרויקט קשור קשר הדוק עם European Alliance for Permanent Access, ששם לו למטרה לפתח מסגרת וחזון משותפים לכל עושי הדבר למען תשתית משותפת וגישה קבועה למידע מדעי.

טיוטת תוכנית העבודה של הפרויקט התפרסמה במרץ 2009. מטרתו של המסמך לספק פרטים ראשוניים על מספר מרכיבים טכניים ואחרים, שידרשו לתמיכה בתשתיות קיימות ומתוכננות של נתונים מדעיים.

במסמך הודגש, שבסקרים שנערכו במסגרת הפרויקט, נשמעה דרישה לתשתית מדעית חוצת יבשות ודיסציפלינות. התשתית המחקרית חייבת לתמוך בשיתוף מידע ובכריית נתונים. קיימות בעיות שקשורות לדפוסי ההתנהגות של חוקרים בכל הנוגע לשיתוף חומר מחקרי והן עלולות להביא לאי שימוש בתשתית לשימור חומר מחקרי, גם אם תהיה קיימת. במסגרת תוכנית העבודה הועלו מספר הצעות לטיפול בבעיה, ובראשן מקומות אמינים להפקדת המידע . מהסקרים עולה שיש העדפה למאגרי הפקדה מוסדיים (63%), מאגרי מידע נושאיים (60% ) והמו"ל (47%) .

עוד הומלץ על מערכת קישורים בין הנתונים וכל הפרסומים שמאזכרים נתונים אלה, כדי למנוע פרשנות לא נכונה של המידע.

המלצות נוספות, קישורים לפרויקטים רלוונטיים, מדיניות, ארגונים ופעילויות רלוונטיות לנושא אפשר למצוא במסמך המלא.

ExLibris משיקה את Rosetta

חברת ExLibris הישראלית הכריזה על השקתה של ExLibris Rosetta – מערכת לשימור מידע דיגיטלי. Rosetta הינה מערכת לשימור מידע דיגיטלי של ספריות (או כל ארגון אחר), אשר נבנתה על בסיס המערכת הראשונית  DPS – Digital Preservation System , ונכון להיום מעניקה לספריות אקדמיות, לאומיות ועירוניות  את האפשרות לבצע איסוף ושימור של אוספים הדיגיטלים כאשריתרונה המובהק הוא לשמש גישה אליהם  גם לדורות הבאים.

ה- Rosetta היא  תוכנה של שימור, ניהול, אחסון והפצה של פריטים דיגיטליים מסוגים שונים, המאפשרת שמירת  נתונים רלוונטיים המיוחדים לארגון ספציפי, והמשתנים ממקום למקום לפי מדיניות שנקבעה. המערכת מאפשרת גישה לחברי הארגון וגם מחוצה לו ומספקת מידע רחב על פריטים דיגיטליים, כגון: מתי, כיצד ועל-ידי מי הוטען הפריט למערכת, ופירוט המידע  הביבליוגרפי.

לכתבה מלאה

אתר "עיתונות יהודית הסטורית"

העיתונות היהודית במגוון שפותיה היא מקור מידע ראשון במעלה להיסטוריה ולתרבות של יהודי העולם ושל ארצות מושבם בתקופה המודרנית. האתר "עיתונות יהודית היסטורית" מביא את מהפכת המחשוב לתחום זה, ומציע את האפשרות לבצע חיפוש מלא בכל המלל שפורסם בעיתון מסוים לאורך כל שנותיו. האתר מבקש להעלות על רשת האינטרנט את מרבית העיתונים וכתבי העת היהודיים שיצאו לאור בעבר, כולל עיתונים נדירים ביותר שהגישה אליהם הייתה עד כה בלתי אפשרית.

אתר עיתונות יהודית היסטורית הוקם בשיתוף פעולה בין הצוות של פרויקט דיגיטציה של אוניברסיטת תל-אביב לבין הספרייה הלאומית. הוא כולל גרסאות אלקטרוניות מלאות – ברות חיפוש בטקסט המלא של העתון – של עיתונים יהודים מתקופות ומקומות שונים(לא להתבלבל עם הפרויקט הקודם של הספרייה הלאומית – אתר עיתונות עברית היסטורית).

כרגע באתר 7 עיתונים ובקרוב יצטרף עיתון שמיני – "דבר".

האתר הוא בשלוש שפות: עברית, אנגלית וצרפתית.

ניתן להיכנס לאתר בכתובת http://jpress.tau.ac.il/view-hebrew.asp או דרך רשימת מאגרי המידע באתר הספרייה למדעי החברה ולניהול.

Europeana

ב- 20.11.08, אמורה להיפתח לקהל הרחב  Europeana – הספריה הדיגיטלית של אירופה, שהיא גם מוזיאון וארכיון והכל באתר אחד. זהו פרויקט של שנתיים שהחל ביוני 2007 ומטרתו לאפשר גישה חופשית ליותר מ-2 מיליון פריטים דיגיטליים, כגון: סרטים, תמונות, ציורים, יצירות מיסיקאליות, מפות, כתבי יד, ספרים, עיתונים ומסמכי ארכיון שונים ובשנת 2010, להגיע אף ל- 6 מיליון פריטים דיגיטליים.

חשוב לציין כי האתר יתן מענה ל-23 שפות אירופאיות רשמיות, כגון: אנגלית, צרפתית, הולנדית, גרמנית ועוד.

התוכן הדיגיטלי נלקח מאוספים דיגיטליים קיימים של ספריות ומוזיאונים באירופה. זהו פרויקט מאוד מעניין ומומלץ לעיון.

לצפייה והתרשמות מאתר הספריה

DRYAD – מאגר נתונים בתחום הביולוגיה האבולוציונית – דוגמה לאחסון ושימור נתוני מחקר

מחקרים מייצרים בדרך כלל נתונים רבים כמו טבלאות בגיליונות אלקטרוניים, מפות, תמונות ועוד. נתונים אלו חשובים מאוד לחוקרים אחרים באותו תחום לצורך תיקוף ועיבוד משני של המחקרים. ריכוזם של נתוני המחקר במאגרים ייעודיים לכך יכול להקל על המלאכה.

DRYAD הוא דוגמה למאגר כזה. DRYAD הוא מאגר של נתונים מדעיים מתחום הביולוגיה האבולוציונית ותחומים קרובים עם אפשרות להרחבת התחומים ..
המאגר הוא פרי יוזמתם של National Evolutionary Synthesis Center , ו-
Metadata Research Center University of North Carolina שפועלים בתיאום עם מספר כתבי עת ואגודות בתחום האקולוגיה והביולוגיה האבולוציונית. המאגר שואף לאסוף ולקבץ את כל הנתונים מהפרסומים שמופיעים אצל שותפיו בקרב כתבי העת ופרסומים קשורים. באופן זה המאגר יאפשר לחוקרים עתידיים לתקף ממצאים שפורסמו, ללמוד מתודולוגיות ניתוח חדשות, להשתמש מחדש בנתונים לשאלות מחקר חדשות שלא נחקרו על ידי החוקרים המקוריים ולבצע ניתוח מחודש ומשולב של מספר מחקרים כגון מחקרי מטה אנליזה.

הנתונים המופקדים במאגר על ידי החוקרים צריכים לכלול כותר ותיאור קצר של הקובץ עם הפניה לפרסום הרלוונטי. על החוקרים לספק מספיק מידע שימושי שיאפשר עיבוד משני של המחקרים על ידי חוקרים אחרים. מבחינה טכנולוגית המאגר משתמש בתוכנה DSpace – תוכנה חופשית ייעודית להקמת מאגרים דיגיטליים חופשיים.

המאגר חופשי לכל, לשימושים לא מסחריים, נראה שהמאגר עדיין  בשלבי התהוות ומספר הרשומות בו עדיין מצומצם, אבל חשוב יותר מהמאגר הוא  המודל … 

DRYAD – המאגר, מדיניות המאגר, אודות
על המאגר
וויקי בנושא

הסכם פשרה בין Google מו"לים ומחברים בכל הקשור לפרויקט סריקת הספרים של Google, ומשמעויותיו למשתמשים

לאחר משא ומתן שנמשך כשנתיים הודיעו  Google, Authors Guild ו- Association of American Publishers  ב- 28 באוקטובר 2008 על הסכם פשרה לישוב הסכסוך ביניהם בכל הקשור לפרויקט הדיגיטציה של הספרים. ההסכם שם קץ למאבק משפטי שראשיתו ב- 2005 כאשר הוגשו כנגד גוגל תביעה משפטית ייצוגית על ידי גילדת הסופרים בארה"ב שמייצגת כ-8000  סופרים ותביעה נוספת נפרדת מצד מספר מו"לים גדולים שחברים בארגון המו"לים האמריקאי.
המחברים והמולים הנ"ל ראו בסריקת הספרים על ידיGoogle לצורך Google Books הפרה בוטה של זכויות היוצרים. הם מחו כנגד תוכנית הדיגיטיציה של Google, האפשרות הניתנת למשתמשים לראות קטעים מספרים מוגנים בזכויות יוצרים, ושיתוף פעולה עם ספריות ללא הרשאה מפורשת מבעלי זכויות היוצרים על כך. על פי הסכם הפשרה התחייבה Google לשלם 125 מיליון דולר – שחלקם ישולמו כפיצוי למחברים ומו"לים שספריהם כבר נסרקו ולהוצאות משפטיות, וחלקו יוקדש להקמת משרד עצמאי שלא למטרות רווח לרישום זכויות יוצרים. משרד זה יטפל ברישום זכויות יוצרים על הספרים ובהעברת תשלומים למחברים ולמו"לים מרווחים שיושגו מהנגישות לספרים דרך Google ומתוכניות דומות שיוקמו על ידי ספקים נוספים.

ההסכם יהיה תקף רק לאחר אישור בית המשפט, ואז אין ספק שבעלי זכויות היוצרים ירשמו לזכותם הישג לא מבוטל. אך מעבר להיבט הכספי ומשמעותו לגבי הסופרים והמו"לים, מה משמעות ההסכם למשתמשים ?
מסתבר שהמשתמשים גם הם ייהנו מפירות ההסכם אך חשוב לציין שאלה יחולו רק על משתמשים בארה"ב. משמעויות ההסכם לגבי משתמשים בארה"ב הן:
• נגישות רבה יותר לספרים out of print שחלים עליהם זכויות יוצרים – ואפשרות למשתמשים בארה"ב לחפש בספרים אלו ולראות אותם בצורה מקוונת
• אפשרות למשתמשים ב-Google Book Search בארה"ב לראות את הטקסט המלא של הספרים שעד כה ניתן היה לראות רק קטעים מהם
• מנויים מוסדיים למיליוני ספרים מקוונים – תינתן האפשרות למכללות, אוניברסיטאות ומוסדות נוספים בארה"ב לרכוש מנויים שיאפשרו לסטודנטים ולסגל גישה מלאה לטקסט המלא של הספרים
• גישה חופשית מהספריות הציבוריות והאוניברסיטאיות בארה"ב לטקסט המלא של מיליוני ספרים
• ערוץ נוסף למשתמשים בארה"ב שאין להם נגישות דרך המוסד או הספרייה לראות את הטקסט המלא בתשלום.

ההסכם זכה לתמיכתן  של מספר  אוניברסיטאות בארה"ב. חשוב לציין שבמסגרת ההסכם עותקים מהספרים שנסרקו במסגרת פרויקט הספרים של Google יימסרו לספריות למטרות שימור ארוך טווח.

כאמור סעיפי ההסכם מתייחסים רק לארה"ב ואנחנו לעת עתה נצטרך להסתפק רק במה שניתן לראות כיום – קטעים מסוימים מהספר כדי להחליט אם כדאי לנו לרכשו.
למה ? את התשובה על כך ועל שאלות נפוצות נוספות הקשורות להסכם ניתן לראות בקובץ השאלות הנפוצות המתייחסות להסכם

הודעה על ההסכם

מסמך ההסכם
שאלות נפוצות
מה יכול לעניין מחברים ומו"לים מחוץ לארה"ב בכל הקשור להסכם
אתר לקבלת עדכונים בנושא

HathiTrust – פיל בספרייה – מאגר דיגיטלי לספרנים על ידי ספרנים

HathiTrust – הוא פרי יוזמה של ספריות בארה"ב להקים מאגר דיגיטלי משותף של האוספים שלהן – ספרים וכתבי עת. ב-13 באוקטובר הוצהר רשמית על המאגר.
כיום שותפות בפרויקט הספריות שחברות ב- Committee on Institutional Cooperation, אוניברסיטת קליפורניה ואוניברסיטת וירג'יניה, אך הפרויקט פתוח לכל ספריות המחקר המעוניינות, ומציע להן את הידע והתשתית הדרושים לאירכוב ושימור האוספים. היתרון של השתתפות בפרויקט מבחינת ספריות המחקר, על פני שימור עצמאי של המשאבים, בנוסף לתשתיות ולידע המוצעים להן, הוא כמובן השיתופיות במשאבים.

ייחודו וחשיבותו של הפרויקט ביחס לפרויקטים משותפים אחרים של דיגיטציה, בהם נוטלים חלק גם ספריות, כמו פרויקט הדיגיטציה של הספרים של Google ו- OCA, הוא ניהולו על ידי ספרנים והחשיבות שמוענקת בפרויקט לנגישות ושימור ארוכי טווח. אך האחראים לפרויקט אינם רואים בפרויקט זה מתחרה או מחליף לפרויקטים הנ"ל אלא פרויקט משלים שממלא נישה אקדמית מיוחדת. החומר שמוגדר כרשות הכלל public domain יהיה נגיש לכל. בעתיד השאיפה היא להרחיב את הנגישות לחומרים נוספים. בתחילת אוקטובר המאגר כלל 715 מיליון דפים. 16% מהחומר הוא public domain . עדיין אין מנשק חיפוש משותף לכל המאגרים. מקווים שמנשק זה יהיה מוכן בראשית 2009.
ועד אז, משתמשים סקרנים שמעוניינים לראות את התכנים של HathiTrust יכולים לעיין בקטלוגים מסוימים של מספר מהספריות המשתתפות.

נקווה שהפרויקט יענה על הציפיות שתלו בו בעליו, כאשר העניקו לו את שמו – Hathi – מילה הודית שמשמעותה פיל – חיה שנחשבת כחכמה וחזקה ו- Trust – אמון, שהוא הערך המרכזי של ספריות מחקר.

לכתבה בנושא
לאתר הפרויקט
שאלות נפוצות

Open Library – קטלוג חופשי פתוח לציבור, בחלקו בטקסט מלא, בעל מנשק וויקי

 Open Library הוא פרויקט שלא למטרות רווח של ארכיון האינטרנט, שממומן בחלקו על ידי ספריית קליפורניה. הפרויקט שם לו למטרה לקטלג את כל הספרים שאי פעם יצאו לאור – בין אם הם print או out of print, קבצי טקסט או קבצים סרוקים. בכך שונה הוא מפרויקט גוטנברג שכולל טקסטים של ספרים אשר זכויות היוצרים שלהם פקעו. כיום המאגר כולל 13,439,320 ספרים, מהם 234,857 בטקסט מלא. הספרים בטקסט מלא הם ספרים ששייכים לרשות הכלל (public domain) כלומר אינם כבולים בזכויות יוצרים.

שדות החיפוש האפשריים בחיפוש המתקדם הם: כותר, מחבר, נושא, ISBN, מ"ול, ותיאור, עם אפשרות להגביל את החיפוש לטווח מסוים של תאריכים ולספרים סרוקים בלבד. במנשק תוצאות החיפוש ניתן לקבל את כל הפרטים הביבליוגרפיים של כל אחד מהספרים, בד"כ גם תוכן עניינים ותצלום של הכריכה של הספר, גישה לטקסט המלא אם הוא קיים וקישורים למקורות מהם ניתן לרכוש את הספר או להשאילו. אם הספר קיים בטקסט מלא ניתן לחפש בתוך הטקסט המלא של הספר. ניתן לעדן את החיפוש על פי פילטרים שונים: גרסאות טקסט מלא (אם קיימות), מחברים, נושאים, מהדורות ומו"לים.
לדוגמה כאשר חיפשתי "Canterbury tales" קבלתי 757 ספרים, מתוכם 68 ספרים בטקסט מלא. המהדורות של הספרים נעו בטווח תאריכים מלפני 1920 ועד 1999 והם היו מ- 5 מו"לים שונים. יכולתי לעדן את השאילתה על פי הפילטרים שנמנו לעיל. צמצמתי את החיפוש לטקסט מלא. בחרתי באחת המהדורות בטקסט מלא (1860) וקבלתי את הטקסט המלא הסרוק של הספר. ניתן לדפדף בספר עמוד אחר עמוד, לקפוץ לעמוד מסוים או לתחילתו ולסופו של הספר. ניתן גם לחפש בתוך הספר, להוריד אותו ולהדפיסו.  

המנשק הוא מנשק וויקי והציבור הרחב, ספריות, אנשי מקצוע, מו"לים ומתכנתים נקראים לתרום. יש באתר מידע רב על הפרויקט – מידע כללי, הייחודיות של הפרויקט בהשוואה לפרויקטים דומים ושיטות המיון בהם נעשה שימושהטכנולוגיה בה השתמשו, מידע שקשור להיבט  הספרני של הנושא, מידע על הגופים המשתתפים בפרויקט כולל ספריות ומו"לים  והאופן בו ניתן לתרום.
בשל אופיו של הפרויקט שפתוח לציבור הרחב, מקווים מפתחיו שהוא יעודד את השימוש בספרים ובספריות, ותרומתן של הספריות לפרויקט חיונית.

לאתר הקטלוג 

ארכיון האינטרנט

בסקירה שפורסמה באתר NRG, נבדק המושג "ארכיון"  בהקשריו האינטרנטיים, ומוצג  אתר Archive.org.  המתיימר להיות הארכיון הגדול ביותר של אתרי האינטרנט באשר הם. מדובר בארגון ללא מטרות רווח המתעד את דברי הימים של המידע הדיגיטלי. באתר ניתן למצוא תיעוד ענק של המידע המתפרסם באינטרנט. בין השאר תוכלו למצוא תיעוד של אתרי אינטרנט, קבצי וידיאו, תמונות, קבצי קול, תוכנות ועוד. בארכיון האינטרנט תוכלו למצוא מידע רב על המידע הדיגיטאלי וגלגוליו עם השנים. תוכלו למשל לראות כיצד אתר מסוים ניראה לפני מספר שנים, או לראות קובץ וידאו שהתפרסם בתאריך ספציפי. האתר נתמך על ידי חברות גדולות כמו Alexa, ספריית הקונגרס האמריקאי, HP, NSF ועוד.

לסקירה ב – NRG 

פוסט בנושא  ארכיון האינטרנט שהתפרסם בפורלוג "צמתי מידע" (23/7/2005)

"ארון הקבצים היהודי" עולה לרשת

פרויקט ראשון מסוגו של העלאת הספרות היהודית והעברית לרשת האינטרנט, יושק בקרוב באוניברסיטת בר אילן . במסגרת הפרויקט, ששמו "ארון הספרים הדיגיטלי", יועלו לרשת אלפי ספרים רבניים וספרות יפה. ספרים אלה יהיו פתוחים לקריאה ולחיפוש באמצעות מנוע חיפוש.

בישראל נעשו עד כה פרויקטים כאלה בקנה מידה מצומצם, ביוזמות של מתנדבים או תורמים פרטיים: פרויקט בן יהודה, שבמסגרתו הוקלדו יצירות מרכזיות בספרות העברית, ופרויקט הדיגיטציה של בית הספרים הלאומי, שבו נסרקו עד כה כ-900 כתבי יד עבריים עתיקים.

לידיעה המלאה שהתפרסמה ב"קפטן אינטרנט"

פרויקטים לדיגיטציה בעולם ובארץ

הכתבה "ישראל, עם הספר? לא באינטרנט" שהתפרסמה ב"קפטן אינטרנט" סורקת את מצב הדיגיטציה בארץ ובעולם. הפרויקט המוביל בעולם לדיגיטציה של ספרים ללא ספק הוא  Google books . גוגל סורקת מיליוני ספרים ב-19 ספריות – בארצות הברית, אירופה, יפאן והודו. היא גם משתפת פעולה עם הוצאות ספרים שמאפשרות צפייה מוגבלת בספרים שברשותם. עד כה נסרקו במסגרת הפרויקט יותר ממיליון ספרים ביותר מ-100 שפות.
במסגרת פרויקט דומה לסריקת ספרים של מיקרוסופט נסרקו כ-750 אלף ספרים ומאמרים, אלא שמיקרוסופט הודיעה שהפסיקה לסרוק ספרים חדשים, ככל הנראה מתוך הבנה שגוגל שולטת באופן בלעדי גם בתחום זה.
מדינות אירופה החלו אף הם לסרוק את הספרים בספריותיהן ועל פי דברי פרופ' אלחנן אדלר, ראש האגף לטכנולוגיות מידע בבית הספרים הלאומי בירושלים "מה שדירבן את האירופאים זה גוגל".
גם עיתונים שונים בעולם מעלים לרשת את הארכיונים שלהם והם זמינים לחיפוש ב-Google News. ה"ניו יורק טיימס", למשל, השיק בסוף השבוע את הפרויקט "TimesMachine", שבו הועלו לרשת גיליונות של העיתון מן השנים 1851-1922.

לעומת שפע הפרסומים המקוונים בשפה האנגלית מצאי הספרים המקוונים בעברית הוא דל יחסי. פרויקט בן יהודה, שהחל ב-1999, הוא חלוץ הדיגיטציה של הספרות העברית. זהו פרויקט מרשים אך הוא מתקיים בהתנדבות ולכן גם באטיות.
בית הספרים הלאומי סרק עד כה 897 ספרים , כמעט כולם כתבי יד נדירים ועתיקים מאוד של ספרי קודש וספרות תורנית, וכן כמה אטלסים, ספרי מסעות וספרי מוסיקה.
על פי דברי פרופ' אלחנן אדלר המדינה לא מספיק פעילה בנושא , הפרויקט ממומן מתרומות פרטיות ולכן הכל מתנהל על אש קטנה . מגעים שנעשו עם גוגול למען שיתוף פעולה עם בית הספרים הלאומי למען הטמעת הספרים שבו ב-Google Books עד כה לא נשאו פרי .
והפרויקט האחרון פרויקט  פאר "פתיחת אוצרות רוח" של האוניברסיטה הפתוחה, שמעלה את ספרי הלימוד שלה לרשת, רק מדגיש עד כמה דל מצאי הספרים המקוונים בעברית.
למרות זאת, ד"ר אורה נבנצאל, ראש המגמה ללימודי מידע במכללה האקדמית בית ברל, מגלה אופטימיות….

לכתבה המלאה של עפרי אילני שהתפרסמה ב"קפטן אינטרנט" 27.5.08
קרדיט לד"ר אריאל פרנק שהפנה את תשומת לבי לכתבה

Open access ושימור דיגיטלי – תמונת מצב על פי DDQ – אפריל 2008

Digital Document quarterly הוא עלון מקוון שעוסק בכל האספקטים של ניהול ושימור חומר דיגיטלי – כולל מאמרים טכניים, מאמרים שמיועדים לספרנים, תיאור תוכנות ועוד. העלון אינו מצטמצם בהיבט הפרקטי אלא עוסק גם בהיבט האֶפִּיסְטֶמוֹלוֹגי.
בגיליון האחרון מאפריל 2008 ניתן למצוא סקירה בנושא Open access :
· יוזמות לדיגיטציה של ספרים החל מפרויקט מיליון הספרים דרך היוזמות של  Amazon ו- Google ועד היוזמה  המאוחרת יותר של Microsoft.
· יוזמות של אוניברסיטאות כמו אלה של אוקספורד והרווארד לפתוח לציבור הרחב את מאגרי המחקר האוניברסיטאיים שלהם
· ויוזמות אחרות כמו זו של MIT לפתוח לציבור את חומרי ההוראה והקורסים.

נושא נוסף מעניין שנסקר בהרחבה הוא נושא השימור הדיגיטלי . בסקירה מידע על יוזמות לשימור חומר דיגיטלי בארה"ב ויוזמות אחרות. אחת היוזמות לדוגמה היא: 
Blue Ribbon Task Force on Sustainable Digital Preservation של National Science Foundation  ו- The Andrew W. Mellon Foundation בשיתוף פעולה עם ספריית הקונגרס, JISC, CLIR,  ו-NARA.

הסקירה של הנושאים הנ"ל כוללת קישורים לפרויקטים השונים, קישורים למאמרים בתחום ואת נקודת מבטו של המחבר בנושאים אלו כולל השלכות אפשריות לגבי ספריות מחקר.
יש לציין שחלק מהקישורים התגלו כקישורים "מתים".

לסקירה המלאה