ביג דאטה ואתיקה מחקרית

כלים לאיסוף ולניתוח של ביג דאטה הופכים לכלים חשובים בהנגשת נתונים ומציאת קשרים משמעותיים בין גורמים אותם לא היינו חושבים לקשר. קשרים אלו נחשפים לעיתים קרובות רק בזכות הכמות העצומה של הנתונים.  מחקרים רבים ומגוונים עושים שימוש בביג דאטה, ביניהם מחקרים בתחומי החברה,  רפואה, תכנון אורבני, קרימינולוגיה ועוד. אולם, השימוש בביג דאטה כולל לעיתים קרובות שימוש בנתונים מאנשים רבים, נתונים שלא כולם רלוונטיים למחקר הספציפי. הנגשת הנתונים מעלה דאגות בנושאי פרטיות ואתיקה מחקרית, כפי שמראים המקרים המתוארים להלן.

שימוש בביג דאטה בפלטפורמות חברתיות

 בחודש מאי 2016 פירסמה קבוצת חוקרים דנית מאגר מידע של פרטי פרופיל של כ- 70,000 משתמשי האתר למפגשי הכרויות אנליין – אוקיי קיופיד . המידע כלל שמות משתמש, גיל, מגדר, מיקום, העדפות מיניות, סוג מערכת יחסים  בו הם מעוניינים, תכונות אישיות, ופרטים אישיים נוספים

החוקרים לא הפכו את המידע לאנונימי לפני פירסומו בטענה כי מדובר במידע שהוא מלכתחילה ציבורי. הטענה הייתה שהמידע שנאסף היה נגיש בעבר או עדיין ניתן לגישה ציבורית דרך אוקיי קיופיד, ולכן הפצת בסיס הנתונים רק מאפשרת את הצגת המידע באופן יעיל יותר.

הדיון הקצר שהתפתח בטוויטר אודות החוקיות והמוסריות של המעשה מעניין מאוד והסתיים בנימה שמזכירה גם דיונים אחרים אודות פרטיות במרחב הציבורי, בייחוד בתקופה בה לכל אחד יש מצלמה ויכולת פרסום מידית.

ההתנערות מסוגיות של פרטיות ואתיקה מחקרית  בטענה שהמידע כבר ציבורי ולכן אין בעיה לפרסם את בסיס הנתונים אינה חדשה. אולם, יש שיטענו שהיות המידע ציבורי אינה מספיקה.

גם אם אדם שיתף מידע ביודעין, ניתוח הביג דאטה עשוי לפרסם את המידע הזה ולהעצימו באופן שהאדם מעולם לא התכוון או הסכים לו. יתרה מזאת, באתרים כדוגמת אוקיי קיופיד המידע אינו באמת נגיש באופן חופשי לכלל הציבור ,כיוון שכדי לגשת אל המידע יש צורך ברישום לאתר. בנוסף, משתמשים יכולים לחסום גישה לפרופיל שלהם בפני משתמשים שונים.

הנושא עלה בעבר גם כאשר קבוצת חוקרים מהרווארד הורידה מפייסבוק 1,700 פרופילים וחקרה כיצד גזע ותרבות משפיעים על מערכות יחסים. חלק מבסיס הנתונים הועלה לגישה חופשית לשימוש במחקרים אחרים, מתוך הבנה שפרופילים אלו יכולים לתת מידע רב במחקרים מסוגים שונים. אולם, לא נעשו מאמצים מספקים לשמור על אנונימיות הפרופילים והם זוהו כמחזור 2009 של אוניברסיטת הארוורד.

מקרה אחר התרחש ב 2010 כאשר מהנדס מאפל ניצל פירצה בארכיטקטורת המידע של פייסבוק כדי  לייצר  "זחלן רשת"  ( Web crawler -תוכנה רובוטית שסורקת דפי ווב)  והוריד באמצעותו מידע אודות 215 מיליון חשבונות פייסבוק. המהנדס תכנן להפוך את המידע לאנונימי לפני שיחלוק אותו לצורכי מחקר, אולם לבסוף מחק את המידע כולו, לאחר איומי תביעה מצד פייסבוק.

הדוגלים בכך שפרסום בסיסי נתונים מסוג זה אינו אתי טוענים בין היתר שעצם העובדה שאדם משתף מידע בציבור אינה שוות ערך להסכמה להשתתפות במחקר. אתיקה במחקר דורשת הגנה על פרטיות המשתתף, קבלת הסכמה מדעת, שמירה על חיסיון המידע שנאסף וצמצום נזקים. כל אלו אינם נלקחים בחשבון כאשר המידע נלקח מאתרים כגון פייסבוק, אוקיי קיופיד, טוויטר ועוד, ללא הסכמת בעלי הפרופילים.

מקרים אלו מראים שחובה על חוקרי ביג דאטה להתייחס אל השאלות האתיות העולות מסוג המחקר בו הם עוסקים.

ביג דאטה ברפואה ובמחקר

מחקר חברתי הוא לא המקום היחיד בו סטים גדולים של מידע אודות אנשים יכולים לסייע. מערכת הבריאות היא מקום נוסף בו שימוש בביג דאטה יכול לסייע במחקר.

בכתב העת New Scientist פורסם שגוגל חתמה לאחרונה על הסכם עם בתי חולים ממערכת הבריאות של בריטניה. לפי ההסכם חברת DeepMind שבבעלות Google ושעוסקת בתחום הבינה  המלאכותית ולמידת מכונה תקבל לידיה מידע רפואי מפורט אודות 1.6 מיליון חולים מאושפזים ברחבי בריטניה, במטרה לפתח כלים תומכי החלטה.

זו לא הפעם הראשונה שגוגל עוסקת בבריאות. גוגל השיקה לפני מספר שנים, יחד עם אוניברסיטאות דיוק וסטנפורד, את פרויקט Baseline שמטרתו להגדיר "פיזיולוגיה נורמלית". הם עשו זאת על ידי אגירת מידע רב אודות אלפי אנשים. בנוסף היא משתפת פעולה עם ה -NIH  (ארגון הבריאות של ארה"ב) במחקר אודות 50,000 חולים עבור הפרויקט הגדול 1-Million patient Precision Medicine cohort.

בפרויקט הנוכחי של גוגל המידע שגוגל תקבל לגבי החולים יכלול נתונים על בדיקות מעבדה, היסטוריה רפואית, ואף נתוני מעקב אחר המיטות בהן שהו החולים בעת האשפוז. על מנת להגן על המידע הוא יאוחסן על ידי גורם שלישי, לגוגל יהיו הגבלות בשימוש במידע, ותוקפו של ההסכם, וכך גם הגישה למידע יפוגו בשנת 2017.

בעוד שיש הגבלות על הגישה למידע, נראה שגוגל מקבלת יותר מידע משנחוץ לה עבור האפליקציות אותן היא מפתחת, כגון סטטוס HIV  של החולים. מצב זה מדאיג את הדוגלים בשמירה על הפרטיות, בייחוד מכיוון שבעבר התגלו בעיות אבטחה באפליקציות שאושרו על ידי ארגון הבריאות של בריטניה.

מצד שני, השימוש בביג דאטה, למידת מכונה ובינה מלאכותית מסייע לאיתור מכנה משותף בין חולים ועזרה באבחון, יכול לסייע רבות במציאת גורמים משותפים ומגמות, וכן לעזור במחקר ופיענוח נתונים שלא היו נראים ללא שימוש בביג דאטה. כדי לעשות זאת יש לאסוף כמה שיותר מידע, מכיוון שאין לדעת מה יתגלה כרלוונטי. יחד עם זאת, שאלת הזכות לפרטיות וההסכמה של החולים להעביר את המידע היא שאלה חשובה שיש לשים אליה לב.

להמשך קריאה אודות ביג דאטה במחקרים חברתיים.

להמשך קריאה אודות המידע הרפואי שקיבלה גוגל.

דוח חדש: ספריות אקדמיות תורמות להשכלת הסטודנטים והצלחתם

אחד האתגרים של ספריות אקדמיות הוא להוכיח את תרומתן וערכן למוסד האקדמי ולסטודנטים. האופן בו נוהגים לעיתים לכמת את הצלחת הספרייה הוא על פי נתונים כמותיים כגון כמה ספרים הושאלו בתקופת זמן. כמו כן נוהגים לבדוק את מידת  שביעות הרצון של באי הספרייה מסוג השירות ואיכותו. נתונים אלו חשובים למעקב ולשיפור פנימי, אולם, הם לא בהכרח מעידים על תרומת הספרייה למטרות של המוסד עצמו.

מדוח  של ACRL – Association of College and Research  Libraries שפורסם באפריל 2016,  acrlעולה כי ספריות אקדמיות תורמות להשכלת הסטודנטים ולהצלחתם. תרומה זו מתבטאת בארבעה תחומים מרכזיים:

  1. הסטודנטים יוצאים נשכרים מהדרכות בספרייה בנושא אוריינות מידע בהן השתתפו  בתחילת לימודיהם. סטודנטים חדשים שמקבלים הנחיות בנושא שימוש במקורות מידע – היכולת לזהות את הצורך במידע, לאתר ולאסוף מידע, להעריך מידע, לנתח ולפרש את המידע ולהציגו בצורה משמעותית‏ –  מקבלים ציונים גבוהים יותר בקורסים מאשר סטודנטים שלא קיבלו הנחיות אלו.
  2. שימוש בספרייה מגביר את הצלחת הסטודנטים. סטודנטים שמשתמשים במשאבי הספרייה השונים – השאלת ספרים, הדרכות בספרייה, גישה למאגרי מידע אלקטרוניים, שימוש בחדרי לימוד, השאלה בין ספריתית ועוד – מצליחים יותר בלימודיהם מאשר סטודנטים שאינם משתמשים בשירותי הספרייה , דבר המתבטא למשל בציונים ושיעורי סיום תואר גבוהים יותר.
  3. תוכניות ושירותים אקדמיים המערבים את הספרייה מקדמים את הלמידה. שיתופי פעולה של הספרייה האקדמית עם מחלקות ויחידות אחרות באוניברסיטה כגון, מרכזי הדרכה לכתיבה, מרכזי העשרה ואחרים, מניבים יתרונות שונים לסטודנטים, כגון, ציונים גבוהים יותר, ביטחון אקדמי גבוה ושיעורי נטישה נמוכים יותר של הלימודים.
  4. הדרכות אוריינות מידע מחזקות את התוצאות הכלליות של השכלה. הספריות משפרות את התוצאות הכלליות של ההשכלה של המוסדות שלהן ומדגימות שאוריינות מידע תורמת ללמידה מבוססת חקירה ופיתרון בעיות, הכוללת חשיבה ביקורתית, חשיבה אתית, ומעורבות אזרחית.

הנתונים נאספו מתוכנית שיושמה במשך שלוש שנים ב-200 מוסדות להשכלה גבוהה שמטרתה ליצור שיתופי פעולה פנים מוסדיים לקידום מנהיגות הספרייה ומעורבותה בהערכה מקיפת קמפוס. כל מוסד הקים צוות עם ספרנ/ית העומד/ת בראשו ולפחות שני משתפי פעולה מיחידות אחרות בקמפוס. הצוות עוסק בפיתוח וביישום של פרויקטים שמטרתם לתרום לפעילויות הערכה ברחבי הקמפוס.

בנוסף לארבעת תחומי ההשפעה שלעיל, המחקר מצא שלספרייה יש השפעה חיובית גם על תחומים נוספים שפורטו בדוח אך נחקרו פחות לעומק.  בין התחומים שהוזכרו שיפור כישורי הלמידה של הסטודנטים וחיזוק הזיקה של הסטודנטים לאקדמיה ולמעורבות אקדמית,

לדוח המלא

לוובינר שנעשה אודותיו

למצגות של הוובינר

האתגר של ספריות כיום – שימור והנגשה:  פרויקט לאזארוס ופעילות "דורות"

שניים מהאתגרים הגדולים של ספריות הם:

  1. לשמר תוכן ישן, כך שגם אם החומר הפיזי מתבלה התוכן נשמר.
  2. הנגשת החומר לקהילות גדולות.

אתגרים אלו מקבלים מענה בעזרת טכנולוגיות שונות אותן מאמצות הספריות במטרה להישאר מעודכנות ורלוונטיות בעולם דיגיטלי, כפי שניתן לראות בדוגמאות המוצגות כאן.

סריקה ושימור של חומר ישן – פרויקט לאזארוס

לספריות, מוזיאונים וארכיונים יש ספרים וכתבי יד אשר נפגעו או הפכו לבלתי קריאים. כדי לפתור בעיה זו משתמשים בין השאר בטכנולוגית multispectral imaging. באמצעות הטכנולוגיה הטקסטים ניסרקים תחת מספר תחומים של אורכי גל. התמונות מעובדות וחושפות פרטים שלא ניתן היה לראות בעין בלתי מזויינת ואף מסוגלות להפוך טקסט שקודם לכן לא היה קריא כלל, לקריא.

The Vercelli Book כתב היד העתיק ביותר שקיים אשר נכתב באנגלית ישנה. תמונה מאת - פרוייקט לאזארוס

The Vercelli Book – כתב היד העתיק ביותר שקיים אשר נכתב באנגלית ישנה. תמונה מאת – פרוייקט לאזארוס

הפיכת החומר לקריא חשובה מכיוון שהיא מאפשרת מיון ומפתוח טובים יותר אשר הופכים את החומר לחפיש ונגיש. כך גם עולה הסיכוי שחוקרים יעשו בחומר שימוש.

  טכנולוגיה זו כבר קיימת ונעשה בה שימוש במוסדות גדולים, אך העלות הגבוהה שלה מביאה לכך שמוסדות קטנים לא יכולים להשתמש בה. כדי לפתור בעיה זו הוקם פרוייקט לאזארוס. הפרויקט מנגיש לספריות ומוסדות קטנים בחו"ל את הטכנולוגיה החדישה והיקרה ביותר של דיגיטציה איכותית של תמונות ומידע. הפרויקט מביא ציוד נייד אל ספריות וארכיונים קטנים ומאפשר להשתמש שם בטכנולוגיה, בלי להוציא את כתבי היד העתיקים מהספרייה. כך, כתבי היד השבריריים והפגיעים נחשפים לכמויות אור מינימליות ואינם נחשפים לאור רב, אשר עלול להזיק להם.

תוכן נגיש – פעילות "דורות", המחלקה היהודית בספרייה הציבורית של ניו יורק

פרויקטים שונים נעשים כדי להפוך את הטקסט לנגיש. לדוגמא, "דורות" – המחלקה היהודית של הספרייה הציבורית של ניו יורק עשתה לאחרונה דיגיטציה ל 11 כתבי יד עבריים ושני ספרים במהדורות מוקדמות. המסמכים – אשר נפרשים על פני תקופה של 400 שנה, מימי הביניים המאוחרים ועד  העת החדשה המוקדמת – מכסים נושאים כגון קבלה, ספרות, מחזאות, מדע, רפואה ופרשנות אודות פילוסופיה ואסטרולוגיה. באוסף יותר מ- 2000 דפים המתעדים את הלמדנות היהודית בתקופות עתיקות וניתן לגשת אליהם בגישה חופשית באתר של אוספי הספרייה הציבורית של ניו יורק.

האוסף כולל לדוגמא:

הדיגיטציה של כתבים קדומים היא עוד דרך לשמר ולהנגיש ידע קיים. היכולת לגשת אל כתבים אלו באופן חופשי ומכל מקום בעולם מאפשרת לחוקרים להעמיק את הידע שלהם באמצעות טקסטים ממקור ראשון.

 מאחר שמדובר בטקסטים הקשורים להיסטוריה היהודית, עותקים דיגיטליים נשלחו אל הספרייה הלאומית של ישראל ונמצאים עכשיו בספרייה הדיגיטלית הבינלאומית של כתבי יד עבריים.

 

 

מאגר המידע Compendex עובר מתיחת פנים

מאגר המידע הביבליוגרפי Compendex מספק גישה למידע מחקרי וטכני רב בכל תחומי ההנדסה. הוא כולל מיליוני ציטוטים ביבליוגרפים ותקצירים מתוך אלפי כתבי עת וכנסים.

בוובינר שהעבירה חברת  Elsevier פורטו השינויים שנעשו ב-2015 במאגר Compendex היושב על  פלטפורמת Engineering Village, בנוסף סופר מה צפוי להשתפר ולהשתנות ב Compendex ב- 2016.Ei comp png

עיקרי הדברים בוובינר:

מה נעשה ב-2015:

  1. שיתוף פעולה עם ProQuest בנוגע לתזות. 87,000 תזות הוספו ל Compendex – בנושאי הנדסה אזרחית, הנדסת חשמל והנדסת מכונות. התזות מ – 2001 עד עכשיו וימשיכו להתעדכן.
  2. 400,000 מאמרים מכנסים הוספו ל- Compendex, כולל 1000 כנסים שלא היו שם קודם כלל.
  3. נוספה לשונית בה ניתן לראות את הביבליוגרפיה של המאמר ולדעת אילו מראי מקום מופיעים בו.  כרגע מדובר רק על מאמרים שפורסמו מ- 2016 והלאה, אך הם מתכננים לחזור אחורה ולהוסיף זאת גם למאמרים ישנים יותר.
  4. נוספו 15,000 מאמרים של Society of Automotive Engineers) SAE). כעת יש במאגר כ- 103,000. המאמרים שהוספו הם בנושאי: מנועים, מטוס זעיר ללא טייס, דלקים, רכבים ועוד.

מאפיינים שנוספו לפלטפורמה:

  1. כעת ניתן לעשות העברה אוטומטית של המידע ל Mendeley, לעומת שמירת המידע כקובץ והעברה ידנית ל Mendeley.
  2. נעשו שינויים בהתראות\ALERTS
  3. נוספו Tutorials למשתמשים חדשים. כל סרטון עד  2-3 דקות.
  4. כשעוברים מחיפוש פשוט למתקדם המאגרים הנבחרים נשארים. בעבר היה צורך לבחור אותם מחדש.
  5. כותרות המאמרים הפכו ללחיצות, דבר שמקובל בעולם מאגרי המידע ולא היה ב- Engineering Village עד עכשיו.
  6. ניתן ליצור 10 תיקיות שונות לשמירת רשומות ביבליוגרפיות. מספר גדול יותר מבעבר (רק כשמחוברים למערכת)
  7. הפיכת האתר ליותר נגיש לבעלי מוגבלויות.

תוכניות ל-2016:

  1. יכולת לחפש מידע מספרי לא באותיות (מכיוון שבהנדסה יש הרבה מספרים, רישיונות, נתונים וכו').
  2. כרגע תזות הן רק משנת 2001, המטרה היא במהלך 2016 לחזור אחורה עד 1997.
  3. Knovel – המשך הקשר ושיפור מעבר המידע בין Knovel ל Engineering Village.
  4. שיפור החיפוש כך שיהיה מעבר קל יותר בין תוצאות החיפוש לחזרה לחיפוש עצמו.
  5. המשך שיפור הנגישות.

תוכלו לצפות בוובינר באתר של Engineering Village.  הצפייה מתאפשרת לאחר רישום ללא עלות ל-BrightTALK עלפי ההנחיות באתר.

ערכה ליצירת ארכיון תוכן ממדיה חברתית

הספריות של אוניברסיטת צפון קרוליינה פיתחו ערכה ליצירת ארכיון של מדיה חברתית. מטרת הערכה לעזור לארגונים של מורשת תרבות ליצור ולפתח אסטרטגיות לאיסוף מידע ממדיה חברתית, לצבור ידע על האופן בו מוסדות אחרים אוספים מידע ברשתות חברתיות, להבין איך חוקרים יכולים להשתמש בתוכן הנאסף מהמדיה החברתית, לנסות ולהעריך מה ההשלכות החוקיות והאתיות של איסוף ואכסון התוכן הנאסף ולפתח טכניקות להעשרת האוספים של תוכן ממדיה חברתית בעלויות מינימליות. הערכה מאגדת כלים לאיסוף מידע מטוויטר ואינסטגרםlogoNCSU

הרעיון מאחורי ערכת הארכיון של המדיה החברתית, כפי שבוטא בהודעה לעיתונות, הוא לאפשר לאסוף מידע בהתבסס על תגים, מיקום, תיעוד וכדומה. מדובר במידע שללא כלים אלו לא ייאסף ולא יקבל ביטוי במחקר. מדיה חברתית הפכה למקום בו אנשים מבטאים רעיונות ומתדיינים על אירועים. דברים שבעבר נעשו בתכתובת פיזית עברו אל המדיה החברתית. שיח אודות אומנות, אקדמיה, אקטיביזם פוליטי, העלאת מודעות ואינטראקציה אישית ומקצועית מתרחשים דרך מדיה חברתית. אלו דברים שיתכן והיסטוריונים ירצו להתייחס אליהם בעתיד. ללא ארכיון המידע יאבד מאחר ובניגוד לנייר, לא ניתן לאסוף אותו רטרואקטיבית.

החל משנת 2014 ועד נובמבר 2015 נאספו 1.2 מיליון ציוצים אשר משויכים למעל 380,000 חשבונות  291a93dטוויטר. בנוסף נאספו 29,000 תמונות ומידע נוסף מאינסטגרם המשויכים לכ-18,000 חשבונות. הספרנים העוסקים בפרויקט מעוניינים לעודד ספריות אחרות להשתמש בכלים ובאוספים לצרכי ארכיון המדיה החברתית של כל ספרייה.  מאחר ומדובר בסוג חדש של אוספים, הרי שאין עדיין פרקטיקות טובות או נכונות ביחס לחופש השימוש באוסף, שאלות אתיות וחוקיות ופרקטיקות אכסון, שימור ואחזור לטווח ארוך שספריות אחרות יוכלו ליישם מיד.

לקריאה נוספת