מאגר הפטנטים המשוחזר של פלשתינה א"י המנדטורית

השבוע הושלם באוניברסיטת תל אביב פרויקט מחקרי רחב היקף לשחזור מרשם הפטנטים שפעל בארץ ישראל בתקופת המנדט הבריטי. פרויקט זה זמין לכל דורש באתר האינטרנט "מאגר הפטנטים המשוחזר של פלשתינה א"י המנדטורית". מסד הנתונים מאפשר לעיין באופן מקוון בכל הפטנטים שנרשמו על ידי הממשל הבריטי בארץ ישראל בין 1924 לקום המדינה ב-1948, ומצטרף לפרויקט שחזור סימני מסחר (trademarks) מאותה תקופה.

הפרויקט הובל ע"י פרופ' מיכאל בירנהק מהפקולטה למשפטים יחד עם צוות של עוזרי ועוזרות מחקר, שאיתרו כ-4,395 בקשות לרישום פטנטים ממקורות שונים כדוגמת רשות הפטנטים במשרד המשפטים ופרסומים ברשומות בארץ ומעבר לים. המידע שלוקט עבר דיגיטציה והעשרה ברמת ה-Metadata (שם המבקש, כתובת, סוכן פטנטים, תאריכים).

לאחר סיום עבודת הליקוט פנה פרופ' בירנהק לספרייה כדי שתסייע בידו להנגיש את מסד הנתונים לקהל הרחב. כך נוצר שיתוף פעולה פורה בין הספרייה למדעי החברה והספרייה המרכזית, שבמסגרתו הונגשו כלל בקשות הפטנטים כרשומות בקטלוג הספריות.

איור מתוך בקשת פטנט למניעת הצטברות קרח במנגנון הרכישה של מכונות לממכר אוטומטי של גלידה באמצעות מטבעות (Application 3579, 19.7.1945)

בהתאם לצרכי הפרויקט נוצר ממשק חיפוש נפרד וייעודי  במערכת Primo VE תחת השם Mandat Palestine: Trademark and Patent Registries (1922-1948), אשר צורף לממשק של פרויקט סימני המסחר. ממשק זה מאפשר למשתמשים לגשת למסד הנתונים בנפרד ממסד הנתונים הכללי של הספריות. כך, לדוגמה, ניתן לחפש פטנטים הקשורים בשימור מיץ תפוזים מבלי שיכללו בתוצאות החיפוש גם ספרים או משאבים אלקטרוניים אחרים שעוסקים בנושא זה ואשר נמצאים ברשות הספרייה.

צוות המחקר איגד את שדות ה-Metadata שלוקטו עבור כל בקשת פטנט בתוך מבנה טבלאי. הבקשות הוטענו לעלמא על ידי צוותי הספריות, כאשר כל בקשה יוצגה כרשומה ביבליוגרפית נפרדת בממשק הייעודי. בשלב השני, לכל רשומה ביבליוגרפית הוצמדו קבצי בקשות הפטנט והוטענו לעלמא.

קבצי בקשות הפטנטים התקבלו מצוות המחקר בפורמט PDF שאינו מאפשר חיפוש בתוכן הבקשות. כדי לשפר את אפשרויות ההנגשה והחיפוש, צוות הספרייה הריץ אלגוריתם זיהוי תווים אופטי (OCR) על כלל הקבצים. אלגוריתם זה מאפשר להמיר מסמכים סרוקים למסמך תמליל ממוחשב ע"י זיהוי התווים המרכיבים את הטקסט. הטקסט שזוהה מהווה שכבה נוספת בתוך קבצי ה-PDF, כך שניתן לחפש ולהעתיק מכל בקשת פטנט. לאחר הרצת האלגוריתם על כלל הבקשות הופקו נתונים סטטיסטיים המעידים על דיוק של בין 87% ל-92% (פלטפורמת ה-OCR שנבחרה לצורך הפרויקט הינה של חברת ABBYY).

איור מתוך בקשת פטנט לשיפור בתא החימום של מקטרות טבק (Application 0180, 20.5.1931)

לאחר סיום תהליך זיהוי התווים על כלל בקשות הפטנט, הופקו, לראשונה במערכת הספריות, סיכומים שנוצרו בבינה מלאכותית עבור כל בקשה. בקצרה, פלט ה-OCR עבור כל בקשה נשלח דרך בקשת API למודל שפה גדול (LLM). מודל השפה, במקרה זה ג'מיני של גוגל, התבקש ליצור סיכום קצר של כל בקשה באמצעות ההנחיה (prompt) הבאה:

"This document is a historical patent application. You are tasked with summarizing it for the purpose of library cataloging. Please give me a summary of the following text up to 150 words. Do not include names of people or dates.”

לאחר מספר רב של בדיקות אוטומטיות וידניות שהעלו כי סיכומים אלו נאמנים למקור, סיכומי ה-AI הועלו לשדה Metadata ייעודי בכל בקשת פטנט. כך למעשה ניתן לחפש גם בתוך הטקסט של בקשות הפטנט, בשדות ה-Metadata ובסיכומי הבינה המלאכותית.

המאגר פתוח לעיון, למחקר, ולכל שימוש לא מסחרי. חוקרים וחוקרות מוזמנים לעיין ולחקור – יש במאגר פוטנציאל למחקרים מסוגים מגוונים, למשל מיקרו-היסטוריה על ממציאים או המצאות מסוימים, היסטוריה עסקית של תאגידים מסוימים או תעשיות מסוימות, מחקרים כלכליים וגיאו-פוליטיים, למשל על דפוסי הגירה מול נתוני הפטנטים וזהות המבקשים, מחקרים כלכליים על דיפוזיה של ידע, ומחקרים על השפעת המשפט על הנ"ל.

מוזמנים ומוזמנות להיכנס לממשק החיפוש הייעודי ולערוך חיפוש בפטנטים או בסימני מסחר, להגביל לפי מגיש הבקשה, שנים, וסננים נוספים.​

Pinpoint – עוזר המחקר מבית גוגל

 

 

 

גוגל הרחיבה לאחרונה את הגישה החופשית ל-Pinpoint גם עבור הקהילה האקדמית.

בקצרה, Pinpoint הוא כלי שנועד במקור לסייע לעיתונאים חוקרים בניתוח של גופים גדולים של מידע שמקורו במסמכים, טבלאות, מיילים, קבצי וידאו ואודיו (חשבו על הדלפות בסדר גודל של Enron או מסמכי הפנטגון בוויקיליקס).

כלי זה משלב את מנוע הבינה המלאכותית של גוגל באופן הבא:

  1. לאחר העלאת הקבצים המנוע של Google Document AI, שהוא אחד מכלי ה-OCR המתקדמים ביותר בשוק, מבצע זיהוי תווים אופטי; כך קבצי PDF שנסרקו כתמונה הופכים לחפישים. במקרה של קובץ אודיו או וידאו, מנוע התמלול של גוגל מתמלל את הנאמר, כולל תמיכה בשפה העברית (ניתן גם לתקן את המלל במקרה של טעויות). Pinpoint תומך גם בזיהוי כתב יד (HTR).
  2. לאחר שמסתיים תהליך העיבוד, ניתן לחפש בצורה חופשית בכלל המסמכים/תמלילים.
  3. במקביל, מנוע הבינה המלאכותית של גוגל מחלץ ישויות באופן אוטומטי מתוך המסמכים/תמלילים (NER). כלומר, אם המסמכים מכילים שמות של אנשים, ארגונים או מדינות, התוצאות יוצגו בהתאם בממשק בצורה מרוכזת.
  4. במקרה של טבלאות, ל-Pinpoint יש פונקציה מתקדמת לחילוץ Structured Data. כלומר, ניתן להמיר טבלאות ישירות לקבצי אקסל. הסרטון כאן מרחיב על פונקציה זו.
  5. Pinpoint כמובן הוא חלק אינטגרלי מהאקוסיסטם של גוגל. כלומר, ניתן לקשרו ל-Google Drive ולשתף מסמכים או אוספים עם משתמשי גוגל אחר.
  6. שילוב של Gemini ע"מ לתשאל מסמכים בשפה טבעית. פונקציה זו עדיין נמצאת בבטא, אבל היא מאפשרת סיכום של המסמכים או שאילת שאלות בשפה טבעית, בדומה ל-ChatGPT רק עם Gemini של גוגל.

בתרחישים אקדמיים, לכלי זה הפוטנציאל להוות One Stop Shop (חינמי בשלב זה) עבור פרויקטים מחקריים מסוגים שונים. בפשטות, ניתן להעלות חומרים מסוגים שונים (טקסט/אודיו/וידאו), לקבל OCR או תמלול, לתקן טעויות ולשתף עם משתתפים אחרים בפרויקט. אני באופן אישי ניסיתי אותו עם טקסטים היסטוריים בשפות שונות (ערבית/אנגלית/צרפתית), יחד עם קטע וידאו בעברית מערוץ ה-Youtube של הספרייה, וקיבלתי תוצאות מצוינות.

באופן כללי יותר, הכיוון של גוגל עם Pinpoint גם מצביע על הדרך אליה פונות תוכנות המיועדות לשוק האקדמי. רוצה לומר כלים לניהול בביבליוגרפי כדוגמת זוטרו או מנדלי לא יוכלו להמשיך ולספק רק ניהול הפניות, אלא ייאלצו לשלב גם יכולות OCR ובינה מלאכותית, אחרת יישארו מאחור.

 

אל Pinpoint ניתן להגיע דרך הקישור הבא (נדרש רישום חינמי):

https://journaliststudio.google.com/pinpoint/about/

סרטון הדרכה קצר:

https://youtu.be/Hn9xgSMxawg?si=mT1OwAygrZ_hQBe4

צילום מסך לדוגמה: