Google הודיעה היום על יוזמה לסרוק ולהעלות לרשת ארכיונים של עיתונים ברחבי העולם

מדובר ביוזמה שאפתנית מאד בקנה מידה עולמי. עד כה, החיפוש בארכיוני עיתונים רבים היה בעייתי במקרה הטוב ודרש לעתים ביקור בארכיון עצמו. בעיתונים שהעלו את כתבות העבר שלהם לרשת, המודל הנוכחי דורש תשלום תמורת צפייה, בניגוד להכנסות מפרסומות כמו במודל החדש.  טכנולוגית, העיתונים יסרקו באותה הטכנולוגיה בה משתמשים בגוגל לסרוק ספרים. העיתונים יועלו לרשת במה שנראה כצילום, אך ניתן יהיה לחפש בהם – כמובן – ומילות החיפוש יובלטו. נכון לעכשיו נסרקו הארכיונים של מספר עיתונים אמריקאיים וקנדיים. במסגרת התכנית תישא גוגל בעלות של מחשוב הארכיונים, בדומה לפרוייקט סריקת הספרים. העלאת הארכיונים לרשת תהיה תלויה בהסכמתם של מו"ליות העיתונים. מגוגל נמסר כי החברה תציב פרסומות טקסט לצד תוצאות החיפוש ותחלק את הכנסות הפרסום עם מו"ליות העיתונים. בתחילה הארכיונים יהיו זמינים רק דרך גוגל ניוז, אולם לאחר מכן יוכלו העיתונים להעלותם גם באתרי האינטרנט שלהם.

מקור:  Official Google blog post

Lalisio Literature – "החמור הקטן" האינטליגנטי והאמין שעושה את העבודה

Lalisio Literature הוא מנוע חיפוש שנועד בעיקר לקהילה האקדמית. מקור המילה Lalisio הוא בלטינית ופירושה "חמור קטן". מנוע החיפוש נקרא בשם זה כי המטרה שלה יועד היא להקל על המשתמשים את החיפוש ולעזור להם למצוא ביתר קלות את הספרות הדרושה להם למחקר, לספרות, להוראה וגם לשעות הפנאי.
מלאכה זו עושה המנוע בעיקר באמצעות מספר רב של הגבלות שמאפשרות לדלות את החומר המבוקש. ניתן לחפש על פי שלוש קטגוריות עיקריות: ספרים, Open Access ומאמרים. המנוע מנתח את תוצאות החיפוש ומארגן אוטומטית את מידע-העל (metadata) של תוצאות החיפוש על פי מספר קטגוריות כמו סוג מסמך, מילות מפתח, שנים, מחברים, פורמט, שפה ומו"ל ומציג למשתמש את תוצאות החיפוש על פי פרמטרים אלו – כאשר ליד כל אחד מהפרמטרים נרשם מספר התוצאות, ולמשתמש ניתנת האפשרות להגביל את החיפוש על פי בחירתו. באופן זה המשתמש יכול בקלות למקד את החיפוש בהתאם לצרכיו. מילות המפתח המוצעות מאפשרות למשתמש ליעל את החיפוש, להרחיבו או לצמצמו ולכוונו לכיוונים חדשים.

האוספים אותם מציע המנוע למשתמש הם תוצאה של שיתוף פעולה עם מספר ספקי מידע וחברות מסחר אלקטרוני, והם כוללים ספרים מ- AbeBooks ,Amazon ,Alibris eCampus ו-Powell's, מאגרי open access כמו ArXiv ו-PubMed Central וכתבי עת של IngentaConnect. על פי מה שמוצהר באתר היקף  האוספים מגיע למעלה מששה מיליון רשומות ביבליוגרפיות. כאשר בדקתי את המנוע גיליתי שאחד החסרונות שלו הוא שאין הוא תומך בחיפוש ביטוי ומחפש את כל אחד ממונחי החיפוש בנפרד. למרות זאת הצלחתי להגיע לתוצאות רצויות בזכות מילות המפתח הנוספות שהמנוע הציע לי שאיפשרו לי למקד את החיפוש. המנוע עדיין בשלב ביתא ובאתר משוב להערכה והצעות לשיפור. כבר בשלב זה בולט ייחודו של המנוע בזכות מיקוד החיפוש לטקסט חופשי ופרמטרים נוספים שמאפשרים למשתמש למקד את החיפוש ולהגיע לתוצאות רלוונטיות. אין ספק שבגרסתו הרשמית עם מספר אוספים גדול יותר והשבחת המערכת, מנוע זה יהווה כלי עזר חשוב לאקדמיה.

לאתר מנוע החיפושאודות המנוע
 

חדש בגוגל – השלמת מילים וביטויי חיפוש: Google Suggest

האם אי פעם הייתם בסיטואציה בה אתם מבקשים לחפש משהו אך פשוט לא יודעים איך? באיזה מילות חיפוש להשתמש על מנת לאתר את מבוקשכם? זה קורה כמעט לכל אחד, מדי פעם. גוגל בחרה להוסיף אפיון לחיפושים ב – google.com ולסייע בעניין.
 
גוגל השיקה כעת את Google Suggest. בעת הקלדה של מילה או ביטוי לחיפוש, הכלי מעלה באופן אוטומטי רשימה של שאילתות חיפוש אפשריות. אם אתם מוצאים את המילה או הביטוי המתארים את מה שאתם מחפשים, פשוט סמנו אותו והחיפוש יבוצע. בנוסף, תראו מצד ימין את כמות התוצאות עבור כל חיפוש, ואולי תפיקו מזה ערך מוסף במידה ויש לזה השפעה כלשהי על החלטתכם.  בקיצור,  מדובר באפיון המעלה הצעות לחיפוש בזמן אמת, במטרה להקל עליכם את המשימה.

יתרונות:
1. מידע חסר – נניח ואתם מעוניינים לאתר שיר אך אינכם זוכרים מי שר אותו או איך קוראים לו, אתם יכולים להקליד מילים מתוך השיר ולראות מה עולה.

2. חיפוש ממוקד – אתם טסים לחו"ל ומעוניינים למצוא מלון בוושינגטון. במקום לחפש      "hotels in Washington" באפשרותכם למקד את החיפוש ל: "hotels in washington dc", או "hotels in washington state".

3. הימנעות משגיאות כתיב – הכלי מבוסס על אותו בסיס נתונים ש"שואל" אתכם בעת החיפוש: "האם התכוונת ל…", ולכן הוא מאפשר לכם מראש, להימנע מטעויות כתיב באנגלית. דוגמא להקלדה שגויה של חיפוש "ניו יורק טיימס" (באנגלית) ותיקון הטעות על ידי כלי ההצעות.

4. חסכון בזמן – מי מעדיף להקליד: san francisco chronicle (באנגלית…) כשביכולתכם פשוט להקליד " … san f" והחסר יושלם בדרך אחרת?…

למידע נוסף על  Google Suggest 

כתבה בנושא זה שפורסמה ב – Ynet

קרדיט: SEO Simple 

הדילמה של גוגל

 לכל מי ששולט במנועי חיפוש יש השפעה עצומה על גולשי האינטרנט. מנועי  החיפוש ומי שעומד מאחוריהם יכולים לעצב את מה שאנחנו נקרא ונשמע ולהחליט את מי להשמיע.

אין ספק שנכון להיום גוגל הוא מנוע החיפוש  המוביל. לכן,  אין זה מפתיע שיחידים, חברות ואפילו ממשלות מנסים להשפיע על תוצאות החיפוש בו  על מנת להתאים אותן למטרותיהם.    

דוגמה בולטת היא המונח: Jew

בשנת 2004 התוצאה הראשונה  שהתקבלה בחיפוש מונח  זה  היה  האתר  jewwatch.com שמציג את עצמו כ"נווה-מדבר של חדשות לאמריקאים אשר סובלים עכשיו מהצנזורה מעוררת  השנאה של הכיבוש הציוני" ומכיל מגוון רחב ביותר של תוכן אנטישמי. פעיל יהודי,  שהיה מודאג ממיקומו  הראשון של אתר זה  בגוגל, ביקש מ גולשים  מכל העולם לקשר את המילה Jew למאמר בויקיפדיה , שהיה ממוקם במקום השני . למרות ניסיונות של ארגונים ניאו-נאצים להריץ מחדש את Jew Watch  ,  כיום ויקיפדיה מובילה בתוצאות.

ניסיונות שליטה בתוצאות מנועי החיפוש היו תמיד, אך המקרה של jew הוא חריג ,  כי בפעם הראשונה  ניסיון כזה הוביל לתגובה של גוגל,  שהוסיפה  הערת  Offensive Search Results   לאתר.  גוגל היתה  יכולה   להוריד את  Jew Watch מהתוצאות בקלות,  אבל זה לא מה שהם עשו. גוגל  אינה מתערבת בתוצאות באופן עקבי,  לעומת יאהו שמחזיקה  אלפי עובדים ומתנדבים על מנת לעבור על האתרים ולקטלג ולמיין אותם.

התגובה של גוגל אומרת: אל תאשימו אותנו,  האשימו את המחשב. אבל האם זה נכון? הרי מתכנתיה  מחילים  על  המנוע   שורה של קריטריונים  כגון, כל קישור מ-weblog שווה מספר x של נקודות, דפים שגילם פחות משבוע מקבלים 10% בונוס. בשורה התחתונה , עובדי גוגל מעדיפים שתוצאות החיפוש ישקפו את העדיפויות של הגולש,   והם משפרים כל הזמן את האלגוריתמים על מנת לספק  לו תוצאות רלוונטיות. לגוגל יש את  האופציה לעצב תוצאות ולהעדיף אתרים ומסוימים על פני אחרים ,  וזאת  בעצם הדילמה  שעומדת בפניה. 

למאמר  James Grimmelmann, The Google Dilemma

חדש בגוגל – הצצה אל "מאחורי הקלעים" של התאמת תוצאות החיפוש למשתמש

לא אחת אנו שומעים וקוראים דברים בנימה של תרעומת, טרוניה ואפילו אזהרה על כך ש"גוגל יודעת עלינו הכל", ופוגעת בפרטיות בכך שהיא שומרת את ההיסטוריה של החיפושים בשרתים שלה.
כנראה שהתשובה של גוגל לכך, הפעם, היא במאפיין חדש שיעלה בימים הקרובים בצורת הודעה במנשק תוצאות החיפוש בדבר התאמת תוצאות החיפוש למשתמש, שאמורה לסייע למשתמש להבין כיצד תוצאות החיפוש הותאמו לצורכי המידע שלו. מאפיין זה מבליט את הפן החיובי של שמירת הפרטים שלנו וההיסטוריה של החיפושים, שכן באמצעותם גוגל משתדלת להתאים את תוצאות החיפוש לצרכיו של המשתמש ולשפר את הרלוונטיות של תוצאות החיפוש.
גוגול חושפת בימים אלו את הגורמים העיקריים הנלקחים בחשבון בהתאמת תוצאות החיפוש למשתמש והם:
המיקום הגיאוגרפי של המשתמש – גוגל מזהה את המיקום של המשתמש על פי כתובת ה-IP של המשתמש. המיקום משמש לא רק להתאמת תוצאות החיפוש אלא גם לשירותים אחרים של גוגל כמו שירות המפות של גוגל ויישומים נוספים. משתמש בעל חשבון בגוגל יכול להגדיר מיקום שונה למטרה זו.
חיפושים קודמים – גוגל מנסה להתאים את תוצאות החיפוש של המשתמש לצורכי המידע שלו על פי חיפושים קודמים, ולא משנה אם המשתמש נמצא בחשבון האישי שלו או לא. גוגל עושה זאת על ידי שמירת החיפוש האחרון של המשתמש בדפדפן לזמן מה. לאחר מכן המידע מוסר מהדפדפן ונעלם ברגע שסוגרים את הדפדפן.
• "היסטוריית אינטרנט" – Web history של המשתמש – אם המשתמש נמצא בתוך החשבון האישי שלו בגוגל והפונקציה של ההיסטוריה של החיפושים מופעלת, תוצאות החיפוש מותאמות בהתאם לחיפושי המשתמש בעבר. הפונקציה "היסטוריית אינטרנט" היא בשליטתו של המשתמש. הוא יכול להסיר ממנה פרטים מסוימים או לנטרלה בכל עת. אם המשתמש מעוניין לקבל חיפושים ללא התאמה אישית, כל שעליו לעשות הוא לערוך את החיפוש ללא כניסה לחשבונו האישי.

כמובן שהמאפיין החדש אינו משנה דבר בתוצאות החיפוש, אך הוא מהווה צעד חשוב מבחינת מחויבותה של גוגל לחשוף למשתמש את  אופן פעילות המערכת מאחורי הקלעים.

לכתבה המלאה על המאפיין החדש
לכתבה נוספת על אופן השימוש של גוגל במידע על המשתמשים
מדיניות שמירת הפרטיות של גוגל

בדיקה ראשונה: מנוע התשובות הסמנטי True Knowledge

חברת TrueKnowlege, שהוקמה ב-2007, השיקה לאחרונה גרסת בטא של מנוע-שאלות סמנטי באותו השם. "מנוע חיפוש סמנטי" -מה זה אומר? מדובר במנוע חיפוש שעושה שימוש בכמות מרשימה של ידע בלשני לשם "הבנה" של הטקסט, דבר שאמור לאפשר חיפוש חכם שחורג מעבר לאיתור מילות המפתח שהקליד המשתמש. תחום החיפוש הסמנטי – היכולת להקיש שאילתה שמנוע החיפוש יבין את הקשר בין חלקיה ויציג את המידע שביקש המשתמש – הוא אחד מתחומי הפיתוח החמים ביותר כיום. חשוב לציין שהשירות עדיין בביטא, וכדי להשתמש בו יש להרשם.

לסקירה המליאה ב"כלכליסט"

כתובת מנוע החיפוש  True Knowledge

Hakia – מנוע חיפוש סמנטי מסוג אחר, והשימוש בשירות BOSS של Yahoo

מנוע החיפוש Hakia מוגדר על ידי מפתחיו כמנוע סמנטי כללי ששם לו למטרה לאחזר תוצאות איכותיות באמצעות טכנולוגיה סמנטית. תוצאות איכותיות על פי התיעוד באתר עונות על הקריטריונים הבאים:
• מקורות מהימנים סמכותיים מומלצים על ידי ספרנים
• כוללים מידע מעודכן
• ורלוונטיים לשאילתה
תוצאות רלוונטיות כאלה משתדל המנוע להשיג באמצעות טכנולוגיה סמנטית כלומר טכנולוגיה שמאפשרת הבנה סמנטית של דפי ה-Web. 

בפוסט קודם, בהסתמך על כתבה מ-Themarker מ- 15.5.2008, תיארתי מנוע סמנטי אחר – Powerset אשר בניגוד למנועי החיפוש המסורתיים שמתייחסים אל דפי ה-Web כאסופת מלים, מנוע חיפוש זה מייצר ייצוג סמנטי של הדף על ידי ניתוח כל משפט המופיע בו, והבנת המשמעות שלו. באופן זה המנוע יכול לתת בתוצאות החיפוש אוסף של עובדות הקשורות לשאילתה, לתמצת את המידע, ולספק תשובות ישירות לשאלות עובדתיות. אלא שעל פי דברי האנליסט גרג סטרלינג מחברת Sterling Market Intelligence “אין ספק שיש כאן פוטנציאל, אבל ליישם את מה ש Powerset עשתה על הרשת כולה הוא אתגר עצום שיצריך זמן רב ומשאבים עצומים”. ואכן Powerset הצטמצם בחיפושים בוויקיפדיה. 

Hakia שקדם ל-Powerset מבחינה כרונולוגית, אימץ לו טכנולוגיה מיוחדת שבאה להתמודד עם בעיה זו. הוא מצא לו דרך חדשה לאחסון דפי Web לצורך אחזורם – שנקראת QDEX – Query Detection and Extraction. שיטה חדשה זו מחליפה את השיטה המקובלת ליצירת אינדקס. על פי השיטה המקובלת ליצירת אינדקס שמכונה קובץ מהופך –inverted file – האינדקס כולל את המונחים המופיעים בטקסט, ומצביעים אל מונחים אלה מהווים בתהליך אחזור המידע שערי גישה למסמכים. אם נשתמש בשיטת הקובץ המהופך גם להוספת קשרים סמנטיים ייווצר מבנה שיכביד מאוד על הביצועים. בשיטה החדשה של מנוע החיפוש Hakia, לעומת זאת, שערי הגישה לדפי ה-Web אינם מצביעים למלים אלא לשאילתות. המנוע מנתח באמצעות אלגוריתם מתוחכם את כל השאילתות האפשריות בדפי ה- Web והשאילתות מהוות שערי גישה לדפי ה- Web. באופן זה בעת אחזור המידע המנוע עובד על סטים קטנים יחסית של דפי Web ורק עליהם הוא מבצע את הניתוח הסמנטי. בכך נפתרת בעיית המשאבים הרבים שנדרשים לביצוע ניתוח סמנטי על מספר רב של דפים. על פי התיעוד באתר ביצוע הניתוח הסמנטי ודרוג התוצאות מתבצע באמצעות אלגוריתם מתוחכם שעושה שימוש גם באונטולוגיות.

ב-10 ביולי 2008 צוות מנוע החיפוש Hakia הודיע שהוא ישתמש בשירות החיפוש החדש שמציעה Boss – Yahoo. שירות חדש זה של Yahoo מאפשר למפתחים להשתמש בתוצאות החיפוש של Yahoo, לשלבם עם נתונים ממקורות אחרים, לדרג אותם מחדש ולהציגם באופן שונה. צוות Hakia מתכוון באמצעות השימוש בשירות זה של Yahoo להשתמש בתוצאות החיפוש של Yahoo ולהפעיל עליהם את הטכנולוגיה שלו לאחר סינון התוצאות. שיתוף פעולה זה אמור לשפר את המערכת כי הוא למעשה מאפשר ל-Hakia שימוש במאגר ובתשתיות של Yahoo. 
שיתוף פעולה זה הוא במסגרת הפתיחות של מנועי החיפוש הגדולים לחידושים. גם רכישת Powerset על ידי Microsoft היא במסגרת מגמה זו שיש לברך עליה. 

מנוע החיפוש Hakia נמצא עדיין בשלב ביתא. אשר לביצועיו – מבדיקת המנוע היום עולה שהמנוע תומך גם בעברית והתוצאות לשאילתות שבדקתי היו בדרך כלל טובות, ובד"כ הכותר בראש כל תוצאה היה אינפורמטיבי כך שהיה קל לדעת במה היא עוסקת. למונחים שגויים בשאילתה באנגלית המנוע מציע הצעות למונח הנכון. כדאי לנסות. .

אל אתר מנוע החיפוש
להודעה של צוות Hakia על השימוש בשירות BOSS של Yahoo

Amit Singhal על הפילוסופיה מאחורי שיטת דרוג תוצאות החיפוש של גוגל

Amit Singhal העומד בראש הצוות שעוסק בפתוח שיטת דרוג התוצאות בגוגל, כתב בתאריך 9.7.2008 פוסט בנושא, ובו שם את הדגש על ההיבט הפילוסופי של השיטה.
שיטת דרוג התוצאות בגוגל מורכבת מאוסף של אלגוריתמים שמטרתם למצוא את החומר הרלוונטי ביותר לשאילתה מסוימת. האלגוריתמים בהם נעשה שימוש בחיפוש הרגיל בגוגל מיושמים בשינויים קלים גם בשירותים אחרים של Google כמו תמונות, חדשות, מפות, ספרים ועוד.
שלושה עקרונות עיקריים עומדים מאחורי שיטת הדירוג:
1. שאיפה לרלוונטיות של תוצאות בכל ארץ ובכל שפה
2. פשטות
3. העדר התערבות ידנית

אשר לעיקרון הראשון – השאיפה היא שכל משתמש בכל שפה ובכל ארץ יקבל את התוצאות הרלוונטיות ביותר, מה שמכונה לעתים "no query left behind". כל שאילתה שמניבה תוצאות לא רלוונטיות מדרבנת את הצוות להכניס שיפורים עתידיים.

אשר לעיקרון השני – גוגל משתדלת לשמור על פשטות מבלי להתפשר על איכות התוצאות. פשטות זו מאפשרת למהנדסי התוכנה של גוגל להבין בדיוק מדוע דף מסוים דורג באופן בו הוא דורג בתשובה לשאילתה מסוימת, והבנה זו מאפשרת את שיפור המערכת. במסגרת מאמץ מתמשך זה נעשים מדי שבוע כעשרה שינויים בתחום דרוג התוצאות.

אשר לעיקרון השלישי – גוגל דבקה בעיקרון של אי התערבות ידנית בדרוג התוצאות משתי סיבות:
א. גוגל מאמינה שה-Web נוצר על ידי אנשים שיוצרים דפים וקישורים לדפים. גוגל משתמשת בתרומה אנושית זו של קהיליית האינטרנט באלגוריתמים שלה ואינה מתערבת ידנית בדרוג התוצאות, שכן כל התערבות תהיה סובייקטיבית. גוגל מאמינה שהידע של קהיליית האינטרנט שבא לידי ביטוי בדפי ה-Web והקישורים שבהם טובה מכל החלטה והתערבות סובייקטיבית.
ב. לעתים בעיה בתוצאות שאילתה מסוימת כרוכה בבעיה כללית, ופתרונה על ידי שיפור האלגוריתמים תפתור לא רק את הבעיה בשאילתה מסוימת זו, אלא גם בעיות אפשריות בשאילתות אחרות ולעתים בכל השפות.
יחד עם זאת יש לזכור שלגוגל מדיניות כתובה בכל הקשור לאיכות אתרים והיא באה לידי ביטוי בתוצאות החיפוש.

לכתבה המקורית

WikiSlice – מנוע ייעודי לחיפוש בוויקיפדיה

WikiSlice מאפשר חיפוש יעיל בוויקיפדיה האנגלית. הוא מאפשר יצירת אשכולות נושאיים. כאשר נחפש נושא מסוים נקבל את כל הדפים בוויקיפדיה הקשורים לאותו נושא. בסרגל צדדי מוצגים כל תתי הנושאים הקשורים לנושא. ניתן לחפש באותם דפים שמהווים נתח נושאי מהוויקיפדיה. ניתן גם להוריד את כל הדפים הקשורים לנושאים/תתי נושאים השונים בתנאי שמספר הדפים באשכול אינו עולה על 1000. במסך התוצאות מוצגים בצורת ענן תגיות דפים הקשורים לנושא שנבחרו באקראי. כמו כן בסרגל צדדי מוצגים "נתחים" נושאיים קרובים.
מאפיינים אלה הופכים את החיפוש בוויקיפדיה ליעיל יותר.
כך למשל חיפוש במנוע החיפוש בוויקיפדיה בנושא open access מציג  את הערך המרכזי בנושא בלבד, לעומת זאת חיפוש ב- Wikislice הניב 44 דפים שקשורים לנושא – בראשם הדף שכולל את הערך המרכזי בוויקיפדיה בנושא, ודפים נוספים שכוללים ערכים בנושאים רלוונטיים לנושא כמו:
Open access journal ,Open access publishing ,Public Library of Science, Institutional repository ועוד.. במסך התוצאות מוצגת פסקה או כמה פסקאות פותחות של כל אחד מהערכים. לחיצה על more תציג  את הערך המלא. כמובן שהמאפיינים הנוספים שהוזכרו לעיל מייעלים עוד יותר את החיפוש. מבחינה זאת מנוע זה מצטרף למנוע הסמנטי powerset שבשלב זה מצטמצם לחיפוש בוויקיפדיה.

קישור לאתר המנוע
אודות המנוע ושאלות נפוצות

MetaGlossary – מנוע-על להגדרת מונחים

 MetaGlossary הוא מנוע–על ייעודי ברוח ה- Web2 להגדרת מונחים. ההגדרות נלקחות מה-Web עם קישורים למקור. מסממני ה-Web2 – למשתמש אפשרות להוסיף הגדרות למאגר ההגדרות ולהביע דעתו על ההגדרות המתקבלות, כמו כן הוא יכול ליצור חשבון אישי ולהכניס את ההגדרות המתקבלות לקטגוריות משלו. ליד כל הגדרה יש אופציה לשלוח אותה במייל או לשמור אותה בclipboard- (שטח זיכרון לאחסון זמני) לצורך הדבקתה ביישום כלשהו. הכלי שמבוסס על ה-Web מתאפיין באופיו הדינמי. כיום המנוע עדיין בגרסת ביתא ועל פי מה שמוצהר באתר הוא מכסה למעלה מ-2 מיליון מונחים, ביטויים וראשי תיבות.
בדקתי את הכלי בהשוואה לאופציה לחיפוש מונחים בגוגל. כידוע, בגוגל ניתן לקבל הגדרות למונחים על ידי שימוש באסטרטגית החיפוש –  define:מונח . כך למשל על ידי שימוש באסטרטגיית החיפוש Define:xml ניתן לקבל הגדרות למונח xml . מהבדיקה שערכתי עולה שהיתרון הבולט של MetaGlossary על פני גוגל הוא הצגת המונחים מסווגים על פי המשמעויות השונות של המונח. כך למשל חיפוש המונח Ajax הניב 39 הגדרות מסווגות על פי ארבע משמעויות שונות של המונח. לעומת זאת חיפוש המונח Ajax בגוגל תוך שימוש באסטרטגיית החיפוש define: Ajax הניב 37 תוצאות שונות ברשימה אחת לא מסווגת. כמובן שסיווג ההגדרות של המונח על פי המשמעויות השונות של המונח מהווה יתרון מבחינת השימושיות. ההגדרות בשני המנועים לא חופפות בדרך כלל כך ששני המנועים יכולים מבחינה זאת להשלים זה את זה.

לאתר מנוע החיפוש
אודות המנוע
AltSearchEngines על המנוע

מי יהיו המתחרות הגדולות של גוגל בעוד 5 שנים?

אלן ווינר בסקירה של אלן ווינר, אנליסט בחברת המחקר גרטנר, נבחנים המתחרים הפוטנציאליים  של גוגל בשנת 2013.  להערכתו  גוגל יודעת יותר מדי דברים על הגולש וזה עשוי להיות החיסרון שלה.

לכתבה המלאה שפורסמה היום  ב"גלובס"

ARROW Discovery Service – שירות חיפוש במאגרי המחקר המוסדיים של האוניברסיטאות באוסטרליה

ליותר ממחצית האוניברסיטאות באוסטרליה מאגרי מחקר מוסדיים (Institutional Repositories) וקרוב לודאי שתוך שנתיים כל האוניברסיטאות באוסטרליה יקימו מאגרי מחקר מוסדיים. כל חוקר מפקיד במאגר עותק דיגיטלי של עבודתו ומידע מתאר. באופן זה מאגרי המחקר מאפשרים לחוקרים להפוך את מחקריהם לנחלת הציבור ושני הצדדים יוצאים נשכרים.
ARROW – Australian research repositories Online to the World – הוא פרויקט לאומי בחסותו של משרד החינוך באוסטרליה ששם לו למטרה לאפשר בצורה אופטימלית את השימוש במאגרים אלה. במסגרתו פותח מנוע חיפוש שמחפש סימולטנית בכל המאגרים. שירות חיפוש זה ARROW Discovery Service מסופק על ידי הספרייה הלאומית של אוסטרליה והוא מאפשר כיום חיפוש ב- 161,790 פריטים – כולל תיזות, מאמרים, פרקים מספרים, תמונות וקטעי מוסיקה. לרוב פריטי המידע המאוחזרים עותק דיגיטלי מלא.
באופן זה שירות זה מהווה מקור נוסף לאיתור חומר איכותי בטקסט מלא.

לשירות החיפוש
מידע על ARROW
קישור ל- OpenDOAR – מדריך כללי למאגרי מחקר מוסדיים

TinEye – מנוע חדש לחיפוש תמונות, מסוג אחר

TinEye הוא מנוע לחיפוש תמונות באופן שונה. מספקים למנוע תמונה מסוימת והמנוע אמור לאתר את כל האתרים ב-Web בהם נמצאת התמונה, גם אם עברה שינוי או ליטוש כלשהו באמצעות תוכנה גרפית כמו חיתוך, שינוי צבע, קול ועוד. מנוע חיפוש זה משתמש בטכנולוגית זיהוי מיוחדת ומאחוריו עומד אלגוריתם מתוחכם של זיהוי תבניות (pattern recognition) ללא שימוש בסימני מים (watermarks ) או במטא-נתונים (metadata). המנוע מנתח את התמונה שסופקה לו יוצר מעין "טביעת אצבעות" דיגיטלית לתמונה ומשווה אותה ל"טביעות האצבעות" של התמונות שבאינדקס שלו. כיום האינדקס שלו כולל כ-487 מיליון תמונות מה-Web. ככל שהאינדקס שלו יגדל הביצועים שלו ישתפרו.
האלגוריתם פותח על ידי חברה בטורונטו בשם Idée שהציעה את השירות לסוכנויות חדשות כדי לגלות אם נעשה שימוש בתצלומים שלהם בעיתון או במגזין כלשהו.
מנוע חיפוש מסוג זה יש בו כדי להרתיע מביצוע עבירות כמו הצגת תמונות לא אמיתיות ברשתות חברתיות והפרת זכויות קניין רוחני וזכויות יוצרים. יש להניח שהוא יעודד אימוץ תמונות מורשות על ידי ה-creative commons . המנוע נמצא עדיין בשלב ביתא ויש להירשם כדי לקבל הזמנה להשתמש בו. נרשמתי וקבלתי הודעה שאני נמצאת ברשימת המתנה, כך שלא יכולתי להעריך אותו אבל מהודעות שקראתי ב-Web של משתמשים שניסו אותו הוא עובד היטב….

כתבה ב-TechCrunch בנושא

ראיון בנושא

כלים אקדמיים לחיפוש מידע כנגד "אפקט גוגל"

כתבה ב- EducationGuardian.co.uk בשם Academia's big guns fight Google effect מתמקדת בסקירת כלים אקדמיים לחיפוש מידע שממומנים ברובם על ידי JISC
(Joint Information Systems Committee).
בכתבה נסקרים כמה כלים שיכולים להיות שימושיים כמו Intute שירות חופשי של רשת האוניברסיטאות באנגליה שמספק גישה למקורות מידע איכותיים מבוקרים בטקסט מלא. המקורות מתחומי מחקר שונים: אומנויות, מדעי החיים ורפואה, טכנולוגיה ומדעי החברה.
כמו כן מאוזכרים בכתבה אתרי מו"לים אקדמיים שחלקם תומכים בגישת ה-OpenAccess כמו Blackwell Synergy.
כלים אקדמיים לחיפוש מידע יכולים לתרום למלחמה בנטייה לבינוניות שכונתה על ידי Tara Brabazon במאמרה The Google Effect: Googling, Blogging, Wikis and the Flattening of Expertise – "אפקט גוגל". אלא שלעתים כלים אלה אינם ידידותיים למשתמש ובכך חסרונם. הקטלוגים של הספריות האוניברסיטאיות, במיוחד, סופגים בקורת על היותם קשים לניווט, ונראה שלכל אלה ששוקדים על הנגשת חומר איכותי לסטודנטים יש מה ללמוד מאתרים כמו אמזון -אתר שמאפשר עיון בספרים, מספק חוות דעת של קוראים על הספרים והצעות לספרים דומים בנושא.

קרדיט לד"ר אריאל פרנק שהפנה את תשומת לבי לכתבה

לכתבה המלאה

איתור חוקרים בתחום מחקר מסוים ועמיתים למחקר – ResearcherID – מאפיינים חדשים

ResearcherID הוא אתר שירות של Thomson Scientific שמהווה למעשה קהיליית מחקר רב-תחומית. חוקרים יכולים להירשם באתר, ולכל אחד מהחברים יש מזהה אלפאנומירי ייחודי שכולל בתוכו גם את שנת הרישום, ופרופיל שכולל פרטים כמו: תחומי עיסוק, מוסד ועוד שמתעדכן על ידי החוקר. החוקר יכול ליצור את רשימת הפרסומים שלו תוך שימוש בWeb of Sciences- או להעלות קובץ משלו. כמו כן הוא רשאי לבחור לשמור את הפרופיל שלו כפרטי או כציבורי. השירות מאפשר לחוקר לקבל נתונים סטטיסטיים על רשימת הפרסומים שהעלה לאתר מה-Web of Sciences. הנתונים כוללים התפלגות הציטוטים על פי שנים, מספר ממוצע של ציטוטים לכל אחד מהפריטים ברשימה ו- h-index

לאחרונה נוספו לשירות זה מספר מאפיינים חדשים שמספקים לחוקרים כמה כלים סטטיסטיים ויזואליים שמתבססים על רשימת הפרסומים שלהם שנוספו מה-Web of Science
· Citing Articles Network – רשת מאמרים מצוטטים בעזרתה החוקר יכול לראות מי המחברים שהרבו לצטט את מאמריו (20 מחברים) . רשת המאמרים המצוטטים מוצגת גם על פי קטגוריות, ארצות,מוסדות ושנים.
· Collaboration Network – רשת שיתוף פעולה שמציגה את עמיתיו בתחום של החוקר,  מרחבי העולם כולו (20 מחברים שעומדים בראש רשימת השותפים למחקרים שלו). רשת שיתוף הפעולה מוצגת גם על פי קטגוריות, ארצות,מוסדות.
הכלי חשוב לחוקרים כי מעבר לנתונים הסטטיסטיים ואיתור עמיתים לתחום הוא משמש לחוקרים הרשומים גם במה להכרה ואמצעי לקידום .

כל משתמש, גם מי שאינו רשום לאתר יכול לראות את אותו מידע סטטיסטי שתואר לעיל, בתנאי שזה הוגדר על ידי החוקרים המנויים על השירות, כציבורי . מידע שהוגדר כפרטי לא יוצג.
באופן זה כלי זה הוא מקור טוב לחפש חוקרים בתחומי מחקר שונים, לראות את הפרופיל שלהם כפי שהוגדר על ידם, ולגלות עמיתים פוטנציאליים. שדות החיפוש האפשריים הם מלות מפתח, מוסד, שם או מספר מזהה. ניתן גם לבחור באחד מנושאי המחקר המוצגים בסרגל צדדי כדי לקבל רשימות חוקרים בתחום.
פיתוח זה הוא ברוח המגמה לכרית מידע שימושי ממאגרי מידע. דוגמה נוספת במסגרת מגמה זו הוא היישום Authoratory.com שכורה מידע מה-Pubmed ובכך מאפשר אף הוא לאתר מחברים מרכזיים ובולטים, והפעם בתחום ביו-רפואי מסוים.
קישור לדף שאלות נפוצות של האתר

דוגמאות  לנתונים סטטיסטיים שניתן לראות באתר:
נתונים סטטיסטיים על רשימת הפרסומים
נתונים סטטיסטיים מרשת שיתוף הפעולה
נתונים סטטיסטיים מרשת המאמרים המצוטטים

מידע כללי על המאפיינים החדשים
  

מיקרוסופט נוטשת את מיזם סריקת הספרים

 
בצעד שנועד אולי להוכיח את קיומה של אסטרטגיה ברורה בתחום החיפוש, מיקרוסופט נוטשת את מיזם הסריקה וחיפוש בספרי דפוס. מיקרוסופט תסגור בשבוע הבא את שני האתרים הנפרדים לספרים ומאמרים אקדמיים, ומנוע החיפוש של החברה, יפנה לאתרי תוכן ספרים אחרים.

לידיעה שהתפרסמה ב – Ynet 

לידיעה שהתפרסמה בבלוג Live Search

מנוע החיפוש של הסטארט-אפ Powerset הוא מנוע חיפוש מסוג אחר – האם יתחרה בגוגל?

כתבה מ- TheMarker מ-15.5.2008.

Powerset השיקה השבוע גרסה ניסיונית של מנוע חיפוש חדשני שמשתמש בטכניקות חיפוש מתקדמות, שמאפשרות הבנה סמנטית של דפי ה-Web. מנועי החיפוש המסורתיים, כולל גוגל משתמשים בשיטת החיפוש הקונבנציונלית שמתייחסת אל דפי ה-Web כאסופת מלים. בניגוד למנועי החיפוש המסורתיים מנוע חיפוש זה הוא מנוע חיפוש סמנטי אשר מייצר ייצוג סמנטי של הדף על ידי ניתוח כל משפט המופיע בו, והבנת המשמעות שלו. באופן זה המנוע יכול לתת בתוצאות החיפוש אוסף של עובדות הקשורות לשאילתה, לתמצת את המידע, ולספק תשובות ישירות לשאלות עובדתיות.
האם בזכות שיטת החיפוש יוכל מנוע החיפוש של Powerset להתחרות בגוגל? היתרון העצום של גוגל בנוסף לאלגוריתם המתוחכם שלו הוא האינדקס העצום שלו . על פי דברי מריסה מאייר, סגנית נשיא בגוגל האחראית על מוצרי החיפוש וחוויית משתמש, "עם כמויות מידע כל כך גדולות, בסופו של דבר מתקבלות תוצאות שנראות אינטליגנטיות, למרות שהן נאספו באמצעות כוח-גס ותו לא".
האינדקס של Powerset לעומת זו מוגבל ביותר, וכולל רק כמיליון דפים מוויקיפדיה וממסד הנתונים האינטרנטי Metaweb Technologies' Freebase. עם זאת, מנהל המוצר של Powerset סקוט פרווסט מבטיח שהאינדקס יתחיל לגדול בתוך חודש מרגע ההשקה, ובסופו של דבר יוכל להתחרות מבחינת גודלו מול גוגל, יאהו ואחרים.
בעתיד Powerset תצטרך להוכיח שמנוע החיפוש שלה יכול להתמודד עם אינדקס של מיליארדים רבים של דפי אינטרנט, ולשרת מיליוני משתמשים במקביל. "אין ספק שיש כאן פוטנציאל, אבל ליישם את מה ש-Powerset עשתה על הרשת כולה הוא אתגר עצום שיצריך זמן רב ומשאבים עצומים",אומר האנליסט גרג סטרלינג מחברת Sterling .Market Intelligence
אשר לגוגל אין ספק שהיא שוקדת על פיתוח טכנולוגיות סמנטיות ומנוע החיפוש שלה יהיה בעתיד חלק מה- Web הסמנטי . מי יקדים את מי? ימים יגידו…

ובינתיים, כדאי להשתמש במנוע חדש וחדשני זה לחיפוש מאמרים מה-wikipedia

לכתבה המלאה ב-TheMarker
קרדיט לד"ר אריאל פרנק שהפנה את תשומת לבי לכתבה

שימוש חינם בתכנים ויצירות באינטרנט, שיתופם ושינוים מבלי להסתכן בתביעה משפטית– היכן נחפש?

לא אחת המשתמש רוצה להעתיק גרפיקה מהרשת, להפיץ מחדש מאמר, אודיו או וידאו או לשלב קטעים מסוימים מתוך יצירה באינטרנט ביצירה חדשה שלו, ואין הוא יודע אם לא יהיה בכך עבירה על חוק זכויות יוצרים.
לא אחת יוצר רוצה להפיץ את יצירתו ולקבוע בעצמו אילו שימושים ביצירה יהיו מותרים לציבור ובאילו תנאים?

על כל אלה בא רשיון זכויות היוצרים הגמיש ה-Creative Commons (מתחמים ציבוריים של יצירה) לענות. על פי רשיון זה יכול יוצר לקבוע אילו שימושים הוא מתיר לציבור לעשות ביצירתו, ואילו המשתמש יכול לדעת אילו יצירות ניתנות להעתקה, שינוי והפצה מחודשת חינם בהתאם למגבלות שנקבעו ברשיון על ידי בעל היצירה.

היכן נחפש תכנים ויצירות אלה? במנשק המתקדם של Google למשל, בשדה "זכויות שימוש" ניתן להגביל את התכנים על פי זכויות היוצרים שהוענקו להם על ידי בעליהם – לשימוש או לשיתוף בחינם, לשימוש או לשיתוף בחינם גם באופן מסחרי, לשיתוף או לשינוי בחינם, לשיתוף או לשינוי בחינם גם באופן מסחרי.


מספר אתרים נוספים בהם ניתן לעשות שימוש דומה הם:

http://search.creativecommons.org/
http://www.flickr.com/search/advanced/
http://search.yahoo.com/cc

אין ספק שהיוזמה לרשיון גמיש מסוג זה שראשיתה בשנת 2002 חשובה, שכן היא מעודדת הפצה של תכנים חוקיים באינטרנט ומשמשת את האינטרסים של הציבור והיוצרים כאחד. חשובה לא פחות היא הוספת מאפיין למנועי החיפוש השונים  שיאפשר את איתורם של תכנים אלה .

לאתר Creative Commons הבינלאומי
לאתר Creative Commons הישראלי
הסבר מפורט על רשיונות ה-creative commons

הרצאה בנושא "שימוש ברשיונות Creative Commons באקדמיה"  התקיימה במסגרת יום עיון משותף של מלמ"ד ומיט"ל בנושא "חוק זכויות יוצרים החדש ומשמעותו ללמידה מרחוק ולספריות" שהתקיים ב 29.4.2008 בקמפוס המרכז לטכנולוגיה חינוכית ת"א. כתבתי את הפוסט בעקבות ההרצאה, אך לא השתתפתי בהרצאה והפוסט אינו סקירה של ההרצאה.

מאפיין חדש ב-Google News – ציטטות של אנשים מפורסמים

אם נחפש ב-Google news אישיות מפורסמת מתחום הפוליטיקה, הספורט או הבידור נקבל בנוסף לתוצאות החיפוש גם ציטטות שמיוחסות לה מתוך מאמרי חדשות. מבדיקה שערכתי נראה  שמאפיין זה לא עובד בצורה עקבית.  כך למשל כאשר חיפשתי "Bush” בגרסה הסטנדרטית קבלתי בנוסף לתוצאות, ציטטה עדכנית וקישור לציטטות נוספות שלו. לעומת זאת כאשר חיפשתי “Shimon Peres" בגרסה הסטנדרטית  קבלתי חדשות עדכניות ששמעון פרס קשור בהן אך לא קבלתי שום ציטטה שלו. זה כן עבד כאשר השתמשתי  בלשונית  "image version".. ניתן גם להגביל את הציטטות על פי נושא. מאפיין חדש  נחמד אם כי נראה שעדיין מצומצם מבחינת הכיסוי.

פירוט נוסף והסבר בפוסט של Google בנושא    

WikiAnswers -שירות נוסף של Answers.com

WikiAnswers הוא שירות נוסף של Answers.com .Answers.com מוכר כמנוע "לכל שאלה תשובה"  מסוג "encyclodictionalmanacapedia" – כלומר האינדקס שלו הוא למעשה מאגר יעץ מקוון גדול שכולל מגוון מקורות יעץ – אנציקלופדיות כמו בריטניקה וויקיפדיה, מילונים לשוניים, אוניברסיטאות ועוד . למנוע מרכיב נוסף WikiAnswers. בעוד ש- Answers.com מטרתו לספק מידע כללי בנושאים שונים הרי מטרתו של שירות זה הוא לתת מענה לשאלות יעץ ספציפיות ופרטניות יותר. השירות ניתן על ידי מתנדבים והמטרה ליצור מאגר גדול של שאלות ותשובות ספציפיות. ניתן לדפדף וגם לחפש במאגר התשובות. בשירות גם צוות  אחראים שעונים על השאלות, מוחקים "ספאם" ועורכים את התשובות במידת הצורך.

לפרטים נוספים, נתונים סטטיסטיים על השירות