מהפכת האינטרנט
פעם, לפני ימי האינטרנט, הדרך היחידה שעמדה בפנינו על מנת לאתר מסמכים ומידע, הייתה לכתת את רגלינו לספריות ולארכיונים ולדפדף בקטלוגים, בספרים ובתיקיות. האינטרנט, ובעיקר מנועי החיפוש, פתחו בפנינו אפשרות לחפש מידע באמצעות המחשב מהבית. אמנם לא הכול נגיש באמצעות המחשב, וחומרים רבים ניתן עדיין למצוא רק בארכיונים, אבל האינטרנט מביא אל המחשב בביתנו אוצר של מידע.
כתיבה נכונה של שאילתה:
הקלות הרבה שבה אנחנו יכולים לרשום שאלה במנוע החיפוש, ולקבל אלפי תוצאות, עלולה ליצור אצל רבים מאיתנו את ההרגשה שחיפוש ומציאת חומרים באינטרנט הם דבר טריוויאלי שאינו דורש כל הכשרה מיוחדת.
הלוואי שזה היה באמת נכון וכל כך פשוט.
שני דברים מונעים מהתיאור שהבאתי לעיל מלהתממש:
- הדרך בה מנוע החיפוש מבין את השאלה שרשמנו.
- הסדר בה מוצגות התוצאות על המסך שלנו.
נתחיל מהסיבה השנייה:
מנוע החיפוש אינו "מבין" את משמעות השאלה, ולכן הוא משתמש בשלושה כללים על מנת לקבוע את סדר הופעת התשובות:
- מספר הכניסות לאתר מסוים: ככל שאתר הוא יותר מבוקש, מניח מנוע החיפוש שהמידע שבאתר יותר מעניין ולכן יותר סביר שהוא עונה לשאלה שנשאלה. (קוראים לזה "חוכמת ההמונים")
- קצב ההתעדכנות של האתר: ככל שהאתר מתעדכן לעתים תכופות יותר, הוא יופיע יותר גבוה בתוצאות החיפוש. זאת מתוך הנחה שתוצאות מעודכנות הן יותר רלוונטיות.
- תשלום: בעלי אתרים משלמים למנועי החיפוש על מנת לקדם את האתר שלהם ברשימת התוצאות.
מכאן עלינו להבין שאם המידע שאנחנו מחפשים נמצא באתר קטן, שמתעדכן לעתים רחוקות, ואינו משלם על מנת לקדם את עצמו, הוא יופיע הרחק למטה בתוצאות החיפוש. אם מנוע החיפוש מודיע לנו שיש מיליון תוצאות לשאלה ששאלנו, אז הסיכוי שנראה את המידע הזה, שבאמת מעניין אותו, הוא קלוש ביותר.
לכתיבה נכונה של השאלה במנוע החיפוש יש שתי מטרות, שהן במידה מסוימת מנוגדות האחת לשנייה:
- לצמצם את מספר התשובות שלא רלוונטיות לנו.
- לא לבטל תוצאות שהן כן רלוונטיות.
על מנת להשיג שתי מטרות אלו עלינו לכתוב שאלה שתובן נכון על ידי מנוע החיפוש:
מילים שכיחות (Stop Words):
בכל שפה קיימות מילים רבות שהן מאוד שכיחות ומופיעות כמעט בכל משפט. מדובר במילות קישור, מילות שאלה, מילות גוף וכדומה. מנועי חיפוש נוהגים למחוק מילים אלו מהשאילתה שרשמנו ולחפש רק אחר המילים העיקריות במשפט (אחרת יהיו תוצאות רבות מדי). כך אם לדוגמה נכתוב בשורת החיפוש: מה נשתנה הלילה הזה, מנוע החיפוש יחפש רק את המילים "נשתנה" ו"הלילה". במידה ואנחנו מעוניינים לחפש רק תוצאות בהן מופיע כל המשפט בשלמותו, עלינו לרשום את כל המשפט בין גרשיים: "מה נשתנה הלילה הזה".
אופרטורים בוליאניים:
מנועי חיפוש משתמשים בלוגיקה של אופרטורים בוליאניים. אופרטור בוליאני הוא סימן מסוים שפועל על שתי המילים שביניהן הוא ניצב (בדיוק כפי שסימן החיבור או סימן הכפל פועלים על שתי הספרות שביניהן הוא ניצב. אנחנו נכיר כאן את שלושת האופרטורים העיקריים: OR, AND, NOT.
הערה חשובה: על מנת שמנוע החיפוש יזהה את המילה בתור אופרטור בוליאני חייבים לכתוב את כולה באותיות גדולות.
OR
כאשר אנחנו כותבים בשורת החיפוש: תולדות המשפחה, מנוע החיפוש מבין את זה כ: תולדות OR המשפחה. כלומר, הוא יציג לנו תוצאות שבהן מופיעה המילה "תולדות" או המילה "משפחה". אם אנחנו רוצים לראות רק תוצאות שבהן מופיעות שתי המילים, עלינו להשתמש באופרנט הבא.
AND
כאשר נכתוב בשורת החיפוש: תולדות AND המשפחה, מנוע החיפוש יציג רק תוצאות שבהן מופיעות שתי המילים. חשוב להדגיש: מנוע החיפוש יציג גם תוצאות שבהן שתי המילים הללו אינן צמודות האחת לשנייה. אם אנחנו רוצים רק תוצאות שבהן מופיע המושג "תולדות המשפחה", עלינו להשתמש בגרשיים, כפי שראינו בסעיף הקודם.
NOT
במקרים רבים אנחנו רוצים לנקות מתוצאות החיפוש תוצאות שבהן מופיע מילה מסוימת, אנחנו נשתמש באופרנט ה-NOT. השימוש באופרנט זה נעשה על ידי הצמדת הסימן "פחות" למילה שאנחנו רוצים שלא תופיע. לדוגמה: אם אנחנו רוצים תוצאות על תולדות המשפחה, אבל לא על תולדות המשפחה הנוצרית, אנחנו נכתוב: תולדות AND המשפחה –הנוצרית. או אפילו עדיף: "תולדות המשפחה" –הנוצרית.
סדר קדימות של האופרטורים הבוליאניים:
מנוע החיפוש מפעיל את האופרטורים הבוליאניים על פי סדר קדימות (בדיוק כמו שבתרגיל בחשבון קודם מפעילים את סימן הכפל ואחר כך את סימן החיבור). אופרטור ה-AND פועל כמו כפל, ואופרטור ה-OR פועל כמו חיבור. לכן, כמו בתרגילי חשבון, נשתמש בסוגריים. אם לדוגמה אנחנו רוצים לקבל תוצאות שבהן מופיע המושג "תולדות המשפחה" ואחת מהמילים: האשכנזית, הספרדית, או התימנית, אנחנו נכתוב: "תולדות המשפחה" AND (האשכנזית OR הספרדית OR התימנית).
שימוש נכון באופרטורים הבוליאניים:
כפי שכתבתי במבוא, כתיבה נכונה של שאילתה צריכה להשיג שתי מטרות:
- לצמצם את מספר התשובות שלא רלוונטיות לנו.
- לא לבטל תוצאות שהן כן רלוונטיות.
לשם כך עלינו להשתמש באופן מושכל באופרטורים הבוליאניים, לבחון את התוצאות המתקבלות, ולשנות את מבנה השאילתה בהתאם.
מילים נרדפות:
בכל השפות קיימות מילים נרדפות שונות, וכותבי התכנים משתמשים בהם על פי רעות עיניהם. בזמן כתיבת שאילתה עלינו להיות ערים לכך ולבחור במילים הנכונות. לדוגמה: אם אנו מחפשים חומרים שנכתבו על כלי טייס, רצוי שנשתמש גם במילה מטוס וגם במילה אווירון.
דוגמה נוספת: אם אנחנו מחפשים חומרים על ימיו הראשונים של הישוב "זיכרון יעקב" אנחנו יכולים לחשוב על מילים כמו: התחלה, עליה לקרקע, מייסדים, ימים ראשונים. לכן שאילתה תראה כך:
"זיכרון יעקב" AND (התחלה OR "עליה לקרקע" OR מייסדים OR "ימים ראשונים")
חיפוש מתקדם:
ברוב מנועי החיפוש נמצא גם "חיפוש מתקדם" (Advanced Search). שימוש בחיפוש המתקדם מאפשר לנו להשתמש בפשטות באופרטורים הבוליאניים, וגם נותן לנו עוד כלים רבים שמאפשרים למקד את השאילתה. רצוי מאוד ללמוד להשתמש בחיפוש המתקדם של מנועי החיפוש, והכי טוב להתחיל מניסוי ולימוד החיפוש המתקדם של גוגל.
מי שאינו יודע היכן נמצא החיפוש המתקדם של גוגל מוזמן על הקישור להלן: https://www.google.com/advanced_search
חזרה לדף "שיטות לאיסוף מידע"
הדף נכתב ע"י דן נועם