השכבות והשקרים מתחת לסטטיסטיקה

בכל מקום סביבנו בימים האלו נתקלים בנתונים סטטיסטיים, ואם לומר את האמת – רובם גם די מפחידים. הצורך של כולנו להבין טוב יותר תופעות גדולות שמתרחשות סביבנו, בטח בעידן וירוס הקורונה, הוא כר פורה לאיסוף, עיבוד והצגה של נתונים שונים ולעתים גם משונים.

הטריגר לפוסט הזה לא היה גרף מורכב, מפת קשרים בין נדבקים בוירוס או ניתוח השוואתי של קצב הגידול בהדבקה במדינות שונות. בחרתי את הנושא לפוסט הפעם אחרי שראיתי את הציוץ הזה בטוויטר של העיתונאי גיא זוהר, שמסביר שהגרף הכי בסיסי שאנחנו רואים כל יום – הגידול היומי במספר הנדבקים בוירוס – מציג בעצם נתון שעלול להטעות.

סטטיסטיקה לא משקרת, אבל יש לה שם רע

אחד הציטוטים האהובים על מי שרוצה להוכיח שנתון סטטיסטי אינו נכון הוא הציטוט שהפך פופולרי בזכות הסופר האמריקאי מארק טווין, מי שכתב את הרפתקאות טום סוייר, הרפתקאותיו של האקלברי פין, בן המלך והעני ועוד:

ישנם בעולם שלושה סוגים של שקרים:
שקרים, שקרים מתועבים וסטטיסטיקה

האמת היא שמארק טווין חשב שהוא מצטט את ראש ממשלת בריטניה, בנג'מין ד'יזראלי, אבל אין שום הוכחה שהוא אכן אמר זאת. הנה לכם דוגמא מצויינת לכך שכאשר לא בודקים את מקור המידע – יש סיכוי לא רע שיתווכחו אתכם על התוצאה…

בואו נחזור לשניה להתחלה ונוודא שאנחנו מדברים על אותו דבר. סטטיסטיקה היא תחום ידע שעוסק באיסוף, עיבוד, ניתוח והצגת מסקנות מנתונים כמותיים. שני הענפים המרכזיים של התחום הם:

  • סטטיסטיקה תיאורית – יצירה והשוואה של מדדים לטובת תיאור ברור של מציאות או תופעה
  • הסקה סטטיסטית – הסקת מסקנות על תכונות של התפלגות על סמך בדיקה אמפירית, למשל לטובת יצירת אומדנים לגבי כלל האוכלוסיה

הרבה מילים שאמורות להרגיע אותנו לגבי הדיוק של הנתונים, התהליך והתוצאה, לא?

כן, אבל סטטיסטיקה נוצרת על ידי אנשים ולטובת אנשים, ולכן אפשר למצוא בה הרבה אי דיוקים – כאלו שנוצרו בטעות, כמו שימוש בנתונים שגויים או במדגם לא מייצג, וכאלו שנוצרו במכוון, כמו בחירה מודעת של נתונים שתומכים בעמדה מסוימת או הצגה מניפולטיבית של הנתונים.

נתונים סטטיסטיים משמשים בסיס להרבה מאד ענפים אחרים, כמו כלכלה (הערכת שווי של חברה או מוצר), מסחר (שיווק ופירסום), פוליטיקה (סקרים) ועוד. לכן, יש סיכוי טוב שאתם נתקלים מדי יום בשימוש שגוי או מניפולטיבי בסטטיסטיקה, וכדאי לפקוח עין.

המתמטיקאי האמריקאי צ'רלס סייף כתב בדיוק על זה את הספר Proofiness – The Dark Arts of Mathematical Deception. הוא מציג בספר שיטות רבות מאד להונאה מכוונת ולא-מכוונת באמצעות נתונים ומספרים, ומסביר שהסיבה לכך שהן נפוצות היא שרוב הציבור אינו בקי במספרים.

למעשה, אנשים נוטים להאמין לנתונים ולנוסחאות שמוצגים בפניהם ולראות בהם מידע משכנע, עד כדי כך שחוקרים ומפרסמים עושים בהם שימוש ציני, כמו במחקר שהציג נוסחה מתמטית שמתארת את… הדרך הנכונה לצמצום היקף הישבן.

80% מרופאי השיניים ממליצים על קולגייט?

אם לא נתקלתם בפרסומת שמנוסחת באופן דומה – תבדקו אם האינטרנט שלכם מחובר. זה ניסוח מקובל בהרבה מאד ענפים, במיוחד כאלו שבהם אנשים נוטים להסתמך על דעות של מומחים כמו רפואה או בריאות.

ב- 2007 נאלצה חברת קולגייט להתפתל ולהסביר שהמשפט השיווקי הזה נכון, בראייתה, אחרי שהוגשה נגדה תלונה בפני רשות התקינה בפירסום בארה"ב. מסתבר שאמנם 80% מרופאי השיניים שנשאלו בסקר אכן המליצו על קולגייט, אבל הם המליצו גם על מותגים אחרים… הם גם לא המליצו דוקא על המשחה הספציפית שכיכבה בפרסומת, אלא על המותג "קולגייט" באופן כללי.

הרשות לא השתכנעה מהתשובה של קולגייט ש"המשפט לכשעצמו נכון" והזהירה אותה שלא לחזור על המשפט הזה בפרסומות, שכן גם אם הוא נכון – הוא מטעה.

והנה עוד דוגמה, הפעם מאוסטרליה. חברת הסלולר הקטנה אופטוס פירסמה את המודעה הזו, שממנה עשוי להשתמע שהיא מכסה 98.5% משטח היבשת – קרוב מאד לכיסוי של החברה המובילה טלסטרה.

אלא שהנתון מתייחס לאחוז האוכלוסיה שיכול לקבל שירות סלולרי בערים הגדולות, שממוקמות כולן לאורך החוף בלבד. טלסטרה הגישה תביעה והמודעה הוסרה.

בחירה בררנית מכוונת של הנתונים היא כנראה אחת התופעות הכי נפוצות של שימוש לרעה בסטטיסטיקה לטובת מניפולציה על מי שיצפה בהם. רוב מי שנחשף לנתונים לא יוכל לחזור ולבדוק אילו עוד נתונים נאספו ולא נבחרו, ולכן יש סיכוי טוב שיושפע מהם באופן שבו רצו שיושפע.

"במדגם לא מייצג שערכתי..."

סיבה מרכזית נוספת לטעויות בסטטיסטיקה היא התבססות על מדגם שאינו מייצג את כלל האוכלוסיה או אינו רלוונטי למסקנות שנרצה להוכיח. בסטטיסטיקה יש כללים די ברורים כיצד לוודא עד כמה שניתן שהמדגם שלנו מייצג.

מדגם הסתברותי יכול להיות אקראי, אך גם ניתן לשלב בו "שכבות" או "אשכולות" ספציפיים כדי לוודא ייצוג מתאים של כל תת-קבוצה באוכלוסיה. ברור לכולנו שאם רוצים לקיים סקר לקראת בחירות (שמתבסס של מדגם), כדאי לכלול בו ייצוג מתאים של קבוצות שונות בחברה הישראלית.

אם כך, כאשר יש לנו נתונים ממדגם שהוא לא בהכרח אקראי או מייצג – כדאי להיות זהירים בהסקת המסקנות ממנו. אם ערכנו, למשל, ניסוי בקבוצה שהיה לנו הכי קל להגיע אליה (בני משפחה, חברים, שכנים) – לא בטוח שהיא מייצגת את יתר האוכלוסיה. תזכרו את זה בפעם הבאה שאתם קוראים "סקר גולשים". אם מי שענו על הסקר הם אלו שמראש הגיעו לאתר שערך אותו, אולי התשובות שלהם פחות משכנעות…

בלינק הזה, למשל, יש סקר גולשים שפירסם אתר ויקיפדיה בעברית, בו מוצגים נתונים שונים על פי תשובות הגולשים, אבל אחד מהנתונים הוא ש- 50% מהמשיבים הם בני 18 או פחות. היות שזה אחוז גבוה משמעותית מאחוז הצעירים בישראל על פי הלשכה המרכזית לסטטיסטיקה (כ- 33%) – איך אפשר בכלל להסתמך על תוצאות הסקר בתור נתונים מייצגים?

גרפים - ההצגה הכי טובה בעיר

הטעויות הכי מצחיקות, הכי מביכות אבל לפעמים גם הכי נבזיות הן כאשר כל הנתונים כבר קיימים אבל אופן ההצגה שלהם יכול לגרום להבדל משמעותי במסקנות שלנו מהן (וכמו במקרים הקודמים – בטעות או במכוון).

יש המון סוגים של טעויות הצגה:

  • בחירה לא מתאימה של מודל (גרף עמודות במקום תרשים "עוגה", הצגה על ציר זמן כאשר הוא לא רלוונטי, הצגת נתונים על גבי מפה רק מפני ש"זה יפה יותר" ועוד)
  • הצגה של חלק מתוך הנתונים שנאספו, כך שהמסקנה שמתקבלת שגויה (למשל הצגת העליה בגידול במכירות של חברה, מבלי להציג ירידה במחיר המוצר עלולה להסתיר את העובדה שהחברה מפסידה)
  • הצגת נתונים באחוזים במקום בערכים מספריים או להיפך, ועוד

אבל למה לתאר את זה במילים, כשאפשר להראות את כל הטעויות וההטעיות האלו על גבי גרף?

לקחתי את הנתונים של הגרף שהופיע בתחילת הפוסט, והנה כל מיני מניפולציות שאפשר לעשות אתו. תחליטו אתם מה הדרך הכי נכונה באמת.

הנה הנתונים הרגילים של הגרף המקורי

והנה אותו גרף בדיוק, עם שלושה שינויים: "מעכתי" אותו קצת, בחרתי להציג נתונים רק אחת לארבעה ימים והציר של מספר הנדבקים הוא בקפיצות של 1000 במקום של 500. העליה נראית פתאום יותר מתונה?

הנה הנתונים של השבוע האחרון בלבד. נראה שונה?

ומה השתנה כאן? הגרף כולל נתונים רק מחלק מהימים, ללא חוקיות קבועה. פתאום הרבה יותר קשה להבין מה המגמה, כי היא משתנה…

ושוב – אותם נתונים, אבל הפעם מספר הנדבקים מוצג באלפים (ולכן העקומה שלו "השתטחה", ומספר הנדבקים החדשים מוצג באחוזים

נראה לי שהבנתם את הרעיון. יש עוד המון שיטות לקמט, לעוות או לנצל את הנתונים כדי להעביר מסר מסוים, ולא דיברנו בכלל על המקרים שבהם הנתונים באמת הרבה יותר מורכבים מראש, או על המקרים שבהם קשה לנו להבין מה הנתונים אומרים בגלל הטיות פסיכולוגיות שלנו – זה נושא לפוסט אחר.

אם בא לכם להכיר עוד כמה טעויות והטעיות נפוצות – מוזמנים להעיף מבט גם כאן, בסרטון של Ted-Ed:

זה לא אומר שצריך לוותר על הכלים הסטטיסטיים או להניח שכל מי שמציג נתונים הוא שקרן. אבל בהחלט כדאי לוודא שאתם מבינים איך נאספו הנתונים, איך הם מוצגים והאם יש הקשר רחב יותר שחשוב להכיר לפני שמקבלים החלטה על סמך הנתונים האלו.

עד כאן להפעם.