כולנו נתקלנו בסיטואציה באינטרנט בה התבקשנו להקליד מילה או סתם אוסף של אותיות מעוותות לתוך תיבה, בין אם זה היה כשנרשמנו לחשבון דוא"ל או בעת רכישת כרטיסים…
הדבר המעצבן הזה נקרא "קאפצ'א" – CAPTCHA והפירוש הוא:
"Completely Automated Public Turing test to tell Computers and Humans Apart"
כשמו כן הוא, זהו מנגנון לזיהוי הישות שממלאת את טופס ההרשמה כדי לעשות את האבחנה בין אם מדובר בבן אדם שממלא את הטופס לבין תוכנה. בעצם זאת הצורה שבה אדם מוכיח למשחב שהוא בן אדם!
ההנחה היא שתוכנה, עם כל הכבוד לבינה מלאכותית ולצעדים הענקיים בהם התקדמו במדעי המחשב ב-50 שנים האחרונות, מתקשה לזהות את האותיות המעוותות שמוצגים לנו כיום בתמונות המוזרות הללו.
לכן, רק אנשים יצליחו למלא בהצלחה את טופס ההרשמה (לפחות האנשים שלא סובלים מליקויי ראייה למיניהם).
אז למי צריך להודות, על כך שהכניסו את הקאפצ'א לחיינו?
התשובה היא: ספאמרים ושולחי דואר זבל למיניהם!
תנו לי להסביר את עצמי: כמעט לכולנו יש חשבון דוא"ל בין אם זה Gmail או Yahoo או וואלה או Hotmail או חשבונות דואר חינמיים אחרים.
אנשים שהיו מעוניינים לשלוח מיליוני מכתבים (דואר זבל!), נתקלו בבעיה: בכל שירותי הדוא"ל החינמיים כגון Yahoo או Gmail וכד'… ניתן לשלוח כמות מוגבלת של מכתבים ביום עד כ-500 מכתבים (לשלוח מכתב אחד ולצרף 20 אנשים בתוך Bcc זה עדיין כמו לשלוח 20 מכתבים). ולכן ספאמרים מצאו פתרון יצירתי: תוכנה אשר ממלאות את טופסי ההרשמה לפתיחת חשבון דוא"ל חינמי בצורה אוטומטית. אז שירותי דוא"ל כגון Gmail ו-Yahoo סבלו מבעיה של פתיחת מיליוני חשבונות דוא"ל אשר נתפסים ע"י תוכנות מחשב (BOT) ונוצרים למטרת שליחת דואר זבל.
פתרון לבעיה של ענקיות האירנטנט המציא בחור בשם לואיס ואן אהן (Luis von Ahn) אשר המציא בעצם את הקאפצ'א. לכל טופס הרשמה הוכנסה תמונה ובה מילה (או סתם רצף של אותיות ומספרים אקראיים) עם אותיות מעוותות אשר ממלא הטופס היה צריך להקליד את. מה שבן אדם מסוגל לעשות בקלות יחסית (למרות שזה מעצבן נורא) מחשבים ותוכנות לא הצליחו.
אז למה עדיין יש דואר זבל?
כמובן שהספאמרים לא איבדו את העשתונות והגיחו שוב עם כמה פתרונות יצירתיים:
- העסקה של בני אדם להקליד קאפצ'ות כל היום תמורת שכר זעום.חלקית ניתן לזקוף את זה לניצחון של קאפצ'ה משתי סיבות: מאחר ולהזין קאפצ'ה עולה כמה סנטים, הספאמרים נהיו מוגבלים מבחינה כספית. שנית, נוצר מצב שהקאפצ'א בעצם מייצרת מקומות עבודה במדינות מתפתחות.
- פתרון מעניין יותר ל "בעיית הקאפצ'א" מצד הספאמרים הוא להכניס קאפצ'א לאתרי פורנו… מכיוון שיש הרבה כאלה, חלק מהגולשים באתרי פורנו נתקלו במסך שאומר להם להקליד את המילה בתמונה אם הם מעוניינים לצפות במה שהם רוצים לצפות.
עם כל זאת, הקאפצ'א עדיין מגבילה בצורה משמעותית פעולות באינטרנט שנעשות ע"י תוכנת מחשב ולא משתמשים בני אנוש. הרעיון של הקאפצ'א תפס תאוצה וצבר פופולאריות עד שהגיע למצב בו כלל האנשים ממלאים 200 מיליון קאפצ'ות ביום אחד. אם לחשב את המספרים לרגע, אז בממוצע לוקח 10 שניות למלא קאפצ'א, בעצם מעל 500,000 שעות ביום מבוזבזות ע"י אנשים בעולם כדי להזין את האותיות המעצבנות האלה לתוך תיבה רק כדי להוכיח למחשב אחר שמי שממלא את הטופס אינו מחשב בעצמו! לואיס ואן הון, לאחר התלהבות הקצרה שההמצאה שלו צוברת פופולאריות התחיל להרגיש רע עם העובדה שבגללו האנושות מבזבזת מעל חצי מיליון שעות כל יום על פעילות חסרת כל תכלית. למזלנו, הוא קיבל דוקטורט לא בגלל העיניין היפות שלו. ואכן הוא המציא דרך לרתום את כוח החישובי של שבב המורכב והמתקדם ביותר בעולם: המוח שאנושי! הפתרון הוא לתת לאנשים להקליד מילים מספרים סרוקים שהמחשב לא מצליח לזהות. בעצם המטרה של כל הפרויקט הזה היא לעשות "דיגיטיזציה" של ספרים. לחברות כמו GOOGLE ו INTERNET ARCHIVES ישנם פרויקטים של סריקת ספרים. זה נעשה בשני שלבים:
- סריקה של הספר כאשר מתקבלת תמונה של כל עמוד בספר.
- פענוח של הטקסט ע"י תוכנת (OCR (Optical Character Recognition. תוכנה אשר קוראת את הטקסט ומנסה לפענח את האותיות כך שבסופו של דבר ישנו טקסט מוזן במחשב שניתן לבצע בו חיפוש.
הבעיה עם OCR היא שהתכונה אינה מושלמת והיא לא תמיד מצליחה לפענח את האותיות ובמיוחד כשזה מגיע לטקסט מספרים ישנים שבהם הדיו נמחק. אחד היתרונות של התוכנה הזאת היא יכולה להגיד במדויק אם היא הצליחה לפענח את המילה או לא. כאן הפתרון של לואיס נכנס לתמונה, "אולי ניקח את המילים שהמחשב לא הצליח לפענח – לעוות אותן עוד יותר כדי בשביל להיות בטוח – ולהכניס אותן לקאפצ'א", מה שפותר את בעיית זמן מבוזבז ורותם את כוח העיבוד של המוח האנושי למטרת שיפור איכות חיים של כלל האנושות. הרעיון קיבל צורה בקומפוננטה בשם: reCAPTHCA, בין המשתמשים ברכיב זה: Facebook, Twitter ועוד מעל 120,000 אתרים.
איך זה עובד?
מוצגות למשתמש שתי מילים אשר אחת מהן היא מילת ביקורת אשר המחשב זיהה בעבר, מילה שנייה שהמחשב לא הצליח לזהות, שתי המילים מעוותות עוד קצת ליתר ביטחון. ההנחה היא שאם המשתמש הצליח להזין נכון את מילת הביקורת סיכוי סביר שהוא יזהה נכון את המילה השנייה (אשר המחשב לא הצליח לזהות), לאחר מכן המילה הלא מזוהה מוצגת לעוד 10 משתמשים אקראיים ברחבי העולם. במידה שכולם הגיעו להסכמה והקלידו את אותה המילה, היא מוכנסת לגרסא האלקטרונית של הספר הסרוק. למפתחים שבינינו ניתן להוריד את הקומפוננטה יחד עם דוקומנטציה של ה API ופרטים נוספים באתר: http://recaptcha.net השימוש ברכיב הזה הוא חינמי לחלוטין ומוצע תחת רישיון GNU.
אז תעצרו את הספאם – תקראו ספרים ;)


רגע אחד...