מסמכים אמיתיים מהעבודה הקודמת, כקלט למכונות
בזמן שחברות בינה מלאכותית מחפשות עוד ועוד דרכים לשפר את היכולת של המודלים שלהן לבצע משימות “של משרד”, צצה השבוע טענה שמחדדת את השאלה עד איפה אפשר למתוח את הגבול בין “אימון” לגיטימי לבין התנהלות שמסתכנת בהתנגשות עם כללי סודיות וזכויות יוצרים. לפי דיווח של Wired, OpenAI יחד עם חברת נתוני האימון Handshake AI פונות לקבלני משנה חיצוניים ומבקשות מהם להעלות דוגמאות של עבודה אמיתית שביצעו בעבודות עבר, ואף בעבודות נוכחיות.
לכאורה מדובר בפרקטיקה שמוכרת לכל מי שעוקב אחרי תעשיית ה-AI: כשקל להשיג עוד טקסט ציבורי מהרשת, קשה הרבה יותר להשיג חומר איכותי שמייצג תהליכי עבודה אמיתיים, עם מסמכים, מצגות, גיליונות אקסל או תוצרים מקצועיים אחרים. אבל כשהבקשה היא להעלות “קובץ אמיתי” ולא רק לתאר תהליך, המתח הופך מיד לשאלה משפטית ומוסרית, ולא רק טכנולוגית.
מה בדיוק מתבקשים הקבלנים להעלות
על פי הדיווח, באחת המצגות של OpenAI שמיועדת לקבלנים, הם מתבקשים לתאר משימות שביצעו במקומות עבודה אחרים ולהעלות דוגמאות של “עבודה אמיתית, תוך כדי עבודה” שהם “באמת” עשו. לפי הנוסח שצוטט, החברה לא מסתפקת בסיכום או תיאור של המסמך, אלא מבקשת את המסמך עצמו, “הפלט הקונקרטי”. בין הדוגמאות שהוזכרו: מסמכי Word, קבצי PDF, מצגות PowerPoint, קובצי Excel, תמונות וגם מאגרי קוד (repo).
אם זה נשמע כמו ניסיון להאכיל את המודל בחומר שמדמה יום עבודה של אנליסט, מנהל מוצר או עורך דין, זו בדיוק הנקודה: בתעשייה יש ציפייה שנתוני אימון “איכותיים” יאפשרו למודלים לא רק לנסח טקסט יפה, אלא גם לבצע בפועל עוד ועוד עבודות משרדיות, באופן שיתקרב לאוטומציה של תפקידים שלמים. הדיווח מציב את OpenAI בתוך מגמה רחבה יותר של חברות AI שמעסיקות קבלנים כדי לייצר או לאסוף דאטה ברמה גבוהה, בתקווה להרחיב את יכולות המודלים.
מחיקת מידע רגיש, והסיכון שנשאר
ב-OpenAI, כך לפי Wired, לא מתעלמים מהבעיה: הקבלנים מקבלים הנחיה למחוק מידע קנייני ומידע אישי מזהה לפני העלאה. כדי לבצע את ה”ניקוי” הזה, הם אף מופנים לכלי של ChatGPT שמכונה “Superstar Scrubbing”. כלומר, יש כאן הכרה מפורשת בכך שהתוצרים שאנשים מייצרים בעבודה עלולים להכיל מידע רגיש, ושהחברה רוצה לקבל גרסה “מסוננת” של אותו חומר.
אלא שכאן מגיעה נקודת התורפה: גם אם קיימת הנחיה למחוק פרטים, מי בפועל מחליט מה נחשב מידע סודי או קנייני, ומה מותר להעביר הלאה? לפי הדיווח, עורך הדין בתחום הקניין הרוחני אוון בראון אמר ל-Wired שכל מעבדת AI שנוקטת בגישה כזו “מעמידה את עצמה בסיכון גדול”, משום שהשיטה דורשת “הרבה אמון בקבלנים” שיכריעו מה חסוי ומה לא.
זו ביקורת שמצלצלת מוכר לכל מי שנגע פעם בהסכמי סודיות: עובדים וקבלנים לא תמיד יודעים איפה נגמר “מסמך כללי” ומתחיל סוד מסחרי. לפעמים די בהקשר, בטבלה, במבנה של מצגת או בתהליך עבודה כתוב, כדי להסגיר איך ארגון פועל. ובמקרים אחרים, גם אם נמחקים שמות ופרטים מזהים, נשארים רמזים שמאפשרים להבין מהיכן החומר הגיע.
התגובה שנמנעה ומה זה אומר על התעשייה
לפי הפרסום, דובר של OpenAI סירב להגיב. זה לא פרט שולי: כשחברה בולטת בתחום מתבקשת להתייחס לסוגיה שמערבת מסמכים ממקומות עבודה, והתשובה היא הימנעות, זה משאיר את הציבור, את הלקוחות העסקיים ואת הקבלנים עצמם עם פחות בהירות לגבי גבולות השימוש, מנגנוני הבקרה והאחריות במקרה של טעות.
ברקע, חשוב לזכור: קבלני משנה הם שכבה נפוצה במערכי האימון של מודלים. לעיתים מדובר בכוח אדם שמבצע תיוג, בדיקה, כתיבה והערכה של תכנים, ולעיתים באנשים שמביאים מומחיות מקצועית. כשהחברות רוצות להפוך מודלים ל”סוכנים” שיודעים לבצע משימות מורכבות, הדחף להשיג חומרים שמייצגים עבודה אמיתית רק מתגבר. אלא שהדחף הזה מתנגש במנגנוני ההגנה של עולם העבודה הישן: חוזים, מדיניות אבטחה ארגונית, ובעלות על תוצרים.
ובסוף נשארת השאלה הפשוטה שמסתבכת במהירות: האם אפשר בכלל לייצר “דאטה אמיתי” שמלמד מכונה לעבוד כמו בני אדם, בלי לגרור לתוך התהליך את מה שאסור להוציא החוצה? גם אם הכל נעשה בתום לב, הסיכון לא נעלם, הוא רק מחליף ידיים, מהארגון אל הקבלן, ומהקבלן אל החברה שמרכזת את החומר. ככל שהמרדף אחר אוטומציה של עבודה משרדית יואץ, נראה שגם הוויכוח על מה מותר להזין למודלים, ומי נושא בתוצאות, רק יחריף.



