לחצו לשיחת ייעוץ בחינם

מסמכי עבודה אמיתיים לאימון AI: הייתם משתפים מידע עסקי?

כדי ללמד מודלים לבצע עבודה משרדית אמיתית, חברות בינה מלאכותית מחפשות לא עוד טקסטים מהרשת, אלא את הדבר עצמו: מסמכים, מצגות, גיליונות ומאגרים שנוצרו בעבודה היומיומית. אלא שכאן בדיוק נמתח חוט דק בין "דאטה איכותי" לבין חומר שעלול להיות חסוי, קנייני או מוגן בזכויות יוצרים. דיווח של Wired טוען כי OpenAI ו-Handshake AI מבקשות מקבלנים להעלות דוגמאות של תוצרים אמיתיים ממקומות עבודה קודמים ולעיתים גם נוכחיים, עם הנחיות למחיקת פרטים מזהים, מהלך שמעלה שאלה מטרידה: מי בכלל מסוגל להבטיח שמה שנשאר "נקי" באמת.
מסמכי עבודה אמיתיים לאימון AI - איפה עובר הגבול בין דאטה איכותי להפרת סודיות וזכויות יוצרים

מסמכים אמיתיים מהעבודה הקודמת, כקלט למכונות

בזמן שחברות בינה מלאכותית מחפשות עוד ועוד דרכים לשפר את היכולת של המודלים שלהן לבצע משימות “של משרד”, צצה השבוע טענה שמחדדת את השאלה עד איפה אפשר למתוח את הגבול בין “אימון” לגיטימי לבין התנהלות שמסתכנת בהתנגשות עם כללי סודיות וזכויות יוצרים. לפי דיווח של Wired, OpenAI יחד עם חברת נתוני האימון Handshake AI פונות לקבלני משנה חיצוניים ומבקשות מהם להעלות דוגמאות של עבודה אמיתית שביצעו בעבודות עבר, ואף בעבודות נוכחיות.

לכאורה מדובר בפרקטיקה שמוכרת לכל מי שעוקב אחרי תעשיית ה-AI: כשקל להשיג עוד טקסט ציבורי מהרשת, קשה הרבה יותר להשיג חומר איכותי שמייצג תהליכי עבודה אמיתיים, עם מסמכים, מצגות, גיליונות אקסל או תוצרים מקצועיים אחרים. אבל כשהבקשה היא להעלות “קובץ אמיתי” ולא רק לתאר תהליך, המתח הופך מיד לשאלה משפטית ומוסרית, ולא רק טכנולוגית.

מה בדיוק מתבקשים הקבלנים להעלות

על פי הדיווח, באחת המצגות של OpenAI שמיועדת לקבלנים, הם מתבקשים לתאר משימות שביצעו במקומות עבודה אחרים ולהעלות דוגמאות של “עבודה אמיתית, תוך כדי עבודה” שהם “באמת” עשו. לפי הנוסח שצוטט, החברה לא מסתפקת בסיכום או תיאור של המסמך, אלא מבקשת את המסמך עצמו, “הפלט הקונקרטי”. בין הדוגמאות שהוזכרו: מסמכי Word, קבצי PDF, מצגות PowerPoint, קובצי Excel, תמונות וגם מאגרי קוד (repo).

אם זה נשמע כמו ניסיון להאכיל את המודל בחומר שמדמה יום עבודה של אנליסט, מנהל מוצר או עורך דין, זו בדיוק הנקודה: בתעשייה יש ציפייה שנתוני אימון “איכותיים” יאפשרו למודלים לא רק לנסח טקסט יפה, אלא גם לבצע בפועל עוד ועוד עבודות משרדיות, באופן שיתקרב לאוטומציה של תפקידים שלמים. הדיווח מציב את OpenAI בתוך מגמה רחבה יותר של חברות AI שמעסיקות קבלנים כדי לייצר או לאסוף דאטה ברמה גבוהה, בתקווה להרחיב את יכולות המודלים.

מחיקת מידע רגיש, והסיכון שנשאר

ב-OpenAI, כך לפי Wired, לא מתעלמים מהבעיה: הקבלנים מקבלים הנחיה למחוק מידע קנייני ומידע אישי מזהה לפני העלאה. כדי לבצע את ה”ניקוי” הזה, הם אף מופנים לכלי של ChatGPT שמכונה “Superstar Scrubbing”. כלומר, יש כאן הכרה מפורשת בכך שהתוצרים שאנשים מייצרים בעבודה עלולים להכיל מידע רגיש, ושהחברה רוצה לקבל גרסה “מסוננת” של אותו חומר.

אלא שכאן מגיעה נקודת התורפה: גם אם קיימת הנחיה למחוק פרטים, מי בפועל מחליט מה נחשב מידע סודי או קנייני, ומה מותר להעביר הלאה? לפי הדיווח, עורך הדין בתחום הקניין הרוחני אוון בראון אמר ל-Wired שכל מעבדת AI שנוקטת בגישה כזו “מעמידה את עצמה בסיכון גדול”, משום שהשיטה דורשת “הרבה אמון בקבלנים” שיכריעו מה חסוי ומה לא.

זו ביקורת שמצלצלת מוכר לכל מי שנגע פעם בהסכמי סודיות: עובדים וקבלנים לא תמיד יודעים איפה נגמר “מסמך כללי” ומתחיל סוד מסחרי. לפעמים די בהקשר, בטבלה, במבנה של מצגת או בתהליך עבודה כתוב, כדי להסגיר איך ארגון פועל. ובמקרים אחרים, גם אם נמחקים שמות ופרטים מזהים, נשארים רמזים שמאפשרים להבין מהיכן החומר הגיע.

התגובה שנמנעה ומה זה אומר על התעשייה

לפי הפרסום, דובר של OpenAI סירב להגיב. זה לא פרט שולי: כשחברה בולטת בתחום מתבקשת להתייחס לסוגיה שמערבת מסמכים ממקומות עבודה, והתשובה היא הימנעות, זה משאיר את הציבור, את הלקוחות העסקיים ואת הקבלנים עצמם עם פחות בהירות לגבי גבולות השימוש, מנגנוני הבקרה והאחריות במקרה של טעות.

ברקע, חשוב לזכור: קבלני משנה הם שכבה נפוצה במערכי האימון של מודלים. לעיתים מדובר בכוח אדם שמבצע תיוג, בדיקה, כתיבה והערכה של תכנים, ולעיתים באנשים שמביאים מומחיות מקצועית. כשהחברות רוצות להפוך מודלים ל”סוכנים” שיודעים לבצע משימות מורכבות, הדחף להשיג חומרים שמייצגים עבודה אמיתית רק מתגבר. אלא שהדחף הזה מתנגש במנגנוני ההגנה של עולם העבודה הישן: חוזים, מדיניות אבטחה ארגונית, ובעלות על תוצרים.

ובסוף נשארת השאלה הפשוטה שמסתבכת במהירות: האם אפשר בכלל לייצר “דאטה אמיתי” שמלמד מכונה לעבוד כמו בני אדם, בלי לגרור לתוך התהליך את מה שאסור להוציא החוצה? גם אם הכל נעשה בתום לב, הסיכון לא נעלם, הוא רק מחליף ידיים, מהארגון אל הקבלן, ומהקבלן אל החברה שמרכזת את החומר. ככל שהמרדף אחר אוטומציה של עבודה משרדית יואץ, נראה שגם הוויכוח על מה מותר להזין למודלים, ומי נושא בתוצאות, רק יחריף.

אהבתם? שתפו :-)

שיתוף ב facebook
שיתוף ב twitter
שיתוף ב whatsapp
שיתוף ב linkedin
שיתוף ב email
שיתוף ב print

הצטרפו לרשימה הסודית

הכניסו כתובת אימייל וקבלו גישה לטיפים מקצועיים ומדריכים שיעזרו לכם להמריא קדימה

בטוחים שגם זה יעניין אותך...

TikTok מתפצלת באמריקה - עסקת הבעלות שמנסה לסיים את מלחמת האמון עם סין
טיקטוק

TikTok מתפצלת באמריקה – עסקת הבעלות שמנסה לסיים את מלחמת האמון עם סין

בארבע השנים האחרונות TikTok בארה״ב הייתה פחות אפליקציה ויותר שדה קרב: מצד אחד מכונת בידור ששואבת מיליונים למסך, ומצד שני סמל לחרדה אמריקאית מפני נתונים, אלגוריתמים והשפעה סינית. אחרי השבתה קצרה, חזרה לחנויות האפליקציות וסבב אינסופי של איומים, חקיקה ותביעות, מגיע עכשיו הרגע שבו הפוליטיקה מתרגמת לניירת: עסקה שמעניקה למשקיעים אמריקאים שליטה משמעותית ומציבה דדליין קשיח לינואר 2026, עם הבטחה אחת גדולה ברקע, להשאיר את TikTok חיה, אבל להוציא ממנה את סימן השאלה הביטחוני.

שווה קריאה »
DeepSeek V4 בדרך - האם מודל הקוד הסיני ישבור את ההגמוניה של OpenAI ו-Anthropic?
בינה מלאכותית

DeepSeek V4 בדרך: האם מודל הקוד הסיני יתחרה ב-OpenAI ו-Anthropic?

במרוץ ה-AI יש נקודה אחת שבה ההייפ הופך מיד לכלי עבודה אמיתי: כשמודל מצליח לכתוב קוד שאפשר לסמוך עליו בפרויקט גדול. עכשיו, לפי דיווח חדש, DeepSeek מתכוננת להשיק את V4 עם מיקוד חד במשימות פיתוח, כולל התמודדות טובה יותר עם פרומפטים ארוכים והקשרים מורכבים. אם הטענות על ביצועים עדיפים מול Claude ו-GPT יתבררו כנכונות, זה עשוי להיות מהלך שמערבב מחדש את הקלפים בשוק שבו מפתחים מחפשים דיוק, עקביות ועלות סבירה לא פחות מברק שיווקי.

שווה קריאה »
Gemini בג'ימייל: AI Inbox, סיכומי חיפוש ושרשורים, ועזרה בכתיבה - מתחיל בארה"ב ובאנגלית בדרך לישראל.
גוגל

Gemini משתלט על ג'ימייל: תיבת הדואר הופכת לעוזר AI

תיבת הדואר שלכם עומדת לקבל שותף חדש, והוא לא עוד תוסף שמסדר תוויות אלא מנוע בינה מלאכותית שמנסה להבין מה דחוף, מה חשוב ומה אפשר לדחות למחר. גוגל משלבת את Gemini בתוך Gmail עם כלים שמסכמים שרשורים, משדרגים חיפוש ומנסחים תשובות, אבל כמו בהרבה השקות AI קודמות – ישראל על המפה רק אחרי ארה"ב, ובשלב הראשון גם רק באנגלית.

שווה קריאה »
עסקת Wiz וגוגל בצומת אירופי - כך הרגולטור בבריסל יכול לשנות את כללי המשחק בענן ובסייבר
גוגל

עסקת Wiz וגוגל: כך הרגולטור בבריסל יכול לשנות את כללי המשחק

בעסקת ענן אחת, בשווי 32 מיליארד דולר, מצטלב כל מה שמגדיר את עידן הטק הנוכחי: מרוץ החימוש באבטחת סייבר, התיאבון של ענקיות הענן, והאצבע של בריסל שמונחת על כפתור העצירה. רכישת Wiz בידי אלפבית כבר איננה רק סיפור אקזיט ישראלי יוצא דופן, אלא מבחן עקרוני לשאלה עד כמה אירופה מוכנה לאפשר לגוגל לקנות יתרון אסטרטגי בשוק שבו אמון וביטחון הפכו למטבע הקשיח ביותר. עד 10 בפברואר, כל תרחיש פתוח – מאישור מהיר ועד מסלול בדיקה עמוק שיכול לשנות את תנאי המשחק.

שווה קריאה »

רוצה להזניק את העסק?

בשיחה קצרה נדע בדיוק כיצד לסייע לך

אתר מכירות החל מ-490 שח בלבד