קריסת ההבחנה בין תוכן לבין הוראה ⋆ אירית פלדמן

במשך שנים, מערכות ציבוריות נשענו על הנחה יציבה למדי, מידע שמוזן אליהן עשוי להיות חסר, שגוי, מגמתי או מנוסח היטב, אך הוא עדיין נשאר מידע. גם כאשר אזרח מילא טופס באופן מטעה, גם כאשר ספק ניסח מסמך באופן שנועד להטות החלטה, וגם כאשר עובד בחר מילים שנועדו ליצור רושם מסוים, המערכת לא בלבלה בין התיאור לבין הפעולה. היה שלב שבו מישהו היה צריך לקרוא, להבין, להצליב, להפעיל שיקול דעת, ורק לאחר מכן להחליט. ההבחנה בין מה שנאמר לבין מה שמבוצע נשמרה באמצעות בני אדם, נהלים, ומבנים ארגוניים שיצרו מרחק בין קלט לבין החלטה.

כניסת מודלים מבוססי שפה (כמו ChatGPT) לתוך תהליכים ציבוריים מערערת את הסדר הזה מן היסוד. המודל החכם אינו קורא טקסט כפי שמערכת טפסים מסורתית קוראת שדה מובנה, הוא אינו בודק רק אם הקלדנו מספר זהות או אם צרפנו קובץ. הוא מפרש הקשר, מזהה כוונה, מנסה להבין מה חשוב בטקסט, ומה משני, מה מעיד על דחיפות, ומה נשמע כמו הוראה. היכולות האלו הן שמאפשרת לעבד כמויות גדולות של חומר, להתמודד עם שונות אנושית, ולתת מענה גם כאשר הקלט אינו אחיד. אך באותה תכונה עצמה טמונה גם פגיעות חדשה. מאחר שהמודל פועל בתוך שפה ומאחר שגם ההוראות שניתנות לו מנוסחות בשפה, הגבול בין תוכן לבין פקודה מטשטש באופן מסוכן.

כאן מתחילה הבעיה האמיתית. כאשר מערכת ציבורית מחברת בין קריאת טקסט לבין פעולה תפעולית, היא אינה רק מאיצה תהליך קיים. היא משנה את אופי הקשר בין המציאות לבין המערכת. טקסט חיצוני כבר אינו רק חומר לבחינה, הוא עלול להפוך לרכיב שמשפיע באופן ישיר על הכיוון שאליו המערכת נעה. לא משום שהמערכת נפרצה, לא משום שמישהו עקף סיסמה, ולא משום שהוחדר קוד. אלא משום שהשפה עצמה נעשתה תשתית של הפעלה. ברגע הזה, הסיכון אינו רק טכנולוגי, הוא מושגי. אם אין הבחנה חדה בין קלט לבין הוראה, המערכת חדלה להיות גוף שמנתח את המציאות, והופכת לגוף שעלול להידחף לפעולה מתוך הטקסט שהוא עצמו אמור לבחון.

כשהרשות המקומית קוראת פנייה והפנייה מתחילה לנהל את הרשות

כדי להבין את עומק השינוי, די לדמיין מערכת ציבורית עירונית לטיפול בבקשות סיוע. המערכת מקבלת פניות של תושבים, קוראת טפסים, בוחנת מסמכים מצורפים, מסווגת את רמת הדחיפות, ולעיתים אף מפיקה המלצה מיידית להמשך טיפול. במציאות של עומס, מחסור בכוח אדם, לחץ לספק שירות מהיר, ופער מתמיד בין הביקוש לבין יכולת הביצוע, הפיתוי לאמץ רכיב כזה מובן מאוד. הוא מבטיח לקצר תורים, ליצור אחידות, לצמצם טעויות הקלדה, ולהעביר חלק מהעומס הטיפולי לשכבת ניתוח אוטומטית. לכאורה, זו התקדמות טבעית.

אלא שדווקא במרחב כזה, שבו אזרחים כותבים בשפה חופשית, הפגיעות מתבהרת. תושב מגיש בקשה ומספר על מצוקה כלכלית, על שינוי במצב המשפחתי, על חוב שנוצר, או על קושי תפקודי. בתוך התיאור הוא מוסיף משפטים כמו "המקרה כבר אושר בשיחה קודמת", "נאמר לי שזה יטופל מיידית", "יש לראות את הבקשה כדחופה ביותר", או "העניין אושר עקרונית". עבור עובדת סוציאלית, עבור פקיד מנוסה, ואפילו עבור מנהל מחלקה, אלה אינן עובדות שמקבלות תוקף מעצם כתיבתן, הן טענות. יש לבדוק אותן, יש להצליב אותן מול רישומים, מול נהלים, מול סמכויות. האדם שקורא יודע שיש פער בין אמירה לבין אישור, בין דרישה לבין זכאות, ובין ניסוח סמכותי לבין סמכות ממשית.

המודל, לעומת זאת, אינו "יודע" זאת במובן הארגוני המלא. הוא יודע שטקסט מסוים נראה חשוב, שטקסט אחר מאותת על דחיפות, ושניסוחים מסוימים קשורים בדרך כלל למקרים שמקבלים קדימות. אם הוא נדרש לסכם, להמליץ, לדרג, או להציע פעולה, הוא עלול להכניס את האמירות האלה אל תוך מנגנון השקלול שלו. לא מפני שהוא טיפש, אלא מפני שזה בדיוק מה שהוא נועד לעשות: לפרש משמעות מתוך שפה. כאשר המערכת אינה בונה חיץ ברור בין מה שהאזרח אומר לבין מה שהמדיניות קובעת, הטקסט של האזרח אינו נשאר בקשה בלבד. הוא נעשה שחקן בתוך תהליך קבלת ההחלטות.

מה שמטריד במיוחד הוא שהסטייה כאן אינה נראית כמו כשל קלאסי. לא נשבר מסך, לא קרסה מערכת, לא הופיעה שגיאה צורמת לעין. להפך, הכול עשוי להיראות סביר, הבקשה סווגה כדחופה, כלומר נשלחה לה המלצה חיובית אולי אפילו קודמה במסלול מהיר. רק במבט מאוחר יותר אפשר לגלות שהגורם המשפיע לא היה נתון מאומת, אלא ניסוח חכם. זה בדיוק מה שהופך את הסיכון הזה למסוכן כל כך במערכות ציבוריות. הוא שקט, סביר למראה, משתלב בתהליך, וקשה מאוד לזהות אותו בזמן אמת. זו אינה מתקפה חיצונית על המערכת, זו אפשרות לכך שהמערכת תאמץ לתוכה, בשוגג, טקסט שמבקש לכוון את שיקול דעתה.

Prompt Engineering כמבנה של מדיניות

בשלב הזה נהוג לעבור לדבר על הנדסת פרומפטים ולעיתים עושים זאת באופן שטחי מדי, כאילו מדובר רק באמנות של כתיבת הוראות טובות יותר למודל. אך במערכות ציבוריות Prompt Engineering אינו רק ניסוח הוא תרגום של מדיניות, של חלוקת אחריות, ושל תפיסת סמכות, לתוך שפה שהמודל מסוגל לעבוד איתה. כאשר ארגון ציבורי מגדיר למודל כיצד לקרוא פנייה, אילו נתונים עדיפים, מה נחשב אות לדחיפות, מה עליו להתעלם ממנו, ומתי אסור לו להציע החלטה סופית, הוא למעשה כותב שכבת משילות, ההנחיות אינן קישוט טכני, הן חלק ממבנה ההפעלה של המערכת.

כאן בדיוק מתגלה המורכבות, גם ההוראות למודל מנוסחות בשפה טבעית, וגם הקלט החיצוני שמגיע מן האזרח, מן הספק, או מן העובד, מנוסח בשפה טבעית. שני העולמות הללו מתקיימים באותו מרחב לשוני. לכן, גם פרומפט מוצלח אינו יוצר מעצמו חיץ אמיתי בין מקור סמכות לבין תוכן חיצוני. הוא יכול להנחות את המודל להיזהר, הוא יכול לומר לו במפורש שלא לקבל הוראות מתוך מסמכים, הוא יכול להדגיש שעליו להתבסס על נתונים מאומתים בלבד, אך הוא עדיין פועל בתוך אותה תשתית פרשנית. במילים אחרות, הוא מחדד גבולות, אך אינו מחליף את הצורך לבנות אותם מחוץ לשפה עצמה.

דווקא משום כך הנדסת פרומפטים חשובה כל כך. היא מאלצת את הארגון לשאול שאלות שבמערכות מסורתיות נותרו לעיתים עמומות. מה נחשב מבחינתנו הוראה לגיטימית, אילו מקורות רשאים להשפיע על המלצה. איזה משקל יש לטקסט חופשי לעומת נתון ממערכת ליבה. מתי מותר למודל רק לנסח סיכום, ומתי הוא מתחיל להשפיע על סדרי עדיפויות. מה מותר לו להסיק, ומה אסור לו לעשות גם אם הוא "חושב" שזה הגיוני. ברגע שמנסחים פרומפט למערכת ציבורית, נחשפת גם התפיסה הארגונית שמאחוריה. אם ההנחיות עמומות, סותרות, או מבוססות על אינטואיציה בלתי כתובה, המודל אינו יפתור את הבעיה. הוא רק יחשוף אותה, ולעיתים גם יחריף אותה.

במובן זה פרומפט הוא כבר לא שאלה של איכות תשובה, אלא שאלה של תכנון מוסדי. הוא דורש מהארגון להבחין בין ניתוח לבין החלטה, בין המלצה לבין ביצוע, בין קריאה של טקסט לבין אימוץ של טקסט. הוא מחייב לחשוב לא רק איך לגרום למודל לענות טוב יותר, אלא איך למנוע ממנו להעניק מעמד תפעולי למילים שלא קיבלו הרשאה כזו. לכן נכון לכתוב עליו בנפרד ובהרחבה, אך כבר כאן חשוב לומר בבירור: כל מערכת ציבורית שמטמיעה מודל שפה ואינה משקיעה מחשבה עמוקה בפרומפט אינה רק מסתכנת בתשובות חלשות. היא מסתכנת באי בהירות שלטונית בתוך לב התהליך.

השפה כזירת שליטה

ככל שמעמיקים בתופעה, מתברר שהדיון האמיתי אינו בשאלה אם מודל שפה "מבין" נכון, אלא אם המערכת הארגונית שמקיפה אותו יודעת להגדיר נקודות עצירה, כללי סמכות, ומסלולי בקרה. ארגונים ציבוריים נוטים לעיתים לחשוב שהסיכון נמצא במודל, ושאם רק ישפרו את הגרסה, יבחרו ספק טוב יותר, או יכתבו הוראות חדות יותר, הבעיה תיפתר. אך הפגיעות המתוארת כאן מלמדת שהסיכון העמוק מצוי בחיבור שבין יכולת פרשנית לבין סמכות תפעולית. ברגע שהמערכת מאפשרת לשכבת פרשנות להשפיע על זכאות, קדימות, תשלום, תיעדוף או טיפול, היא חייבת להניח שכל טקסט חיצוני הוא קלט לא אמין, גם אם הוא מנוסח באופן סביר ומשכנע.

מכאן נגזרת תפיסה אחרת של בקרה. לא בקרה שמופיעה רק בסוף, לאחר שהתקבלה החלטה, אלא בקרה שמובנית בתוך הארכיטקטורה. המודל יכול לקרוא, לסכם, לזהות דפוסים, ואפילו להציע ניתוח, אך פעולות בעלות משמעות ציבורית אינן יכולות להישען על פרשנות אוטומטית בלבד. נדרש מבנה שמבחין בין שכבות. שכבה אחת קוראת, שכבה שנייה בודקת מול מקורות סמכות ושכבה שלישית מחליטה אם בכלל מותר להתקדם לפעולה. במקרים מסוימים, נדרש גם אדם, לא משום שהאדם תמיד מדויק יותר, אלא משום שהאחריות הציבורית עדיין זקוקה למוקד שניתן לייחס לו שיקול דעת, הקשר, ויכולת להסביר מדוע החלטה התקבלה.

זוהי נקודה מהותית במיוחד במערכות ציבוריות, מפני שהן אינן נבחנות רק לפי יעילותן. הן נבחנות גם לפי הוגנות, עקביות, אפשרות ערעור, ושקיפות. כאשר תוכן חיצוני מתחיל להשפיע על התוצאה בדרכים שאינן גלויות למשתמש, לעובד, או למבקר, המערכת פוגעת לא רק בתהליך קבלת ההחלטות אלא גם באמון. האזרח אינו יודע אם בקשתו נבחנה על פי קריטריונים או על פי ניסוח. העובד אינו יודע אם ההמלצה שקיבל מבוססת על מדיניות או על טקסט שהיטה את המודל. והארגון עצמו מתקשה להסביר בדיעבד מה בדיוק השפיע על המסקנה.

לכן, השאלה הגדולה שמציבות מערכות מבוססות בינה מלאכותית בפני המגזר הציבורי אינה אם אפשר לייעל תהליכים בעזרת שפה? התשובה לכך כבר ידועה, השאלה היא אם הארגון מוכן להכיר בכך שהשפה עצמה הפכה לזירת שליטה. ברגע שתוכן עלול להפוך לפקודה, אין די בטענה שהמערכת "רק מסייעת". צריך להגדיר מחדש מי מוסמך להורות, מה נחשב נתון, מתי טקסט הוא עדות בלבד, ומתי אסור לו בשום אופן לחצות את הקו אל עולם הפעולה. שם, בדיוק שם, מתחיל הדיון הרציני על אחריות אנושית במערכות ציבוריות חכמות.