עיצוב מחדש של מערכת היחסים שלנו עם המידע והידע הארגוני בעידן GAI

24 במרץ 2024
זמן קריאה 6 דקות

מאת: ד"ר לוי שאול | Data & AI Lead, Accenture Israel

אין ספק שעידן הבינה המלאכותית היוצרת ((GAI מהווה נק' פיתול (Inflection point) משמעותית מאוד. מודלי מודלי שפה גדולים (LLMs), שהינם אחד מהרכיבים המשמעותיים בתחום הבינה המלאכותית היוצרת, הציתו את דמיון העולם לגבי הפוטנציאל המשבש והטרנספורמטיבי של בינה מלאכותית יוצרת, ומיקדה את תשומת הלב העולמית להתפתחות של פתרונות ויישומים חדשניים שטרם נראו בעבר. היכולת של טכנולוגיית Gen AI לחקות דיאלוג אנושי וקבלת החלטות העניקה לנו את נקודת הפיתול האמיתית הראשונה של AI.

כפועל יוצא, מערכת היחסים שלנו עם נתונים משתנה - ואיתה גם האופן שבו אנו חושבים, עובדים ומתקשרים עם טכנולוגיה. לפני כ 15 שנה, ניקולאס קאר שאל במאמרו בז'ורנל של The Atlantic: "האם גוגל עושה אותנו טיפשים?" וביסס את טענתו זו בכך שהחיפוש באינטרנט משנה את אופן פעולתו של מוחו, משנה את האופן שבו הוא מתרכז וכמה עמוק הוא קרא. כיום, ברור לנו כי השימוש בגוגל לא הפחית מהאינטליגנציה והיכולות הקוניטיביות שלנו. עם זאת, נקודה אחת הייתה נכונה - האופן שבו אנו ניגשים למידע מעצב את ההתנהגויות שלנו. החיפוש שינה כמעט את כל מה שהוא נגע בו. זה הפך לדרך עיקרית עבור אנשים ועסקים ליצור אינטראקציה עם נתונים. זה הרחיב בצורה משמעותית את המידע שאנשים יכולים לגשת אליו והפחית את זמן המחקר משעות לדקות והייתה לו השפעה טרנספורמטיבית משמעותית על ארגונים. השינוי הנ"ל יצר הזדמנויות חדשות בסביבת הלקוחות באמצעות מודעות ואופטימיזציה למנועי חיפוש (SEO), יצר שיטות חדשות להנגשה וגילוי מוצרים ועוד. עפ"י מחקרים עולה כי כמעט 70% מכלל התנועה באתר מסוים מתחילה בחיפוש. האינטרנט הפך כל פיסת מידע לחלק מספריה עצומה, ובמשך למעלה מ-20 שנה, החיפוש הוא הספרן/נית שלנו בספריה הדיגיטלית האין סופית.

כעת, עם הופעת טכנולוגיית GAI האינטרקציה של אנשים עם נתונים מבצעת קפיצת מדרגה משמעותית נוספת. מודל "הספרן/נית" פינה את מקומו למודל " טייס משנה" חדש. האופן שבו אנשים ניגשים לנתונים ומקיימים איתו אינטראקציה משתנה משמעותית כיום. השינוי הזה הוא קריאת השכמה עבור כל חברה. ההפרעה האמיתית כאן היא לא רק בגישה לנתונים אלא האופן שבו אנחנו מקיימים אותה - הדרך בה אנו קוראים, עורכים, בוחנים ומתקשרים עם נתונים באמצעות שפה טבעית ובהתאם כל ארגון יידרש להתאים את יכולות הליבה שלו.

הפעילות העסקית של רוב הארגונים מתבססת במידה רבה מאוד על נתונים רבים ומבוצעת במגוון שיטות עבודה ועם זאת לקוחות ו/או עובדים עדיין נאבקים בחלק הבסיסי ביותר: למצוא את המידע שהם צריכים. עפ"י מחקר של Gartner שנערך לאחרונה עולה כי 47% מהעובדים הדיגיטליים, במגוון היחידות העסקיות בארגון, נאבקים למצוא מידע או נתונים הדרושים לביצוע יעיל של עבודתם . יתרה מכך, גם בעלי עניין אחרים מנסים תמיד למצוא מידע על הארגון: לקוחות גולשים אחר מוצרים או מחפשים פורומי עזרה, בעלי מניות שמחפשים מסמכי ESG או שותפים וכו'. עבור כל האנשים הזקוקים למידע, ארגונים רבים לא הצליחו לבנות מספיק יכולות חיפוש. לכן המעבר מחיפוש לשאלות בשפה טבעית כל כך מפתה. הצבת טייס משנה מבוסס מודלי שפה טבעית מאפשר להרחיב ולהנגיש את הידע הארגוני לקצות אצבעותיו של כל עובד, מסייעת להגדיל את את הערך הסמוי של הנתונים ולאפשר לארגונים לממש את השאיפה לעסקים מונעי נתונים. כמובן, זה לא פשוט כמו ללחוץ על כפתור. בינה מלאכותית יוצרת תהיה הממשק שנשען על ארכיטקטורות הנתונים העצומות של ארגונים ולכן ארגונים נדרשים להתאים את אסטרטגיית המידע על מנת שיוכלו למנף את היתרונות הרבים הגלומים בה.

החיפוש, באופן כללי, עמד בבסיס אסטרטגית המידע הארגונית במשך עשרות שנים. עם זאת, בכל יום, במודע או שלא, יותר אנשים עוברים מחיפוש לשאלות בהתבסס על שפה טבעית, וחברות נדרשות לקיים את האינטרקציה עם הלקוחות ו/או העובדים תוך שימוש בכלים שעד כה סיפקו יכולת בסיסית לקיום אינטרקציה זו כגון צ'אטבוטים. אולם, יישום צ'טבוטים מבוססי GAI ושפה טבעית רחוקים מלהיות השקה טכנולוגית פשוטה. על מנת לקצור את היתרונות הגלומים בבינה מלאכותית יוצרת ולבנות את הארגון המופעל על ידי המידע והידע הארגוני באמצעות טכנולוגיה זו, ארגונים נדרשים לעצב מחדש באופן מהותי את אסטרטגיית הליבה הטכנולוגית שלהם בהקשרים אלה. יש לחשוב מחדש על האופן שבו הארגון מנהל את מאגרי המידע והידע, על הארכיטקטורה הטכנולוגית המלאה, כיצד פורסים כלים טכנולוגיים והתכונות שהם כוללים. ארגונים מסוימים כבר נקטו בצעדים למודרניזציה של אסטרטגיית הנתונים שלהם. אבל האמת הקשה היא שרבים אחרים עדיין נאבקים, ומערכות ניהול המידע הידע שלהם עדיין לא עשו את קפיצת המדרגה הנדרשת.

אסטרטגיית המידע נדרשת לתמוך בראש ובראשונה בבסיס נתונים נגיש מבוסס הקשרים יותר מאי פעם. גרף הידע (knowledge graph) הוא אחת הטכנולוגיות החשובות כאן. גרף הידע מהווה מודל נתונים מובנה בגרפים הכולל ישויות והיחסים ביניהן באופן שמאפשר לנהל קשרים והמשמעות שלהם בצורה יותר רחבה. גרף ידע יכול לא רק לצבור מידע ממקורות מידע רבים ולתמוך בהתאמה אישית טובה יותר, אלא הוא גם יכול לשפר את הגישה לנתונים באמצעות חיפוש סמנטי. מקרה אירוע מבית Cisco Systems הינו דוגמא טובה לכך. כמו ארגונים גלובליים גדולים רבים, לצוות המכירות של סיסקו היתה נגישות למידע רב מאוד אותו יכלו למנף לטובת קידום הזדמנויות עסקיות והגדלת המכירות. עם זאת, הם התקשו למצוא מסמכים רלוונטיים באמצעות חיפוש מבוסס אינדקס בשל היעדר מטא דאטה ותשתית אפליקטיבית תומכת. Cisco פיתחו יכולת מבוססת Neo4j על מנת לאפשר יצירת גרפי ידע בהקשר של המטא דאטה המנוהל עבור מאגרי המידע והידע הארגוניים. CISCO עשו שימוש בעיבוד שפה טבעית על מנת לייצר אונטולוגיה ושירות תיוג ממוכן לטובת הקצאת מטא דאטה עבור מסמכים ואחסונם במסד נתונים גרפי. לאחר השינוי הארכיטקטוני והיישום הטכנולוגי, מציאת מידע פחתה ב 50%, וסיסקו חסכה לאנשי המכירות שלה יותר מכארבעה מיליון שעות בשנה.

הצעד הראשון ביצירת גרף ידע, למשל, הוא לקבוע את האונטולוגיה שלו, או את הישויות הרלוונטיות ואת היחסים שלהן זו לזו. מודלי שפה טבעית (LLMs) יכולים לחלץ את הנתונים האלה מטקסטים גולמיים על מנת להפוך את התהליך הזה לאוטומטי. כמו כן, הם יכולים לקבל גם הנחיות טקסט בשפה טבעית ליצירת הסכימה ומבנה מסד הנתונים הקשורים בהתבסס על האונטולוגיה, כמו גם לאכלס את מסד הנתונים הגרפים. יסודות נתונים מורכבים הופכים קריטיים יותר ויותר מחד, ועם זאת הם גם הופכים קלים יותר לתחזוקה ולעדכניות מאידך. בעידן של היום שבו מבקשים תשובות מ-LLM, זה משמעותי מתמיד.

בנוסף לגרפי ידע, אסטרטגיות ניהול נתונים אחרות יהיו חשובות לא פחות. מסדי נתונים וקטוריים חיוניים לייצוג נתונים בעלי מימד גבוה להסקת יחסים ודמיון. יתרה מכך, בעוד שבניית בסיס הנתונים של הארגון היא קריטית באופן שתומך את המיגרציה הנדרשת מתפיסת החיפוש לתפיסת טייס המשנה, מודלי שפה טבעית LLMs הם גם כלי לתמיכה ביצירה ובתחזוקה של בסיס מידע וקטורי זה.

חברות יכולות לייצר מודל LLM משלהן מאפס, אם כי גישה זו נדירה בהתחשב במשאבים המשמעותיים הנדרשים ורלוונטי בעיקר לחברות ענק כגון: Anthropic, AWS, OpenAI, Google, Meta, AI21 . עם זאת, גם בלומברג נקטה בגישה זו, תוך שימוש בבסיס הידע העצום שלה של נתונים פיננסיים, יחד עם מערך נתונים ציבורי, על מנת לפתח מודל LLM של 50 מיליארד פרמטרים עבור התעשייה הפיננסית (BloombergGPT ). המודל יהיה יהיה זמין ללקוחות בלומברג. לכן, עבור חברות ענק עם משאבים עצומים, אימון עצמי של LLM מאפס עשוי להיות גישה מושכת כדי להבטיח יתרון תחרותי. עם זאת, האפשרות הסבירה יותר לרוב הארגונים תהיה אחת מהשתיים: עדכון מודל ייעודי עבור הארגון (Fine Tuning) לגירסה פרטית של מודל יסוד (foundation model) או מינוף הדאטה הארגוני בתהליך עצמו (RAG). ספקי ענן גדולים כמו Amazon AWS, Microsoft Azure ו -Google Cloud יכולים לסייע לארגונים לייצר גירסה פרטית ייעודית לטובת שילובם עם יישומי החברה. למרות שזה דורש הרבה פחות משאבים מאשר אימון LLM מאפס, זה עדיין לא מבטיח שלמודל יש את המידע העדכני ביותר. לכן, בחירה באפשרות זו אפשרית למקרים ספציפיים בהם אין צורך במידע בזמן אמת, כגון יצירת תכנים בתחום העיצוב או השיווק.

ואריציה נוספת לגישה זו באה לידי ביטוי בפיתוח מודלי שפה ייעודיים קטנים יותר(Small language models - SLMs) כגון Chinchilla של DeepMind וAlpaca של Stanford . גישה זו נכונה עבור בהינתן השיקולים העיקריים הבאים: הצורך לצמצם את משאבי המחשוב, להקטין את תקופת האימון, לאפשר שימוש שלהם במכשירי קצה קטנים יותר ולהקטין את טביעת הפחמן משיקולי רגולציה.

הגישה השנייה, RAG, אחת הגישות הפופולריות ביותר כיום לבניית טייס משנה מבוסס מודל שפה טבעית הינה "לאלץ" מודל גנרי (לא ייעודי) לעשות שימוש במידע רלוונטי בהתאם להקשר ולצורך הספציפי למשימה. התהליך מאפשר שילוב של שאילתת המשתמש עם מידע בארגון שנמצא עדכני והרלוונטי ביותר לשאילתה של המשתמש. הקלט של המשתמ משמש לאיתור המידע הרלוונטי ביותר מסוגים שונים מכלל מקורות המידע הארגוניים (טקסט ממסמכי Word, צ'אטים או קובצי PDF, או נתונים מובנים כמו CSVs או טבלאות במסד נתונים). כך המידע המשולב (שאילתה+מידע ארגוני רלוונטי) מועברים למודל השפה על מנת לבצע את המשימה (למשל עריכה או סיכום).

כך ניתן למנף את היתרון היחסי של מודל גנרי עם מידע תומך רלוונטי מהארגון על מנת לספק פתרון שלא מצריך מומחיות בנניה ו/או עדכון מודלים יעודיים לצד הקטנת משאבי המחשוב ומתן ביצועים מהירים יותר במקרים רבים. למעשה, שתי דוגמאות מייצגות לתפיסת פתרון זו הינה Microsoft 365 Copilot עבור יישומים ושירותים של Microsoft 365 וEinstein GPT של Salesforce . כאמור גישה זו מאפשרת מענה מיטבי עבור מקרי שימוש הדורשים מידע מעודכן, אם כי אימות הדיוק עדיין נדרש להתקיים גם מידע עדכני ורלוונטי לאור ההתבססות על מודל שפה.

לפיכך, ארגונים נדרשים לבחון מחדש את אסטרטגיית המידע כבר בשלב שבו הארגון מתחיל לקדם את הניסויים הראשונים שלו בעולם ה GAI וכמובן להתחיל ליישם אותה בשלב ה SCALE UP גם גיבוש והתנעה של מפת הדרכים בראי האסטרטגיה העסקית של הארגון.

פורום מצויינות בתעשייה 4.0

פורום מצויינות בתעשייה 4.0

פורום מצויינות בתעשייה 4.0

פורטל ידע

עיצוב מחדש של מערכת היחסים שלנו עם המידע והידע הארגוני בעידן GAI

תגובות

הפסגות 4, פתח תקווה

מייל: info@israel-it.org

טלפון:03-9040997