שרשרת מחשבה

» «

דמיינו מודל AI שלא רק עונה לכם על השאלה ששאלתם אלא משתף אתכם בהסבר מפורט על סדר הפעולות שעשה בדרך לתשובה ובמהלך המחשבה שלו. נכון שזה מעולה? - זה מצוין כדי להבין, ללמוד, להשתפר וכמובן לאמת שהתשובה היא לא עוד הזיית AI, כמו שאנו מקבלים לעתים מהמודלים שלנו.

שרשרת מחשבה (Chain of thought ובקיצור COT) היא בדיוק שיטה כזו. טכניקה חדישה יחסית, שפותחה בתחום הבינה המלאכותית, לפיה הבינה מתבקשת לא רק לענות על שאלה, אלא להסביר ולשתף בכל שלב, בצעדים או בשלבים לקראת ועד הפיתרון. מכאן בא גם תרגום נוסף ואולי אף מדויק יותר בעברית של התהליך: "חשיבה מדורגת".

אם נדמיין לרגע שאנחנו מלמדים ילד לפתור בעיה מורכבת, סביר שלא נגיד לו את התשובה הסופית מיד. במקום זאת, נעדיף להוביל אותו אל הפתרון, בצעדים קטנים, צעד אחרי צעד. וזה בדיוק מה שקורה כשמתקשרים עם מודלים של בינה מלאכותית בדרך של שרשרת החשיבה, או החשיבה המדורגת.

באופן דומה, אפשר להנחות את הצ'טבוט כבר בפרומפט, לתת הסבר בשלבים של דרך הפתרון או ההגעה לתשובה ולא רק את התשובה עצמה.

#איך זה עובד בפועל?
זה לא מסובך. במקום לשאול "מה התשובה?", אפשר לכתוב למודל "בוא נחשוב על זה צעד אחרי צעד" או "הסבר לי את תהליך החשיבה שלך". התוצאה די מפתיעה: המודל הממושמע מתחיל לפרק את הבעיה לחלקים קטנים יותר, מסביר כל שלב בדרך ומוביל בהדרגה אל הפתרון המלא.

לטכניקה הזו יש משמעות מיוחדת בעולם הפרומפטים. כשאנחנו כותבים פרומפט חכם, אנחנו למעשה מזמינים את המודל לשתף אותנו בתהליך החשיבה שלו, בדיוק כמו תלמיד שמראה את כל שלבי הפתרון במחברת המתמטיקה. במקום לקבל תשובה יבשה וסופית, אנחנו מקבלים הצצה מרתקת אל תוך "המוח" של הבינה המלאכותית.

ושוב - לא מדובר רק על חקירת מידע, אלא על חקר הבינה האנושית עצמה. בדרך הזו אנו יכולים לחייב את הבינה להיות מאורגנת יותר ואולי אף ליפול פחות לאותן הזיות (Hallucinations), פריטי מידע שקריים או מטעים שלרוב מוצגים כעובדה.

#מה היתרון בשיטה הזו?
היתרון הגדול של שיטת "שרשרת המחשבה" הוא כפול: לא זו בלבד שהיא משפרת משמעותית את הדיוק של התשובות, אלא שהיא גם הופכת את כל התהליך לשקוף יותר. כשאנו, בני האדם, שותפים לתהליך המחשבה המודרגת הזו, ההרגשה היא כמו להציץ מעבר לכתפו של מומחה בזמן שהוא עובד - אנו לא רק רואים את התוצאה הסופית, אלא יכולים להבין בדיוק איך הגיעו אליה.

ובעידן שבו בינה מלאכותית הופכת לחלק בלתי נפרד מחיינו, היכולת להבין את תהליך החשיבה של מודל שפה או כל מכונה בינתית שהיא, היא לא רק יתרון, כי אחרי שמתנסים בה, מבינים כמה היא לעתים הכרחית.

הנה שרשרת מחשבה:

https://youtu.be/Fp-ue4UCE3s

הסבר יפה של ה-Chain of Thought:

https://youtu.be/4Iwnx2cVqtE

כך תשלטו בהנחיות שרשרת, באנגלית Chain prompting:

https://youtu.be/B4MR8m7V17A?long=yes

פודקסט AI על הסבר מפורט יותר על החשיבה המדורגת:

https://youtu.be/uo6y8oDrW3U?long=yes

והסבר מפורט יותר על זה:

https://youtu.be/C_gf9KNScIo?long=yes

מהו מודל היגיון, או Reasoning Model?

מודל היגיון (Reasoning Model) הוא מודל שחושב לפני שהוא עונה. הוא נקרא גם מודל ריזונינג או מודל חשיבה ודרך פעולתו היא של שרשרת חשיבה.

מודל המחשבה הזה פועל בדומה למודלי שפה רגילים, אך בניגוד להם - הוא אינו עונה מיד, ללא תכנון ומהר כמוהם, אלא להיפך - הוא איטי, מחושב ומסודר.

במקום מהר ולא תמיד מדויק, מודל המחשבה מחקה את תהליך החשיבה האנושית וכדי להגיע לתוצאות מצוינות הוא לוקח את הזמן ועובד לאט. הוא מפרק את החשיבה שלו לחלקים, כשלכל חלק כזה הוא מקדיש זמן ותשומת לב ורק אחרי שהוא מסיים אותו, הוא ממשיך לחלק הבא.

בשיטה זו, שזכתה לשם "שרשרת מחשבה", הוא מסוגל להסיק מסקנות לוגיות, באמצעות הסקה רב-שלבית ועל בסיס מידע נתון.

והתוצאות שלו? - הן מדויקות, איכותיות ועמוקות מאלה של מודלי שפה "רגילים".

למודל ריזונינג יש יכולת חשיבה מתמשכת ומבוססת יותר מזו של מודלי שפה רגילים. כי בשביל לענות על שאלות, מודלי ריזונינג (היגיון) כאלו "חושבים" ומשתמשים בהיסק רב-שלבי, בצעדים ובחשיבה מורכבת, מרובת שלבים ומעמיקה.

מכאן זכו מודלי היגיון לכינוי "שרשרת חשיבה" או "שרשרת מחשבה". הם חושבים כבני-אדם.

כך לדוגמה, אם נשאל מודל היגיון כזה כמה מוציאים הנהגים בישראל על דלק בשנה, המודל יפרק את השאלה לשלבים שאותם היה מבצע חוקר בדרכו לענות על השאלה הזו. בשלב הראשון המודל "יברר" כמה מכוניות יש בארץ, אחר-כך כמה דלק צורכת מכונית בממוצע, כמה עולה ליטר דלק בממוצע שנתי, כמה יעלה הדלק למכונית בודדת בשנה, הכפלת העלות השנתית כפול מספר המכוניות בישראל וכן הלאה.

כדי לנתח נתונים, לזהות דפוסים ולהסיק מסקנות מבוססות עובדות, מודלי היגיון נוטים להשתמש בטכניקות מורכבות הרבה יותר של בינה מלאכותית ולמידת מכונה. כל אלה מגדילים את היכולת שלהם לנתח נתונים, לזהות דפוסים ולהסיק מסקנות מבוססות עובדות.

בדרך לתת תשובה מחלקים מודלי הגיון את פתרון הבעיה לשלבים, מתעכבים על התשובות, מהרהרים, בודקים, לעתים מתקנים את עצמם (במשימות תכנות וקוד רואים זאת היטב) ומבצעים תהליכי ניתוח מורכבים.

מודל הגיון שכזה מתאים מאוד לפתרון ברמת דוקטור (PhD) של בעיות מורכבות, בעיקר מתמטיות, מדעיות והנדסיות. הוא מושלם לחישובים מורכבים ודברים כמו מתמטיקה, פיזיקה, פיתוח קוד והסקת מסקנות.

#המחיר
מבחינה טכנית, יש צורך בטכנולוגיה משוכללת ויקרה בהרבה ל"חשיבה" כזו ולתחכום הגדול בהרבה של המודלים הללו. כדי להתמודד עם משימות מורכבות הרבה יותר, נדרשים להם משאבי מחשוב וטכנולוגיה גדולים ויקרים בהרבה מהרגיל, מה עוד שהצורך לספק תובנות עמוקות הופך אותם כבדים ואיטיים יותר, עד שניתנים למשתמש התשובה והדרך בה המודל הגיע אליה.

על כוח המחשוב המשמעותי מהרגיל שדורשים מודלי ריזונינג, הדגים כבר מהתחלה המודל הראשון מסוג זה, ChatGPT 4o1 של OpenAI. זה ניכר מעט פחות, אבל עדיין, גם במודל הסיני המפתיע DeepSeek, שפותח לכאורה בגרושים והראה תוצאות היגיון ומענה מרשימות, כל אלה בדרישות חומרה נמוכות בהרבה.

#החשיבה דרך הבעיה
מודל היגיון, הוא מודל מנומק, שמשתמש בהיגיון כדי "לחשוב דרך" הבעיה ולהיות מסוגל גם להראות את תהליך החשיבה שביצע, לפני שנותן את התוצאות. זאת בניגוד למודלים הרגילים שמבצעים אופטימיזציה סבירה, רק כדי שיוכלו לספק את התשובה המהירה ביותר (שזה מה שגם גורם לא פעם למודל שפה רגיל לתרום לנו בדרך את ה"הזיות", אותן Halucinations המוכרות לנו כל כך).

בקיצור, אם מודל שפה רגיל הוא הבחור הטקסטואלי שהוא אלוף על טקסטים ועונה מהר, מודל ההיגיון הוא הנערה המבריקה והריאלית, שיכולה לפצח בעיות מופשטות, מתמטיות, פיזיקליות ומדעיות בתחומים ומדעים מדויקים, בלי למצמץ ועם יכולת לנמק ולהסביר את הפתרון שאליו היא מגיעה, צעד אחר צעד.

מודל כזה מבצע לעתים קרובות "שרשרת מחשבה" (Chain of Thought) ולכן גם מכונה כך לפעמים. המודל חושב צעד אחר צעד, בצורה שמזכירה את האופן שבו אנו, בני האדם, עשויים לגשת לאתגר משמעותי יותר כמו פיתוח אפליקציה חדשה, תכנון חופשה או בניית בית.

#היתרון
משמעותו של מודל כזה היא ביכולת שלו לספק תשובות מדויקות ומושכלות לשאלות מורכבות, לפתור בעיות ולקבל החלטות מבוססות נתונים. לכן וכדי להצטיין בבעיות מסובכות יותר, מומלץ להזין אותו בכמה שיותר הקשר, קונטקסט (Context) לגבי הנושא והגישה לפתרון.

#במה הם יכולים לעזור לנו?
מודלי ההיגיון מצטיינים בתחומים או משימות הדורשים יכולת חישובית גבוהה או דיוק. משימות כמו ניתוח מסמכים, ניתוח קבצים, או כתיבת קוד למשל, הן קלאסיות למודלים כאלה.

מודלי ריזונינג יכולים לנתח כמויות גדולות של נתונים במהירות ובדייקנות, לזהות דפוסים ולהסיק מסקנות. הם יכולים לפתור בעיות מורכבות יחסית, על ידי שימוש בלוגיקה ובאלגוריתמים מתקדמים.

ביכולתם גם לסייע בקבלת החלטות מבוססות נתונים, מה שיכול להיות מועיל בתחומים כמו רפואה, כלכלה וניהול. בנוסף, הם יכולים להסיק מסקנות לוגיות על בסיס הנתונים שנתונים להם, מה שיכול לסייע בתחזיות ובתכנון.

מודלי ההיגיון יכולים לחסוך זמן ומאמץ בביצוע משימות מורכבות, מה שמאפשר למשתמשים להתמקד בפעילויות אחרות. ביכולתם לספק תשובות מדויקות ומבוססות עובדות, מה שיכול להיות מועיל בתחומים כמו רפואה, משפטים והנדסה.

מודלים אלו מסייעים בקלות בקבלת החלטות מושכלות ומבוססות נתונים, מה שיכול להיות מועיל בחיי היומיום ובעבודה והם יכולים גם לסייע בפתרון בעיות מורכבות במהירות וביעילות, מה שיכול להיות מועיל בתחומים רבים.

ברפואה, מודלי היגיון יכולים לסייע באבחון מחלות ובמתן המלצות לטיפול על בסיס נתונים רפואיים.

בכלכלה, ניתן להסתייע בהם בניתוח שוק ההשקעות ובקבלת החלטות כלכליות מבוססות נתונים.

בחינוך, המודלים הללו יכולים לסייע בהוראה ובלמידה על ידי סיפוק הסברים מדויקים ומושכלים לשאלות מורכבות.

בניהול, הם מעולים הסיוע לניהול משאבים מוצלח ובקבלת החלטות ניהוליות מבוססות נתונים.

אז אם לסכם, מודלי חשיבה, מודלי מחשבה, מודלי חשיבה, או מודלי היגיון הם כלים חזקים שיכולים לסייע במגוון רחב של תחומים ולשפר את איכות החיים של המשתמשים. הם עושים זאת על ידי סיפוק תשובות מדויקות ומבוססות עובדות. עם יכולות כאלה מודל מחשבה מאפשר לנתח נתונים במהירות, לפתור בעיות מורכבות ולקבל החלטות מבוססות נתונים, מה שהופך אותו לאחד הכלים החיוניים ביותר בדור החדש של העידן הדיגיטלי מבוסס הבינה המלאכותית.

הנה מודל הריזונינג, מודל המחשבה שחושב לפני שהוא עונה (עברית):

https://youtu.be/inQWCxyBWJY

מודל ההגיון הסיני Deepseek R1 שיודע לחשוב מראש, לתכנן, להשוות כמה תשובות אפשריות, לפרק את הבעיה לחלקים, לחזור אחורה ולחשוב מחדש על השאלה וכך לענות היטב על שאלות קשות, מורכבות ועד לא מזמן בלתי אפשריות למודל שפה:

https://youtu.be/-2k1rcRzsLA

דוגמה לבעיות פשוטות מהחיים שמודל מנומק יכול לפתור:

https://youtu.be/yQampjl6gPI

שניים כאלה:

https://youtu.be/rzMEieMXYFA

ו-DeepSeek R1 הוא מודל מנומק בקוד פתוח:

https://youtu.be/yT3KGbiA09Q

מה בין מודל היגיון, מולטי מודאליות ושרשרת מחשבה?

בעולם המתהווה ממש לנגד עינינו יש לעתים בלבול בין טכנולוגיות, מושגים ורעיונות שונים. הבה נבהיר את ההבדלים ביניהם:

#מולטי מודאליות (Multimodal Model)
זוהי תכונה של מודל שפה שיכול לקבל סוגי קלט שונים ולהתייחס אליהם, במקום רק טקסט, כמו מודלי השפה הרגילים או הראשונים שהכרנו בהתחלה. הרעיון במודלים מולטי-מודאליים כאלו הוא שהם משלבים כמה סוגי נתונים או מודאלים, כולל טקסט, תמונות, הקלטות, אולי סרטונים וכדומה.

דוגמה לכך היא מודל ה-Multimodal Chain-of-Thought (בקיצור CoT), שמציע גישה בה המודל משתמש בשני שלבים: הראשון הוא יצירת רציונלים, הסברים, והשלב השני של הסקת תשובות. השילוב של מידע טקסטואלי עם מידע חזותי מאפשר למודלים אלו לשפר את ביצועיהם ולצמצם את כמות ה"הזיות" (hallucinations) בתשובותיהם. פירוט בתגית "מולטי מודאליות".

#מודל היגיון (Reasoning Model)
מודל היגיון, מודל מחשבה או מודל חשיבה, הם שמות שונים של מודל שנועד לחקות את תהליך החשיבה האנושית. הוא מתמקד בהסקת מסקנות לוגיות על בסיס מידע נתון, ולא רק בהפקת תשובות מהירות.

מודלים אלו מבצעים לעיתים קרובות "שרשרת מחשבה" (Chain of Thought), כלומר הם חושבים צעד אחר צעד כדי לפתור בעיות מורכבות, כמו בעיות מתמטיות או מדעיות. זה מאפשר להם להסביר את הפתרונות שלהם בצורה ברורה ומדויקת יותר. פירוט בתגית "מודל היגיון".

#שרשרת מחשבה (Chain of Thought)
ה-Chain of Thought ובקיצור CoT, הוא טכניקת הפעלת מודלים שבה המודל מונחה לפרק בעיה סבוכה ומורכבת ולייצר רצף של צעדי חשיבה קטנים, לפני שהוא מספק תשובה.

שיטה זו, המחקה את דרך הפעולה האנושית, שיפרה את יכולות ההיגיון של מודלים גדולים והוכחה כיעילה בביצוע משימות שונות כמו חישובים, רציונליזציה של מצבים יומיומיים, ופתרון בעיות סימבוליות.

המודל מתבסס על דוגמאות קודמות כדי להנחות את החשיבה שלו, מה שמוביל לשיפור משמעותי בביצועים. פירוט בתגית "שרשרת מחשבה".

#סיכום
אז נסכם שמולטי מודאליטי או מולטי מודאליות משלבת סוגי נתונים או קלט שונים ולא רק טקסט ובכך משפרת ביצועים.

מודל היגיון, או חשיבה, בסמוך, מחקה את החשיבה האנושית ומספק הסברים לוגיים לתשובות שהוא נותן, בעוד שחשיבה מדורגת, או שרשרת מחשבה, היא טכניקה שמסייעת ומנחה מודלים לחשוב על בעיות בצורה מסודרת, לפני שהם נותנים את התשובה.

שלושת המושגים הללו קשורים זה בזה, כי מודלי ההיגיון יכולים להשתמש בטכניקות של חשיבה מודרגת (Chain of Thought) ולא פעם משולבים בהם אמצעים מולטי-מודאליים כדי לנצל את היתרונות של כל אחד מהם.

שרשרת מחשבה

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!

אֵאוּרִיקַה - האנציקלופדיה של הסקרנות!