
הכתבה הזו היא כתבה טכנית כבדה שעוסקת בנושא טכנולוגי מעניין. יהיה לי כיף שתקראו. אבל אם לא הבנתם, זה לא אתם זה אני.
אחד הדברים שגילה כל מתכנת שהתחיל לעבוד עם AI זה שאתה פשוט מוגבל. פתאום במקום להספיק משהו ביומיים ה-AI עושה אותו בשעה, אבל אז נגמרים לך הטוקנים ושוב צריך לחכות 4 שעות או שנגמר השבוע. אפשר כמובן לשלם יותר כדי לקבל עוד קצת אבל גם זה נגמר מהר מאוד.
טוקן (token) לקוראים שלא בקיאים, זו בעצם יחידת המידע הבסיסית בעולם הAI. לרוב זה מילה, או סימן פיסוק. הייצוג של "משהו" בעולם הזה.
זה, יחד עם זה שרציתי לשחק עם עוד כמה דברים הביאו אותי לעשות דבר שלא האמנתי בחיים: לקנות mac. במשך יום שלם התקוטטתי עם ChatGPT ועם Gemini כדי שיסבירו לי למה כדאי לי לקחת DGX (מכונה מבוססת לינוקס שמוכרים החברים ב NVIDIA) אבל מהירות הזיכרון של mac studio שכנעה אותי.
אז קניתי מק סטודיו. וחיברתי אליו כנראה את המסך והמקלדת הכי עלובים שחוברו למחשב של 16 אלף שקל אי פעם.
מי שמכיר אותי ברמה האישית יודע שאני לא מסתדר עד מתעב מק. אז הדבר הראשון שעשיתי היה להפעיל עליו SSH כדי להתחבר אליו מהתחנה שלי. ניתקתי לו את המסך והמקלדת והמשכתי הלאה. אחר כך כשהתחברתי אליו דרך שורת פקודה כיביתי את שירות הסאונד ובעצם כל דבר כדי לנצל את מלוא הזיכרון שלו עבור מודלים. זה היה מעניין אבל לא לשימושי עבודה. רק צעצוע יקר.
עד עכשיו רק שיחקתי.
בפעם הבאה ש-Codex החליט שנגמר לו, החלטתי להתחיל לעבוד עם המחשב החדש לצרכי עבודה ממש. ניסיתי לחבר אליו כמה agents והאמת שלא הייתי מרוצה. cline קרע לו את הצורה עם בקשות גדולות מדי ואחרים לא עבדו כמו שצריך. בסוף התמקמתי עם pi agent (תודה חיוס) ודברים התחילו לעבוד פחות או יותר כמו שצריך.
התחלתי עם Qwen 3.6 36B. כ-70 טוקנים בשניה. הוא עבד יפה אבל גילינו די מהר שהוא גרוע בHTML וטוב בצד שרת. המשמעות הייתה שהוא יכול לעשות בערך 80% מהעבודה בימים מסויימים. קצת אחר כך עברתי לגירסה לא מצונזרת שלו, שזה אומר שהוא יודע לענות על שאלות כמו איך מכינים TNT (ספויילר: לא הבנתי מילה) או איך מעלים יהודים עם דגל ישראל על הר הבית. השימוש האמיתי של זה היה להשתמש בו כדי לתקוף שרתים (שלי) לצרכי בדיקות אבטחה, מה שמודל רגיל בדרך כלל מסרב לעשות. זה הוכתר בהצלחה וכמה ימים אחר כך העלתי תיקונים לחורי האבטחה שהוא מצא.
בשלב הזה גם עוד אנשים שעובדים איתי או אצלי התחילו להשתמש בו כדי לחסוך כסף על codex או claude code. הוא לא עשה הכל אבל מה שעשה היה בסדר גמור. לפעמים נתתי ל-codex לעבור על השינויים שלו ולהציע הצעות לתיקון (מה שמוכר בעגה המקצועית כ-code review). זה עבד יפה.
עוד בונוס שהתחלתי איתו די מהר: זרקתי אליו קבצי קונפיגורציה עם סיסמאות ומידע סודי בלי לחשוש שהם ידלפו לאינטרנט. זה רץ מקומית, למי אכפת.
ואז קראתי בטוויטר (X, די, רדו ממני קרציות) ש-Antirez (הגאון שעומד מאחורי שרת-העל redis שמפעיל מאות אלפי אתרי ענק ובין השאר גם את ערוץ 7) השמיש את DeepSeek 4. למי שלא יודע, DS4 זה מודל שנועד לרוץ על חומרה של מאות אלפי שקלים. כלומר, נחמד, אבל לא מתאים בשביל חומרה שאפשר לקנות לבית. אז הגאון האיטלקי הזה הצליח להתאים את המודל בצורה שלא כל כך פוגעת ביכולות שלו, לרוץ על חומרה מקומית.
לפני כשבוע וחצי עברתי מ-QWEN ל-DS4 של Antirez. שני דברים גיליתי די מהר:
- הוא איטי (כ23 טוקנים לשניה ולעיתים פחות)
- הוא ממש טוב.
כלומר, הוא מתמודד עם HTML, הוא מתמודד עם משימות גדולות. בשלב מסויים הגדרתי לו קאש של חצי טרה ו- context של 300K. - אחרי עוד כמה ימים הגענו למסקנה שהוא גרוע בביצוע של שתי משימות במקביל.
הקאש שלו מתרוקן וצריך לחכות לפעמים 5(!) דקות עד שהוא מתמלא בחזרה. אבל כל עוד הוא רץ רק על תהליך אחד הוא עובד אחלה.
עד כאן זה היה נחמד. מכאן לקטע המטורף: בשלב מסויים לקחתי משימה גדולה מדי שחשבתי שהייתה גדולה מדי על DS4 ונתתי אותה ל-Codex. עד שנגמרו הטוקנים אחרי כמה שעות תוך שהוא נכשל במשימה.
ביאוש נתתי את המשימה ל-DS4. על הקריאה הראשונה היה ניתן להבין שבמשימה הספציפית הזו הוא פשוט עדיף על ChatGPT ולדעתי גם על Claude המתחרה שלו. זה לקח עוד כמה שעות אבל המשימה הושלמה והמוצר (חומרה פיזית עם תוכנה מותאמת) פועל.
בזמן שהוא פעל נשארתי בלי AI בשביל דברים אחרים. אז אחרי ששבוע וחצי כמעט ולא נגעתי בשירות ענן, חזרתי לשירותי הענן פשוט כי השרת המקומי עמוס.
