הטייק שלי על בינה מלאכותית במוזיקה

יש הרבה פאניקה, חששות, מיסאינפורמציה ואופטימיות סביב ההגעה של בינה מלאכותית במוזיקה. במאמר זה אנסה לתת את השני סנט שלי בנושא, ואנסה להסביר למה אנחנו לא בפתחה של האפוקליפסה אבל עדיין יש לנו ממה להישמר.

בינה מלאכותית במוזיקה קווים לדמותה

אני לא מומחה לענייני בינה מלאכותית אבל אנסה בכל זאת לתאר את המסלול שעברנו בשנים האחרונות עם בינה מלאכותית כדי להבין בגדול איפה אנחנו נמצאים בתחום. עד לפני שנים ספורות ההתקדמות שהגענו אליה בתחום הבינה המלאכותית (מעכשיו אכתוב ב”מ בקיצור) היה נראה במרחק כמה עשורים מאיתנו, הב”מ בנויה על משהו שנראה רשתות נוריאליות (neural networks) ובגדול אף אחד לא יודע להסביר מה קורה בתוך הרשתות האלו, בכללי אפשר להגיד שהרשתות האלו באות להתחקות אחרי מבנה המוח האנושי.

הרשת מקבלת משימה ומסד נתונים ומרכיבה בעצמה קשרים כדי להשלים את המשימה בהצלחה – לדוגמה: אם רוצים שבינה מלאכותית תזהה תמונה של חתול ותסווג אותו בתור חתול אנחנו קודם כל צריכים לתת לה כמות אדירה של מידע בצורת תמונות של חתולים כדי שתוכל לזהות את החתול, הרשת לא יודעת לראות ולזהות חתול כמו שבני אדם יודעים אז היא נעזרת במידע משותף לכל התמונות – ניגודיות, דפוסי צבעים, מתאר, אלמנטים נוספים שנמצאים בתמונה ועוד, אלו הקשרים שהרשת יוצרת ואנחנו לא באמת יודעים מה הם הקשרים ולמה אלו הקשרים שהרשת יצרה. לאחר מכן מאמנים את הרשת על תמונות נוספות חלקן של חתולים וחלקן לא של חתולים ומתגמלים את המערכת על כל זיהוי נכון. בסוף התוצאה היא שהרשת יודעת לזהות תמונה של חתול ואולי אפילו לייצר תמונה של חתול על סמך המידע שהיא קיבלה. בפשטות מאוד מאוד גדולה זה התהליך שבו מאמנים ב”מ לזהות ולייצר טקסט, תמונה ואפילו מוזיקה.

בגדול ישנם כמה סוגים של ב”מ אבל נתמקד בשניים מהם, הראשון נקרא ב”מ גנרטיבית (generative AI) שזה השלב בב”מ שבו אנחנו נמצאים כעת, העבודה של במ”ג היא לחלוטין נגזרת מתוך מאגר נתונים גדול או קטן והיא אינה “מקורית” בשום צורה, היא רק לוקחת את אותם חיבורים שדיברנו עליהם קודם כדי להוציא פלט מבוסס על הסתברות על סמך המידע שיש לה. באופן כללי אפשר לומר שבמ”ג היא מוגבלת לפונקציה מסוימת שהיא אומנה עליה ולא פתוחה לסוגים שונים של קלט ופלט – כל מודל ב”מ יש לו ייעוד (רחב ככל שיהיה) אחד.

הסוג השני של ב”מ נקרא בינה מלאכותית כללית – וזה הסוג שאנחנו חושבים עליו כשאנחנו מדברים על בינה מלאכותית, ב”מ שיכולה לחשוב לבד ולעשות מגוון של משימות במגוון של תחומים. אנחנו עוד לא שם, ואולי אף פעם לא נגיע לשם.

אני אדלג על כל החלקים המשעממים של ההיסטוריה של החברות והארגונים שייצרו את הקפיצה הגדולה של ב”מ בימינו אנו, כי יש מליון מאמרים על זה באינטרנט, ואנחנו רוצים להגיע לעיקר – איך זה משפיע על תחום המוזיקה בפרט והאומנות בכלל.

היתרון במערכות בינה מלאכותית

כפי שקרה במהפכה התעשייתית ובאינספור נקודות לאורך ההיסטוריה שבה הגיעו טכנולוגיות חדשות ואנשים חששו באמת על כך שאורח החיים שלהם ישתנה מהקצה אל הקצה, יאבדו את עבודתם ואת יכולת ההשתכרות שלהם, כך גם עכשיו ישנו גל כזה שזועק גוועלד על הבינה המלאכותית, אבל כפי שראינו בכל נקודה כזאת בהיסטוריה – בני אדם מסתגלים וממציאים לעצמם תפקידים חדשים, משרות חדשות ודרכים חדשות להיות פרודוקטיבים, כך שאני לא חושש מכך שבינה מלאכותית תייתר עבודות משום שעבודות חדשות יווצרו בעקבות ההגעה של ב”מ לשוק. מקצועות ובעלי מקצוע יצטרכו לשלב ב”מ בדרכי העבודה שלהם – כולל אמנים ומוזיקאים – או במקצועות שיוותרו יתומים מאנשים ויוחלפו במכונות ב”מ, ימצאו את עצמם בתחומים חדשים וממוצאים כפי שעשינו עד כה בכל נקודה בדרך. זה מעבר כואב וקשה אבל לא בלתי אפשרי.

היתרון הכי משמעותי שאני רואה כרגע בשילוב ב”מ בשוק העבודה היא בהפיכת העבודה ליותר אוטומטית ולייתר פעולות סיזיפיות שעד כה היו מבוצעות על ידי בני אנוש והעברתם לדרג ממוחשב כך שהאנשים יוכלו להתפנות לעבודה יותר פרודוקטיבית. כך יראה גם שילוב חכם של ב”מ בתחום המוזיקה והקולנוע – אוטומציה של עריכת קטעים ורינדור של הרבה דאטה, ניקוי רעשים בהקלטות, סינתיזה, סימפול, תיווי ועוד פעולות סיזיפיות שאני עושה באופן יום יומי ואוטומיזציה של הפעולות האלו יחסוך לי הרבה זמן וכסף בעבודה.

הבעיות בתחום הבינה המלאכותית

למרות היתרונות הבולטים של ב”מ כבר עם צאת הבינה המלאכותית הראשונה בעידננו זוהו מספר בעיות איתה שאני אנסה לתאר כאן. חלק מהבעיות האלו הן אנושיות ואולי ניתנות לתיקון וחלקן טמועות במערכת ולא יזוזו לשום מקום. כמובן שיש עוד בעיות, אבל אני אתמקד בשלוש שלדעתי ראויות לציון במיוחד.

הטיות במערכת – למרות ההתרברבות על כך שב”מ היא מערכת בלתי תלויה בבני אדם ולכן אינה משוחדת לכאן או לכאן, היא עדיין בנויה על מאגרי מידע אנושיים ולכן מושפעת מההטיות המערכתיות שיש לנו ומתורגמות לפלט של הב”מ. כך למשל תוכנות זיהוי פנים מאוד טובות בלזהות פנים של אנשים לבנים, אבל מאוד גרועות בזיהוי פנים של אסייתים או שחורים, שלא לדבר על נשים אסייתיות ושחורות – פשוט משום שיש הרבה פחות תמונות שלהם/ן מאשר של גברים לבנים באינטרנט. כך גם במוזיקה – יש הרבה מידע על מוזיקה מערבית פופלארית, אבל הרבה פחות מידע על תרבויות מוזיקה לא מערביות ובמיוחד מוזיקה מסורתית שאינה מוקלטת לרוב.

אנחנו לא יודעים איך היא עובדת – זה פשוט מה שזה, כמו שציינתי קודם לכן, אף אחד לא יודע להגיד מה עובר בתוך המוח של הב”מ. אני לא יודע אם זה ממש בעיה לכולנו או רק בעיה של המתכנתים, אני יודע שיהיה לי קשה לרכוש מוצר שאומרים לי שהוא עובד 100% אבל לא יודעים להסביר לי למה או איך.

בינה מלאכותית מעתיקה – כמו שציינתי קודם אנחנו בשלב הב”מ שבו צריך לאמן מודל ב”מ מסוים על גבי מאגרי מידע מסוימים, וזה עובדה ידועה כבר שמודלים כמו DALL E שאמורים לייצר גרפיקה ווידאו מאומנים על מאגרי מידע שלא קיבלו את אישור היוצרים או בעלי הזכויות, וזה מייצר בעיה של זכויות יוצרים גם מבחינה חוקית וגם מבחינה מוסרית, ישנם עכשיו דיונים בבתי משפט בכל העולם בדיוק על הסוגיה הזאת. אבל בכנות, זו לא הסוגיה שהכי מעסיקה אותי, בסופו של דבר גם אנחנו כבני אדם רואים המון אומנות במהלך חיינו והופכים את המוכר למשהו חדש, ואני דווקא בעד לתת לקדמה לקחת אותנו קדימה ולא לתת לחוקים מיושנים (שגם לפני הב”מ הם היו מיושנים) לעצור אותנו כפי שקרה לדוגמה עם נאפסטר.

בינה מלאכותית במוזיקה

רוב השיח סביב בינה מלאכותית במוזיקה סובב סביב שני נקודות מבט עיקריות, מנקודת מבט של המוזיקאי, כלומר בכלים שהמערכות החדשות האלו יכולות לתת לנו לעבודה. ומנקודת המבט של הצרכן, כלומר כלים שיעזרו לצרכן לקבל חוויית האזנה וצריכה טובה יותר. בשני המקרים יש צורך בפיתוח של מערכות מיוזיק-טק מתקדמות שבאופן כללי ישפרו את החוויה של המוזיקאי ושל הצרכן כאחד.

נקודת המבט השלישית, שעליה לא מדברים והיא זו שמדאיגה אותי במיוחד, הלייבלים וחברות הענק בתחום המוזיקה. זה לא סוד שכ70-80% מהכנסות ורווחי התעשייה הולכים ישירות אל החברות הגדולות בתחום כמו יוניברסל, וורנרברוס, ספוטיפיי ועוד ואני מודאג מהאופן שבו הן ישתמשו בכלי הזה כדי להשפיע על השוק – ואני אתן שלוש דוגמאות לדברים שאני חושב שהם סנוניות מדאיגות בתעשייה היום.

ספוטיפיי

ספוטיפיי היא לא חברה ברת קיימא, היא חברה הפסדית שבטווח הארוך תפשוט רגל כי המודל הכלכלי שלה פשוט לא מחזיק את עצמו, עלויות הפיתוח, התוכנה, ההתחזוק והעריכה הן עצומות עוד לפני שאנחנו מדברים על תשלום התמלוגים לאמנים. למעשה ספוטיפיי עד היום אינה רווחית ומפסידה בכל שנה מיליונים, למרות זאת היא מחזיקה במיליארדי דולרים של משקיעים וחשוב מכך, בתשומת הלב שלנו כמאזינים. בדומה מאוד למקבילותיה בתחום הסטרימינג כמו נטפליקס ודיסני פלוס, ספוטיפיי הבינה כי על מנת להרוויח באמת מהפלטפורמה עליה להחזיק ולקדם את המוזיקה שהיא הבעלים הבלעדיים שלה וכך להחזיק 100% מנתח הרווחים בעבור המוזיקה הזאת. בתחילת הניסוי של ספוטיפיי עם מוזיקה מיוצרת בב”מ התנסתה עם טראקים אמביאנס לפי מצבי רוח, דברים שהב”מ עוד יכולה לעשות בצורה יעילה, טראקים מהסוג שאנשים שומעים בעבודה, במדיטציה ובפעולות יום יומיות רבות ויש להן הרבה מאוד השמעות בפלטפורמה. היא הסתמכה על מסד הנתונים האדיר שהוא ספוטיפיי, ולאחר מכן החלה לקדם פלייליסטים בעריכתה עם המוזיקה הנ”ל שיד אדם לא נגעה בהם. כך למעשה הפלטפורמה ששולטת גם בייצור של המוזיקה וגם בכלי חסר תקדים שאין לאף אמן או לייבל כדי לקדם את המוזיקה הזאת – הם יכולים להבטיח את הרווח שלהם, על חשבוננו.

עפרה וזהר

כולנו שמענו את הקרינג’ שהוא השיר החדש שהופק על ידי טל פורר, רון בי ומכלוף ומבוצע על ידי שחזור קולי של עפרה חזרה וזוהר ארגוב. זה מה שקורה בארץ, ובארה”ב ישנם שירים שמחיים או מחקים את טופאק, דרייק, קורט קוביין ועוד למעשה זהו שחזור די בינוני ומכאני של הקולות שלהם, אני לא יודע אם אי פעם המודל הזה ישתפר, אבל זה דוגמה טובה למודל שהוא לא יוצר מוזיקה, לא כותב את העיבודים, מקליט את הכלים או אפילו ממקסס וממאסטר את השירים – אבל כן מייצר ווקלאס כמו שאלכסה לדוגמה מייצרת. אני תוהה אם היו מייצרים שיר עם ווקאלס של ב”מ שלא משוייך לאמן עבר או הווה מוכרים, האם מישהו היה מתייחס או מאזין לזה? שלא לדבר על האזנה שניה או הוספה לפלייליסט. זה פורמט שכולו מטרה אחת, באז תקשורתי ורווח מהיר – על חשבון חוש הנוסטלגיה המפותח שיש לנו בתור מילניאלים וג’ן זי. אם אני חושש מהתפתחות של תופעות מסוימות אז אני לא מדבר על שימושים יצירתיים ומהפכניים של אנשים פרטיים כדי ליצור תוכן חדש, אלא שימוש ציני של תאגידי ענק ששווים מילארדים על חשבוננו הצרכנים והמוזיקאים כאחד.

עוד מאותו הדבר

הדבר שאני הכי חושש ממנו בתחום הבינה המלאכותית במוזיקה, היא הכח שחברות הענק מחזיקות והרצון שלהן להרוויח. שוק המוזיקה והיצירה בכללי מושפע משני דברים, מצד אחד היצירה האומנותית והרצון של האמן להביע את עצמו, התווים שעליהם הוא פורט פיזית ומטאפורית נוגעים גם בתווים אצל המאזינים וכך נוצר מעגל של חידוש והתחדשות שמבוסס על יצירות עבר אבל גם נע אל העתיד. מהצד השני ישנן את אותן החברות שמחפשות להרוויח במינימום השקעה ומקסימום רווח – והן עושות את זה בשתי טכניקות: הראשונה היא לחפש את אותם אמנים שנוגעים בקהל ומביאים משהו חדש אל השולחן ולמנף אותם והטכניקה השנייה היא על ידי יצירת חקיינים שמותאמים אישית למה שהקהל אוהב.

אני חושש שככל שהטכנולוגיה תתפתח כך אותן חברות יוכלו בקלות ובמהירות לזהות מה הקהל “אוהב” ולהביא להם את זה במהירות הבזק ובכך הם יוכלו להוציא את הגורם האומנותי וחשוב מכך האנושי מהתמונה. כך שבמקום ספירלה של חידוש והתחדשות יהיה לנו מעגל סגור שמכיל עוד ועוד מאותו הדבר – אותה מוזיקה בוריאציות שונות, עם מוטיב אחד – להרוויח כמה שיותר ולהשקיע כמה שפחות.

יש להם את כל הכלים לדחוף אותנו היוצרים החוצה, והם כבר מתחילים לעשות את זה.

אחרית דבר

אחרי כל המאמר המאוד ארוך הזה אני רוצה לסכם בנימה מעט אופטימית, הכח עדיין בידיים שלנו היוצרים והיוצרות, ליצור ולחדש לגעת בקהל, ככל שהטכנולוגיה תתפתח כך גם האפשרויות, וצריך לאמץ אותן. אני חושב שבמידות רבות ה”אפוקליפסה” היא לא משהו רחוק ואימתני, למעשה היא השגרה שלנו בעולם ניאוליברלי, אנחנו כבר נמצאים במציאות שבה חברות ענק עושות מיליונים על הגב שלנו ושל הקהל שלנו – וזה עלינו למצוא מודלים כלכליים, חברתיים וטכנולוגיים כדי לשנות את זה.