الآن وغداً

  بالشراكة مع:



الاقتصادي – الآن وغداً

 

بقلم: فينيسا تشانج

 

في وقت سابق من هذا العام، أصدرت الشركة الكندية الناشئة ديسا "Dessa" المتخصصة بتطوير تقنيات الذكاء الاصطناعي شبيهاً للمذيع الأميركي المشهور جو روجان، الذي يُعرف أيضاً بأنه معلق على ألعاب الفنون القتالية المختلطة، وممثل كوميدي ارتجالي. وصفت النسخة الصوتية، من خلال ترديد أسلوب المذيع التوكيدي، فريقاً "متخيلاً" للعبة من الألعاب الأميركية، وذلك عن طريق توليف نص مكتوب من قبل مهندسي "شركة ديسا". وإذا لم تكن ملماً بما حدث بالضبط، فقد تعتقد أنها كانت مجرد حلقة أخرى من حلقات "تجربة جو روغان"، لكن الحقيقة أنّ ذلك الصوت كان صادراً عن دمية رقمية من خلال تطبيق تقنية الـ"ديب فيك" (deepfake) وهي تقنية لتوليف الصورة والصوت المعززة بالذكاء الاصطناعي، التي قرأت أيضاً جملاً مكونة من كلمات يصعب نطقها عادة بصورة متتالية، ذلك بغرض إبراز الكمال الذي يتمتع به الذكاء الاصطناعي.

يُعد الصوت فريداً من نوعه تماماً مثل بصمة الإصبع، ولبصمة الصوت تلك ارتباط أساسي بالجسم، إذ ينبثق من خليط فريد من فيزيولوجيا وبيولوجيا وعادات الإنسان وتاريخه الشخصي والاجتماعي. في الوقت نفسه، كان صوت الإنسان يُفهم على مر التاريخ بأنه تعبير عن الروح، إنه يمثل المكانة المميزة للجنس البشري. يعدّ الإنسان في نهاية المطاف من الكائنات الحية القليلة، بما في ذلك الببغاوات والطيور المغردة والدلافين والحيتان والفيلة، القادرة على النطق.

أثارت التقنيات التي تعيد إنتاج صوت الإنسان المخاوف الوجودية على مر الزمن. ففي نهاية القرن التاسع عشر، يعدّ توماس إديسون أول من فصل ارتباط الصوت بجسم الإنسان، إذ أعلن في 1877 اختراع الفونوغراف، وهي آلة يمكنها تسجيل الصوت وتشغيله. بالنسبة إلى المستخدمين والمستمعين الأوائل، بشّر تسجيل الصوت بعصر جديد لن يموت فيه الصوت بفناء الجسد، فمن خلال الحفاظ على الصوت، وعد الفونوغراف بالإبقاء على شيء من الإنسان بعد موته. ووفقاً لمقالة نشرتها المجلة العلمية الأميركية "Scientific American" في 1877، قدمت الآلة "وهم الوجود الحقيقي"، حيث كان يصعب التمييز بين الصوت الصادر عنها والصوت الصادر عن البشر بصورة حية، وهذا شبيه بما تقدمه تقنيات الـ"ديب فيك" المعاصرة. أما بالنسبة إلى الآخرين، مثل المؤلف الموسيقي جون فيليب سوزا، فقد أعربوا عن أسفهم حول ظهور مثل تلك "الآلات الناطقة". ففي مقالة شهيرة، انتقد سوزا "بلاء الموسيقى الآلية"، وطرح فكرة أنّ التسجيل الصوتي هو "بديل عن مهارة البشر وذكائهم وروحهم".

والآن، أصبحت تقنيات الـ"ديب فيك" الصوتية، مثل مقاطع الفيديو والصور، مهيأة لمفاقمة الأزمة المثيرة للقلق حول الأدلة والثقة والأصالة الموجودة أصلاً. من المقلق بالتأكيد أنه يمكن نشر التجسيد الصوتي بالطريقة التي تُنشر فيها الفيديوهات والصور المعززة بتقنية الـ"ديب فيك"، فبالنسبة إلى نقاد هذه التقنية، يلوح في الأفق مستقبل ينذر بالشر، حيث تقوض هذه التقنية الثقة في أشكال الأدلة التقليدية (وتنذر بحدوث المزيد من المحادثات الآلية المزعجة والاحتيال عبر الهاتف). أما بالنسبة إلى الآخرين، فتحمل هذه التقنية الناشئة وعوداً كبيرة، حيث تقدم نماذج صوتية واقعية للأشخاص الذين يعانون من صعوبات في النطق، ومساعدين صوتيين أكثر إقناعاً، وبوتات للدردشة أكثر وداً، واستخدامات لا حصر لها في صناعة الترفيه. كما يتصور الموسيقيون على وجه الخصوص، وذلك بدافع من اهتماماتهم الفنية أكثر من اهتمامهم بالتطبيقات التجارية، إمكانات مختلفة لمستقبل التعاون بين الإنسان والآلة.

انتشرت مبادرات الشركات في تقنيات توليف الصوت القائمة على الذكاء الاصطناعي على مدى السنوات القليلة الماضية. وبالاعتماد على مجموعات الأرشيف الصوتية الموجودة، كالتجربة التي قدمتها "شركة ديسا" بتوليف صوت المذيع جو روجان، فإنّ هذه المشاريع تميل إلى محاكاة الشخصيات الثقافية المعاصرة. في شهر يونيو (حزيران)، أصدر باحثان في مجال الذكاء الاصطناعي في "شركة فيسبوك"، وهما مايك لويس وشون فاسكيز، نتائج مزج كلامهما، بما يسمى مشروع ميلنت "MelNet". غُذيت التقنية بمجموعة بيانات مدتها 452 ساعة بما في ذلك أكثر من 2,000 محادثة من محادثات تيد، وقد ولّد نظام تعلم الآلة استنساخات صوتية مدهشة لكل من بيل جيتس وجين جودال وجورج تيكي، من بين أصوات لمشاهير آخرين.

في حين أنّ التسجيلات الصوتية الثمينة لملفات تعريف الارتباط لبيل جيتس تقدم النصح للمستمع بأمور من قبيل "قطف الوردة الزاهية دون أوراقها" هي أحاديث جديدة من نوعها، إلا أنّ تلك الاستنساخات الصوتية ليست جديدة تماماً. في عام 2016، عمل القائمون على مشروع ويف نت "WaveNet"، وهو مشروع تابع لشركة جوجل ديب مايند "DeepMind" من جوجل، بتوليف الأصوات من خلال أخذ عينات من الكلام البشري الحالي الموجود لديهم. منذ ذلك الحين، واصلت عدة شركات ناشئة ومجموعات البحث الدولية تطوير التكنولوجيا وتطبيقاتها بطرق تختبر حدود استخدام الهوية التقليدية. تبني شركة مودوليت "Modulate"، الآخذة من كامبريدج مقراً لها، طبقات صوتية تتيح لك إخفاء نفسك بصوت شخص آخر. أما مشروع ديب فويس "Deep Voice" التابع لشركة بايدو "Baidu" فيعمل على استبدال اللهجة أو الصوت على أساس النوع الاجتماعي. وهناك مشاريع أخرى أكثر إيثاراً، فمن خلال مشروع ريفويس "Project Revoice"، القائم بالشراكة مع مؤسسة إيه إل إس "ALS"، تهدف الشركة الناشئة لايربيرد "Lyrebird" القائمة في مونتريال، التي تحمل اسم الطائر الأسترالي ذي القدرة الغريبة على محاكاة الأصوات الطبيعية والاصطناعية، إلى استعادة أصوات المرضى المعرضين لفقدان أصواتهم، وذلك بصورة رقمية.

تتعلم جميع تلك الأنظمة الكلام بصورة أساسية من خلال تحليل الفوارق الدقيقة لأصوات البشر من بين كميات ضخمة من البيانات الصوتية. لكن بينما دُربت البرامج السابقة على تحليل الموجات الصوتية، مثل "شركة ديسا"، يستخدم "مشروع ميلنت" بدلاً من ذلك التمثيل المرئي لطيف ترددات الموجات الصوتية. ولأنّ ذلك التمثيل المرئي أكثر كثافة من ناحية المعلومات، فيمكنه التقاط أوامر بحجم أكبر من البيانات. يؤكد فاسكيز ولويس في ورقتهما البحثية على تفوق "مشروع ميلنت" بالتقاط "تركيبة عالية المستوى"، مثل الأبعاد الخفية والدقيقة للهجة الصوت وطبقته والإيقاع الذي يشبع الصوت بهويته. على الرغم من صعوبة وصفها، إلا أنّ عناصر الصوت هذه تتوافق معها الأذن البشرية بصورة كبيرة. ويصف خوسيه سوتيلو، المؤسس المشارك لـ"شركة لايربيرد، تلك البصمات الصوتية بأنها "الحمض النووي للصوت".

من خلال استنساخ هذه العناصر، قد يهدد توليف كلام الإنسان بواسطة الذكاء الاصطناعي الحالة الفريدة لصوت الإنسان، ولكن يمكن أن يساعدنا أيضاً على إيجاد طرق جديدة للتعبير عن إنسانيتنا. في الألبوم الأخير للملحنة التي تعتمد أسلوب التجريب هولي هرندن، والذي صدر تحت عنوان بروتو "Proto"، تعاونت الملحنة مع شريكها الفنان مات درايهرست وخبير الذكاء الاصطناعي جول لابلاس على بناء ذكاء اصطناعي "طفل" سميّ "سبون". ولأنه دُرب على أغانٍ شعبية تؤديها فرق غنائية، يساعد "سبون" المؤلفة على تأليف موسيقى يصعب فيها التمييز بين الأصوات البشرية وغير البشرية بمؤلفات لا تنسى وربما غير سارّة في بعض الأحيان. من خلال استخدام الموسيقيين الآخرين تقنيات الذكاء الاصطناعي، فإنهم غالباً ما شغلوا الشبكات العصبية في كتالوجاتهم الصوتية الخاصة، أو في المصادر الموسيقية الموجودة، إلا أنّ هرندن استخدمت التكنولوجيا لتعزيز الأساليب الإبداعية الجديدة بدلاً من أتمتة عملية التأليف. ولوجود نزعة طوباوية من ناحية التكنولوجيا، تستخدم هرندن التقنيات الصوتية القائمة على الذكاء الاصطناعي لاستكشاف ظهور السمات الإنسانية داخل الآلة.

على مدار عامين، دربت هرندن "سبون" ضمن مجتمع من البشر، بما في ذلك جلسة غنائية تضم 300 شخص في قاعة معارض برلين مارتن غروبيوس باو (Martin-Gropius-Bau). شاهدت شخصياً تسجيلاً لهذه الجلسة على منصة تقديم الأداء المباشر (ISM Hexadome) في سان فرانسيسكو، وهي عبارة عن منصة بنظام ست قنوات استخدمتها هرندن أيضاً لهذا النوع من التدريب الجماعي الحي. إنّ مزج أداء الإنسان والآلة في تفاعل ديناميكي، والمقطوعات التي يتفاعل معها أفراد الجمهور، وتسجيلات الفيديو، والذكاء الاصطناعي "سبون"، يحرك أداء الفرقة بتأثير عميق. بهذه الطريقة، احتوت هرندن هذه التكنولوجيا الناشئة ضمن الأداء البشري بصورة مثالية. وفقاً للمتخصص في علم موسيقى الشعوب جاري توملينسون، فإنّ الغناء متداخل بقوة مع تاريخ الإنسان وثقافته وتطوره.

الكثير من النقاشات التي تجري عبر وسائل الإعلام حول الذكاء الاصطناعي تكرر الرؤية المضطربة للآثار المروعة للتكنولوجيا على ثقافة الإنسان والمجتمع، وتُروى قصة مفادها بأنّ الآلات سوف تأخذ وظائف الإنسان وتؤتمت أعمالنا في نهاية المطاف وتنهيها. تميل الروايات الإعلامية حول الذكاء الاصطناعي في الوقت نفسه إلى طمس عمل الإنسان الذي يدفع عمليات تعلم الآلة هذه، بما في ذلك كتابة الشيفرة البرمجية المضنية والتدريب ومعالجة البيانات والتأليف. ولتأكيد ارتباطاتنا مع بعضنا باستخدام الذكاء الاصطناعي، تعطي هرندن نموذجاً لأخلاقيات المشاركة التي تحتفل بالبشر الذين يتطورون مع التكنولوجيا. وتقول لمجلة لاود آند كوايت "Loud and Quiet"، "لقد كان جسم الإنسان يشبه الآلة منذ التحول الصناعي، فكيف يمكن للتكنولوجيا تخليص أجسامنا من هذه الحركات الشبيهة بالآلات حتى نتمكن من أن نكون أكثر إنسانية. هذه هي رؤيتي".

أثناء بناء "سبون"، كانت هرندن والمتعاونون معها يدركون تماماً أنّ التقنيات تطمس القيم. ففي "ألبوم بروتو"، فكروا في البروتوكولات اللائقة ليس فقط فيما يتعلق بالبنية التحتية التكنولوجية، ولكن باعتبارها "مجموعة أساسية من القواعد التي يوافق عليها المجتمع". وتقول لمجلة ذا فيدر "The Fader" "ما نوع القيم التي نريد غرسها على مستوى البروتوكولات قبل خروج الأمور عن السيطرة؟ ما الذي نريد أخذه كحقيقة مشتركة؟ إنها ليست مجرد مسألة تقنية، بل إنها مسألة سياسية واجتماعية أيضاً".

من هذا المنطلق، فإنّ تعاون هرندن مع الذكاء الاصطناعي "سبون" – والعديد من الأشخاص الذين شاركوا في إنجاح هذا المشروع – يجسد نهجاً مهماً لاستخدام الذكاء الاصطناعي الذي يدعوه مدير مختبر الإعلام في معهد ماساتشوستس للتكنولوجيا جوي إيتو بـ"الذكاء الموسع" بدلاً من الذكاء الاصطناعي. ويقول لمجلة وايرد "Wired": "بدلاً من محاولة التحكم في الأنظمة أو تصميمها أو حتى فهمها، من الأهمية بمكان تصميم الأنظمة التي تشارك كعناصر متسمة بالمسؤولية والوعي والفاعلية في أنظمة أكثر تعقيداً".

يهدد استنساخ الصوت بانتشار الأخبار الكاذبة المشروعة. ومع ذلك، يمكنهم أيضاً تعزيز دور الأفراد والنظم المتكيفة المعقدة التي نعمل ونعيش فيها بدلاً من استبدالهم. يعكس الذكاء الاصطناعي أصواتنا وقيمنا، إنه يُظهر لنا الأجزاء الآلية أكثر من أنفسنا، ويتحدانا لإيجاد تعبير يلائمه أكثر وعياً. من خلال استخدامه بهذه الطريقة، فإنّ الذكاء الاصطناعي ليس مجرد محاكاة، بل إنه شريك يمكنه الارتجال، وبدلاً من استبدال صوت الإنسان، قد ينضم الذكاء الاصطناعي للغناء ضمن الفرق.

 

تنويه هذه المقالة تنشر حصرياً بالتعاون بين الاقتصادي.كوم ومشروع فيوتشر تنس (Future Tense) المبادرة بين موقع سليت (SLATE) ومركز أميركا الجديدة للفكر (NEW AMERICA) وجامعة ولاية أريزونا (ASU). جميع الحقوق محفوظة.


error: المحتوى محمي , لفتح الرابط في تاب جديد الرجاء الضغط عليه مع زر CTRL أو COMMAND