أصبح الذكاء الاصطناعي في كل شيء الآن حتى سماعات الرأس. ورآها المطورون فرصة لتحقيق تجربة الانعزال عن الوسط المحيط بك. وهم يعتمدون في ذلك على أن المرء يحب الاستماع الى قائمته المفضلة من الأغاني والمقطوعات الموسيقية.
لذا طوّر فريق من «جامعة واشنطن» الأمريكية نظام ذكاء اصطناعي يمكّن مستخدمي سماعات الرأس من الاستماع إلى صوت شخص معيّن وسط الضوضاء وبين حشد من الناس.
نموذج جديد لسماعات الرأس يعمل بالذكاء الاصطناعي
يمنح نموذج السماعات الجديد، المسمى Target Speech Hearing، يمنح المستخدمين القدرة على اختيار الشخص الذي يظل صوته مسموعًا حتى عند إلغاء جميع الأصوات الأخرى.
وعلى الرغم من أن هذه التكنولوجيا تعد حاليًا تحت التطوير فإن مبتكريها يقولون إنها ممكنة. ويجرون تجارب لتضمينها في العلامات التجارية الشهيرة لسماعات الأذن. ويعملون أيضًا على إتاحتها لأجهزة السمع، وفق موقع MIT Review
يقول الأستاذ في جامعة واشنطن شيام جولاكوتا، الذي شارك في المشروع: “قد يكون من الصعب حقًا، حتى لو لم تكن لديك أي مشكلات تتعلق بقوة السمع، التركيز على أشخاص محددين عندما يتعلق الأمر بالبيئات الصاخبة”.
التعرف على أصوات معينة وتصفيتها
وتمكن نفس الباحثون سابقًا من تدريب نموذج ذكاء صناعى للتعرف على أصوات معينة وتصفيتها. وهو من أنواع الشبكات العصبية، ويشبه في طريقة عمله الدماغ.
من هذه الأصوات: بكاء الأطفال، أو تغريد الطيور، أو رنين الإنذارات. لكن فصل الأصوات البشرية يمثل تحديًا أصعب، ويتطلب شبكات عصبية أكثر تعقيدًا.
نماذج للذكاء الاصطناعى تدرب نماذج أصغر
يمثل هذا التعقيد مشكلة عندما تحتاج نماذج الذكاء الاصطناعي إلى العمل في الوقت الفعلي باستخدام زوج من سماعات الرأس ذات عمر بطارية محدود.
ولمواجهة مثل هذه القيود يجب أن تكون الشبكات العصبية صغيرة الحجم وموفرة للطاقة؛ لذلك استخدم الفريق تقنية ضغط الذكاء الاصطناعي والتى تسمى “تقطير المعرفة”. وهذا يعني أخذ نموذج ضخم للذكاء الاصطناعي تم تدريبه على ملايين الأصوات يسمى “المعلم”. ويطلق على النموذج الأصغر “الطالب”، وهو يتولى تقليد المعلم في سلوكه وأدائه.
يتم بعد ذلك تعليم الطالب كيفية استخراج الأنماط الصوتية لأصوات معينة من الضوضاء المحيطة التي تم التقاطها بواسطة الميكروفونات المتصلة بزوج من سماعات الرأس المانعة للضوضاء المتوفرة تجاريًا.
سهولة تشغيل نماذج فصل الصوت
لتنشيط نظام سماع الكلام المستهدف يضغط مرتدو الجهاز باستمرار على زر موجود في سماعات الرأس لعدة ثوانٍ أثناء مواجهة الشخص المراد عزل صوته (الصوت المستهدف) .
في هذه الأثناء يلتقط النظام عينة صوتية من كلتا السماعتين بواسطة الميكروفونات المدمجة. ويستخدم هذا التسجيل لاستخراج الخصائص الصوتية للمتحدث، حتى في حالة وجود مكبرات صوت وضوضاء أخرى في البيئة المحيطة.
تتم تغذية هذه الخصائص إلى شبكة عصبية ثانية تعمل على جهاز كمبيوتر متحكم دقيق متصل بسماعات الرأس عبر كابل USB.
وذلك مع إبقاء الصوت المختار منفصلًا عن أصوات الآخرين وإعادة تشغيله للمستمع.
بمجرد بث الصوت على مكبر صوت أو سماعات الرأس فإنه يستمر في إعطاء الأولوية لصوت ذلك الشخص حتى لو ابتعد.
من ناحية أخرى كلما زادت بيانات التدريب التي يكتسبها النظام؛ من خلال التركيز على صوت المتحدث، أصبحت القدرة على عزله أفضل.
وفي الوقت الحالي النظام قادر فقط على فصل متحدث واحد مستهدف بنجاح. الشرط أن يكون صوته هو الصوت العالي الوحيد.
بالإضافة إلى ذلك جعل الفريق النظام يعمل حتى عندما لا يكون المتحدث المستهدف يصدر الصوت الأعلى في الجوار.
تطبيقات جديدة كليًا
من جهة أخرى قال، أحد كبار الباحثين في شركة “مايكروسوفت” شفيق إيمري إسكيميز، والذي يعمل في مجال الكلام والذكاء الاصطناعي: “إن تمييز صوت واحد في بيئة صاخبة أمر صعب للغاية”.
هل أثارت هذه التكنولوجيا اهتمامك؟.. لننتظر ونرى.
