أعلنت جوجل عن فتح الكود المصدري لإحدى تقنياتها المستخدمة في التعرف على الأصوات، وهي بمثابة ذكاء اصطناعي قادر على التفرقة بين أصوات المتكلمين بدقة عالية.

ويقوم الذكاء الاصطناعي بعملية يُمكن تعريفها باللغة العربية بـ”المذكرات الصوتية للمتحدث”، بالإنجليزية Speaker diarization ، وهي عملية تقوم بتقسيم أي حديث صوتي يضم أكثر من صوت بشري إلى عدة شرائح متجانسه لكل متحدث على حدى، وهي إحدى العمليات الهامة في أنظمة التعرف على الأصوات.

وأشارت جوجل إلى أن الذكاء الاصطناعي خاصتها يستطيع القيام بالتفرقة بين أصوات المتكلمين في المقاطع الصوتية بدقة تصل إلى 92%، وذلك بمعدل خطأ يصل إلى 7.6%، وذلك معتمدا على عملية تقسيم كل صوت إلى شرائح متجانسة تحدد كل متحدث على حدى.

وأوضح شونج وانج، الباحث في جوجل وأحد المسؤولين عن تطوير الذكاء الاصطناعي، أن عملية التقسيم تلك مهمة للغاية في العديد من التطبيقات الخاصة بالتعرف على الأصوات، حيث قال في تدوينة نشرتها جوجل “عن طريق حل مشكلة التعرف على (من يتحدث ومتى يتحدث) فإن هناك العديد من السيناريوهات الهامة التي يُمكن تطبيقها في مجالات عدة منها التعرف على حديث طبي وتسجيله والتفرقه بين الطبيب والمريض، بجانب مجالات مثل ترجمة أصوات الفيديوهات وغيرها”.

ونشر الباحث ورقة تساعد الباحثين حول هذه التقنيات والمطورين على استخدام الذكاء الاصطناعي وتقنية “المذاكرات الصوتية للمتحدث”، كما نشرت جوجل الكود المصدري للتقنية التي تدعى UIS-RNN على حسابها على منصة جت هب.

رابط الورقة البحثية: https://arxiv.org/abs/1810.04719

رابط الكود المصدري: https://github.com/google/uis-rnn

اترك تعليقاً