منصة MyShell تطلق OpenVoice لتقنية استنساخ الأصوات بواسطة الذكاء الاصطناعي
منصة الذكاء الاصطناعي – متابعات
وضع باحثون من جامعة MIT وجامعة تسينغهوا وشركة MyShell الناشئة الكندية جهودهم معًا لتطوير OpenVoice، التي تمكن من استنساخ الأصوات بسرعة ودقة لم يسبق لها مثيل.
بحسب Artificialintelligence-news تعتمد OpenVoice على ثوانٍ قليلة من التسجيل الصوتي لاستنساخ الصوت، مع إمكانية التحكم التفصيلي في النغمة والعاطفة واللكنة والإيقاع وأكثر من ذلك.
قدمت MyShell OpenVoice في منشور هذا الأسبوع، حيث تم وضع رابط إلى ورقة بحث مسبقة المراجعة تشرح التكنولوجيا، بالإضافة إلى مواقع العرض التوضيحية على MyShell وHuggingFace حيث يمكن للمستخدمين تجربتها.
يتكون OpenVoice من نموذجين للذكاء الاصطناعي يعملان معًا لتحويل النص إلى كلام واستنساخ نغمة الصوت.
يتعامل النموذج الأول مع نمط اللغة واللكنة والعاطفة وأنماط الكلام الأخرى. تم تدريبه على 30,000 عينة صوتية تشمل عواطف متنوعة من متحدثين باللغة الإنجليزية والصينية واليابانية.
أما النموذج الثاني “محول النغمة” فقد تعلم من أكثر من 300,000 عينة تضم 20,000 صوت.
من خلال الجمع بين النموذج العالمي للكلام مع عينة صوتية مقدمة من المستخدم، يمكن لـ OpenVoice استنساخ الأصوات بسرعة كبيرة جدًا مع الحاجة إلى بيانات قليلة جدًا. وهذا يساعدها على إنتاج الخطاب المنسوخ بشكل أسرع بكثير من البدائل مثل Voicebox من Meta.
تأتي OpenVoice من MyShell، وهي شركة ناشئة مقرها كالجاري وتأسست في عام 2023. بتمويل مبكر بلغ 5.6 مليون دولار وأكثر من 400,000 مستخدم بالفعل، تصف MyShell نفسها بأنها منصة لامركزية لإنشاء واكتشاف تطبيقات الذكاء الاصطناعي.
بالإضافة إلى تقنية استنساخ الأصوات الفورية، تقدم MyShell شخصيات الروبوتات الدردشة المستندة إلى النص الأصلي، ومُنشئي الصور الميم، وألعاب الأدوار النصية التي ينشئها المستخدمون، والمزيد. يتم تقديم بعض المحتوى مقابل رسوم اشتراك. كما تفرض الشركة رسومًا على مُنشئي الروبوتات للترويج لروبوتاتهم على منصتها.
من خلال توفير قدرات استنساخ الأصوات من خلال HuggingFace واستغلال نظامها الأوسع لتطبيقات الذكاء الاصطناعي، تسعى MyShell إلى زيادة عدد المستخدمين على كلا الجانبين وتعزيز نموذج مفتوح لتطوير الذكاء الاصطناعي.
هذا المحتوى تم بمعرفة وحدة الذكاء الاصطناعي.