
جداسازی منابع صوتی (مثل هنگامی که چند نفر همزمان در حال صحبت باشند) از جمله مباحث بسیار پرطرفدار بین محققان پردازش سیگنال گفتار و صوت میباشد. از همین رو پژوهشهای بسیار زیادی در این زمینه انجام میگیرد و پژوهشگران هوش مصنوعی همواره در حال بررسی روشهای مختلف برای دستیابی به نتیجه مناسبتر میباشند.
استفاده از شبکه عصبی عمیق، یکی از بهترین روشهایی است که تاکنون ارائه شده است.
یکی از این روشها شامل یک نوع شبکه عصبی بازگشتی به نام LSTM که برای سیگنالهای طولانی به کار میرود، میشود. در این روش به دلیل ارتباط کامل میان لایهها، آموزش شبکه کند است و اندازه مدل بزرگ خواهد شد.
یکی دیگر از روشها، استفاده از شبکه عصبی کانولوشنال است. این روش برای سیگنالهای طولانی منجر به عمق یشتر شده و فرآیند آموزش را سختتر میکند.
منبع: ویرگول، عصر گویش پرداز