روشی کارآمد برای جداسازی منابع صوتی

جداسازی منابع صوتی (مثل هنگامی که چند نفر هم‌زمان در حال صحبت باشند) از جمله مباحث بسیار پرطرفدار بین محققان پردازش سیگنال گفتار و صوت می‌باشد. از همین رو پژوهش‌های بسیار زیادی در این زمینه انجام می‌گیرد و پژوهشگران هوش مصنوعی همواره در حال بررسی روش‌های مختلف برای دستیابی به نتیجه مناسب‌تر می‌باشند.

استفاده از شبکه عصبی عمیق، یکی از بهترین روش‌هایی است که تاکنون ارائه شده است.

یکی از این روش‌ها شامل یک نوع شبکه عصبی بازگشتی به نام LSTM که برای سیگنال‌های طولانی به ‌کار می‌رود، می‌شود. در این روش به دلیل ارتباط کامل میان لایه‌ها، آموزش شبکه کند است و اندازه مدل بزرگ خواهد شد.

یکی دیگر از روش‌ها، استفاده از شبکه عصبی کانولوشنال است. این روش برای سیگنال‌های طولانی منجر به عمق یشتر شده و فرآیند آموزش را سخت‌تر می‌کند.

منبع: ویرگول، عصر گویش پرداز