گوگل اخیراً مدل هوش مصنوعی جدید خود را با نام AudioPaLM معرفی کرده است، که توانایی شنیدن، صحبت کردن و ترجمه را داراست. هوش مصنوعی به طور مداوم در حال پیشرفت است و در حالی که بسیاری از افراد از آن برای کمک به انجام کارهایشان استفاده میکنند، این فناوری میتواند کاربردهای فراوانی داشته باشد. گوگل به مدت سالها به دنبال دستیابی به ظرفیت کامل هوش مصنوعی بوده است و جدیدترین تکنولوژی آن، AudioPaLM نام دارد. این مدل، با دقت بسیار بالا، قادر به شنیدن، صحبت کردن و ترجمه است.
تیم پژوهشی گوگل، AudioPaLM را به عنوان یک مدل زبان جدید معرفی کرده است که توانایی گوش دادن به صحبتهای دیگران و ترجمه آنها به زبانهای دیگر را با دقت شگفتانگیزی دارد. این مدل از معماری چندوجهی استفاده میکند و قدرتهای دو مدل کنونی یعنی PaLM-2 و AudioLM را ترکیب کرده است.
AudioLM عملکرد بسیار برتری در حفظ اطلاعاتی مانند هویت و لحن صحبت گوینده دارد. با ترکیب این دو مدل زبانی، مدل جدید AudioPaLM به وجود آمده است که همچنان از تخصص زبانی PaLM-2 بهره میبرد و توانایی درک کاملی از متن و گفتار را دارا میباشد.
به گزارش گیزموچاینا، AudioPaLM از واژگانی استفاده میکند که به کمک تعداد محدودی نشانه مجزا، قادر است گفتار و متن را نشان دهد. این قابلیت به مدل امکان میدهد که وظایفی مانند تشخیص گفتار، تبدیل متن به گفتار و ترجمه گفتار به گفتار را با یک معماری و روش آموزشی یکپارچه ارائه دهد.
AudioPaLM در ترجمه گفتار، با سیستمهای موجود بهبود یافته است و حتی قادر به ترجمه گفتار به نوشتار با ترکیبهای زبانی است که تا به حال با آنها روبرو نشده است. این هوش مصنوعی جدید قادر است بر اساس اعلانهای گفتاری کوتاه، صداها را بین زبانها انتقال داده و صداهای متمایز را در زبانهای مختلف ضبط و بازتولید کند.
نظرات کاربران