Szintet lépett az Amazon feliratozó és a Meta beszédfordító platformja

2023. december 7.

A mesterséges intelligencia alkalmazásában mindkét cég mérföldkövekről beszél: az egy egyik a streaming szolgáltatásához, a másik a metaverzumhoz fejleszt.

Elérhető az Amazon új feliratozó szolgáltatása, amelyet több millió óra hanganyagon tréningeztek a fejlesztői

Az Amazon által fejlesztett új voice-to-text (leírás) szolgáltatás, az Amazon Transcribe, most már több mint 100 nyelven támogatja az automatikus beszédfelismerést (ASR). Ez a fejlesztés egy új, generatív mesterséges intelligencia rendszernek köszönhető, amelyet a cég állítólag öntanuló algoritmusok segítségével hozott létre. A rendszer több millió óra címkézés nélküli hanganyag formájában kapott tréninget, több mint 100 nyelvből származó adatokkal, és törekszik arra, hogy a kevesebb erőforrással rendelkező kis nyelvek se kerüljenek hátrányba a minőség tekintetében. 

Az Amazon az ASR szolgáltatását a tartalom automatikus feliratozására és leiratának elkészítésére ajánlja, de specializált változatokat is kínál bizonyos iparágak számára, mint például az Amazon Transcribe Medical. A cég 2017 novemberében mutatta be az Amazon Transcribe szolgáltatást, amely azóta több frissítésen is átesett, például támogatja a testreszabott terminológiai adatbázisok használatát 2018 áprilisától, a videofájlok feliratozását 2021 szeptemberétől, valamint a többnyelvűség felismerését 2022 májusától.

Összességében az Amazon Transcribe fejlesztése jelentős lépést jelent az automatikus beszéd-felismerés és a többnyelvű feliratozás terén, bár továbbra is vannak olyan korlátai, amelyek egyelőre beláthatatlan távolságba helyezik az emberi beavatkozás nélküli működését.

A META beszédfordító képessége szintet lépett, beépülhet majd a metaverzumba

Szintet lépett az Amazon feliratozó és a Meta beszédfordító platformja

A Meta Fundamental AI Research (FAIR) csapata bejelentette az új "Seamless" nevű mesterséges intelligencia modelljét, amely valós időben képes beszédfordításra, miközben megőrzi az eredeti hanghordozást. A cég állítása szerint a "Seamless" valójában egy modellcsomag, amely a korábbii SeamlessM4T, SeamlessExpressive, SeamlessStreaming modellek csatasorba állításával jött létre, tartalmazva azok “képességeit”.

A hangsúlyt és a hangnemet megőrző rendszer a beszéd-beszéddé fordításkor angol, spanyol, német, francia, olasz és kínai nyelveken működik.

A fejlesztők szerint az új modell képes az automatikus beszéd-felismerésre és a beszéd-szöveggé fordításra közel 100 bemeneti és kimeneti nyelven. A beszéd-beszéddé fordítás (talán egyszer majd ezt tolmácsolásnak nevezhetjük) közel 100 bemeneti nyelvről 36 kimeneti nyelvre működik.

A Meta blogbejegyzése szerint a SeamlessM4T jobban teljesít az automatikus beszéd-felismerésben a Whisper v3-nál. 

A Meta szerint a nagy durranás a beszéd-beszéddé és a beszéd-szöveggé fordítás területén történt minőségjavulás, különösen az alacsony erőforrású nyelveken és a több nyelvet vegyesen tartalmazó szövegekben. Az ilyen fejlesztések a metaverzumot is tervező cég szerint elősegítik a nyelvi korlátok lebontását és a nyelvi sokszínűség támogatását a digitális kommunikációban.


Hozzászólások (0)

Hozzászólások írásához és megtekintéséhez be kell jelentkeznie