A nagy nyelvi modellek gyakran nem tudnak válaszolni a vállalati pénzügyi beszámolók alapján feltett kérdésekre, állapították meg a Patronus AI nevű startup kutatói.
Az amerikai tőzsdéken jegyzett vállalatok bizonyos rendszerességgel, jellemzően negyedévente pénzügyi beszámolót adnak le az amerikai Értékpapír és Tőzsdefelügyelethez (Securities and Exchange Commission, SEC). A Patronus AI szakemberei most azt tesztelték, hogy az SEC-hez leadott beszámolókban szereplő adatok alapján a piacon lévő mesterséges intelligenciák képesek-e kérdéseket megválaszolni.
AZ EREDMÉNYEK ALAPJÁN MÉG A LEGJOBB AI SEM KÉPES ARRA, HOGY KÖZEL 100 SZÁZALÉKOS VÁLASZOKAT ADJON.
Még az általuk tesztelt legjobban teljesítő AI-modellkonfiguráció, az OpenAI GPT-4-Turbo is csak a kérdések 79 százalékára válaszolt helyesen.
A nagy nyelvi modellek gyakran megtagadták a választ, vagy olyan számokat és tényeket hallucináltak, amelyek nem szerepeltek a SEC-dokumentumokban.
Ez a találati arány teljesen elfogadhatatlan. Sokkal, de sokkal magasabbnak kell lennie ahhoz, hogy valóban automatizált és gyártásra alkalmas módon működjön. – mondta a Patronus AI társalapítója, Anand Kannappan.
Az eredmények rávilágítanak az AI-modellekkel szemben álló kihívásokra, mivel a nagyvállalatok, különösen az olyan szabályozott iparágakban, mint a pénzügy, igyekeznek a legmodernebb technológiát beépíteni a működésükbe, legyen szó akár ügyfélszolgálatról vagy kutatásról.
A ChatGPT tavaly év végi megjelenése óta a chatrobotok egyik legígéretesebb alkalmazási lehetőségének a fontos adatok gyors kinyerésének és a pénzügyi narratívák elemzésének képességét tekintik. A SEC-dokumentumok tele vannak fontos adatokkal, és ha egy bot pontosan össze tudná foglalni ezeket, vagy gyorsan tudna válaszolni a bennük foglaltakkal kapcsolatos kérdésekre, az előnyt jelenthetne a felhasználónak.
A teljes cikk a Portfolio oldalán olvasható.
Portfolio
Címlapfotó: Ray_Shrewsberry from Pixabay
















