Root NationNaujienosIT naujienosMicrosoft pristatė multimodalinį metodą, atveriantį kelią į žmogaus lygio AI

Microsoft pristatė multimodalinį metodą, atveriantį kelią į žmogaus lygio AI

-

Šios savaitės pradžioje mokslininkai iš Microsoft pristatė „Kosmos-1“ – multimodalinį dirbtinio intelekto modelį, galintį analizuoti vaizdus turinio paieškai, spręsti vaizdinius galvosūkius, atlikti vaizdinį teksto atpažinimą, atlikti vaizdinius IQ testus ir suprasti natūralios kalbos nurodymus. Tyrėjų teigimu, tokie AI modeliai yra pirmasis žingsnis kuriant dirbtinį bendrąjį intelektą (DI), galintį atlikti bendras žmogaus lygmens užduotis. Tai yra, ši technologija galės pakeisti žmogų atliekant bet kokią intelektualią užduotį. Ir tai yra OpenAI, pagrindinio verslo partnerio, tikslas Microsoft dirbtinio intelekto srityje.

Kosmosas-1

Šiuo atveju Kosmos-1 yra grynai asmeninis įmonės tobulėjimas Microsoft. Tyrėjai savo kūrimą vadina „multimodaliniu plačios kalbos modeliu“ (MLLM), nes jo šaknys glūdi tik teksto natūralios kalbos apdorojime, pavyzdžiui, LLM, pvz., „ChatGPT“. Kad modelis priimtų įvesties vaizdus, ​​​​tyrėjai pirmiausia turi konvertuoti vaizdus į specialią žetonų seriją (daugiausia tekstą), kurią LLM gali suprasti.

Kosmosas-1

Kosmos-1 buvo apmokytas naudotis duomenų baze iš interneto, įskaitant ištraukas iš „The Pile“ (800 GB angliško teksto šaltinio) ir „Common Crawl“. Tada modelis buvo išbandytas atliekant kelis kalbos supratimo, kalbos generavimo, teksto klasifikavimo be optinio simbolių atpažinimo, vaizdo antraštės, vaizdinio atsakymo į klausimus, atsakymo į tinklalapio klausimus ir vaizdo klasifikavimo su lokalizavimu testus. Pagal Microsoft, Kosmos-1 daugelyje šių bandymų pranoko dabartinius modelius.

Kosmosas-1

Ypač įdomus buvo Raven's Progressive Reasoning testas, kurio metu matuojamas vizualinis IQ pateikdamas formų seką ir paprašius tiriamojo užbaigti seką. Kosmos-1 galėjo pateikti teisingą atsakymą 22% atvejų.

Kosmosas-1

Šie ankstyvieji žingsniai, kuriuos ateityje optimizavus, galėtų duoti dar reikšmingesnių rezultatų, leisdami AI modeliams suvokti ir paveikti bet kokios formos mediją, labai išplėsdami dirbtinių asistentų galimybes.

Taip pat skaitykite:

Registruotis
Pranešti apie
svečias

0 komentarai
Įterptieji atsiliepimai
Žiūrėti visus komentarus