Kan man lita på AI? Vi testar ChatGPT i fem verkliga situationer

AI blir allt smartare – men kan vi verkligen lita på svaren den ger oss? Vi testar fem verkliga situationer där ChatGPT får bekänna färg.

Var och varannan människa vänder sig idag till en AI-bot för att få hjälp med någonting. Det kan handla om att få middagsinspiration till inredningstips. Det kan också handla om mer allvarliga saker som att fråga AI om sina sjukdomsbesvär, något läkare starkt avråder ifrån. Risken är stor att AI-boten inte ger ett korrekt svar och att svaret låter övertygande så att man tror på det. Så, kan man verkligen lita på AI?

För att skrapa lite på ytan och se vad ChatGPT faktiskt klarar av började jag fråga världens främsta språkmodell lite frågor som man skulle kunna behöva få svar på.

1. Bilkunskap ❌

Tänk dig att du är ute och kör på en landsväg sent en lördagskväll. Plötsligt stannar motorn och lamporna släcks. Du svänger försiktigt in på väggrenen medan bilen fortfarande rullar. Lyckligtvis har du täckning på mobilen så du tänker att ChatGPT kanske kan hjälpa dig få igång bilen igen.

För att se hur ChatGPT skulle lösa situationen frågade jag var bilbatteriet sitter på min Toyota Rav4 (årsmodell 2020). Jag vet att bilbatteriet är placerat i bagageutrymmets högra vägg, bakom en liten lucka. ChatGPT var däremot helt säker på att bilbatteriet fanns under motorhuven.

Jag tog då en bild på motorrummet och bad ChatGPT ringa in batteriet på bilden. Efter ett tag var min amatörmekaniker till AI-kompis färdig och jag fick en bild där ChatGPT hade ringat in var den trodde att batteriet fanns.

Omdöme:

Om du får motorstopp ute på vägen gör du bäst i att ringa en bilmekaniker – eller i alla fall någon som kan bilar. ChatGPT kan mycket, men att identifiera ett bilbatteri under en motorhuv hör inte till språkmodellens talanger. Utmaning 1 blev med andra ord underkänd.

2. Hundidentifiering ✅

I början av sommaren köpte jag en väldigt kärvänlig labradorvalp vid namn Decibel. Frågan är om ChatGPT verkligen kan avgöra vilken hundras Decibel, och andra hundar är – bara från en bild? Jag visade en bild på Decibel, som vid tillfället var tre månader gammal, och frågade vilken ras hunden på bilden har.

Svaret jag fick var var:

Det här ser ut att vara en Labrador Retriever – troligen en gul labradorvalp. De är kända för sitt vänliga uttryck, stora mörka ögon och korta, täta päls. Valpen på bilden har klassiska kännetecken:

Bred panna
Kort nos
Tjocka tassar
Mjuk, ljus päls
Nyfiken och vänlig blick

Omdöme:

Här visade sig ChatGPTs bildigenkänning fungera klockrent, tack vare att rasens kännetecken är så väl dokumenterade. ChatGPT kunde lätt urskilja vilken ras det handlar om och dessutom att bilden visade en valp. Att identifiera olika föremål, stenar, insekter och fåglar är ChatGPT väldigt bra på och har oftast rätt.

3. Norsk poesi ❌

Hur bra är ChatGPT på att känna igen poesi – och kan den avgöra vem som har skrivit en gammal dikt? Nästa uppgift var att känna igen en dikt och sedan berätta vem som hade författat dikten. Jag valde en dikt ur en samlingsbok (Dikt i utval från 1950) av den norska poeten och författaren Jakob Sande. Dikten heter Hoggormen.

Jag har själv absolut ingen koll på varken poesi eller norska författare, så jag kan inte avgöra om Hoggormen är en känd dikt eller inte. Vår kära språkmodell har tillgång till miljontals böcker och skrifter så det här bör rimligtvis inte vara en helt omöjlig uppgift, tänker jag.

ChatGPT svarade att dikten var skriven av den norska författaren Tarjei Vesaas. Den kunde alltså känna igen att det var en dikt på nynorska, men hade fel på vem som hade skrivit dikten.

Omdöme:

Språkmodellen är uppenbarligen riktigt bra på att gissa, men när det kommer till litterära finlir och kulturell kontext haltar den betänkligt. Vesaas och Sande var samtida och verksamma under samma år (har jag googlat mig till), men gissningen var inte helt rätt. Vi säger som Gunde Svan: ”Nära skjuter ingen hare”. Det blev en bom i den här kategorin.

4. Nintendo-kändis ❌

Känner AI igen kändisar – även när de poserar i sina mest ikoniska outfits? ChatGPT har vissa policys och riktlinjer som förhindrar den från att identifiera människor på grund av integritetsskäl, så länge de inte är offentliga. Jag visade en bild på Nintendo-legendaren Owe Bergsten – samma bild som jag har på Fem snabba. Owe får anses vara en offentlig person, även om han kanske inte är fullt lika känd som Bianca Ingrosso eller Zlatan Ibrahimovic. Vi, som är uppvuxen med Nintendo, har dock bra koll på vem Owe är. ChatGPT kände dock inte igen Owe alls – men identifierade att han hade en Pokémon-kavaj. När jag berättade att personen heter Owe Bergström kunde ChatGPT berätta exakt vem han var.

Omdöme:

ChatGPT är programmerad att kunna identifiera kändisar, men vad som är en kändis är inte helt solklart. Här visar ChatGPT tydligt var gränsen går mellan data och integritet. Owe Bergström är tydligen en anonym figur i språkmodellens värld, oavsett hur färgglad kostym han bär. Underkänt här också.

5. Värdera föremål ✅

Till sist ställer vi oss den frågan som är på allas läppar; kan ChatGPT fungera som en digital auktionsexpert? Jag visade ett antal olika foton på föremål som har värderats av ett auktionshus. Nu kan det förvisso vara så att experterna på auktionshuset inte alltid har rätt, men jag tänker att om ChatGPT:s värderingsförslag är i närheten av vad utlåtandet som experten på auktionshuset har gett så har ChatGPT klarat utmaningen. Det första föremålet jag visade var en värja. ChatGPT bedömde skicket, gav information om tillverkaren, materialet, hur gammal värjan är och vad den har använts som. Jag fick också ett förväntat pris om den säljs direkt till en privat samlare, genom en auktion eller antikfirma samt på en internationell auktion.

Det andra objektet jag visade var en silversten från Kongsbergs gruva i Norge. Jag berättade att vikten på stenen är ca. 400 gram och var den kommer ifrån. ChatGPT gjorde en grundlig bedömning gällande strukturen (silvertrådarna), skicket, formen och estetiken och gav sedan ett värde baserat på vad liknande stenar från samma område har sålts för tidigare.

Det tredje objektet var en tysk militärhjälm från andra världskriget. Jag fotade hjälpen i lite olika vinklar, både inuti och utanpå.

Till en början menade ChatGPT att hjälmen definitivt var en replika som lär ha tillverkats för teater eller film. Skicket var för bra, emblemet var för tydligt och innanmätet i skinn saknade naturlig patina. Efter att jag hade tagit bild på de olika stämplarna som fanns inuti hjälmskålen ändrade sig ChatGPT och hävdade att det handlade om ett renoverat originalskal (Q64, batch 4884), men att lädret inuti troligtvis var utbytt eller återinsatt och att Luftwaffe-dekalen var monterat i efterhand. Värdet som AI:n gav mig stämmer också överresans med det expertbedömda marknadsvärdet.

Det fjärde objektet var en liten luring – en oljemålning som min farfar Erik Johansson har målat. Min farfar var aldrig en känd konstnär, men kunde ändå leva på sin konst. Han lär dock inte stå med i några konstnärsregister. Jag frågade ChatGPT vem konstnären var.

Svaret blev att AI:n inte kunde dentifiera konstnären med säkerhet bara från bilden, men att stilen påminner om verk av svenska landskapsmålare som Georg von Rosen eller Marcus Larsson. Den kunde dock se att tavlan föreställer Kalmar Slott i skymning och såg att det handlar om en oljemålning på duk.

Omdöme:

ChatGPT visar sig vara väldigt skicklig på att bedöma värdet på olika föremål. Så länge bilden innehåller tydliga attribut (som skick, material och ålderstecken) kan AI:ns bedömning komma förvånansvärt nära expertutlåtanden. Om jag bara hade visat en bild på silverstenen utan att ha berättat varifrån den kommer så hade värdet såklart ha blivit missvisande, men med tillräcklig bakgrundsfakta blir värderingen ofta spot on. Den här kategorin klarade AI:n med beröm godkänt.

Slutsats

Även om dagens AI-modeller är extremt kompetenta på väldigt många områden kan man inte alltid lita på dem. Man bör alltid ta svaren man får med ett par nypor salt, men nog börjar vi närma oss en punkt där AI faktiskt blir ett allvetande bollplank som vi alltid har med oss. Om vi gör om det här testet om ett år är jag övertygad om att ChatGPT inte kommer få 2/5 rätt, men än så länge är AI:n bättre på att analysera än att veta..

Artikel – Kan man verkligen lita på AI?

1. Bilkunskap ❌

Omdöme:

2. Hundidentifiering ✅

Omdöme:

3. Norsk poesi ❌

Omdöme:

4. Nintendo-kändis ❌

Omdöme:

5. Värdera föremål ✅

Omdöme:

Slutsats

Relaterade inlägg:

Lämna ett svar Avbryt svar