Sex AI-assistenter. Sex vardagstester. En vinnare. Vi pressade ChatGPT, Grok, Copilot, Gemini, Claude och Perplexity i en brutal 6-kamp – och skillnaderna var större än väntat.
I somras frågade vi oss om vi verkligen kan lita på AI. Då testade vi ChatGPT i fem olika grenar, från värdering av föremål till att identifiera böcker utifrån text. Resultatet var minst sagt ojämnt – bara två av fem tester klarades. Så hur bra är dagens AI-assistenter egentligen när det gäller sådant vi faktiskt använder dem till? För att ta reda på det satte vi sex framstående AI-modeller på prov i en brutal 6-kamp.
Deltagarna:
- ChatGPT – utvecklad av OpenAI. Används till allt från textskrivande och analys till kodning och bildgenerering. Tjänsten är en av världens mest använda AI-assistenter och fungerar ofta som referens i jämförelser.
- Grok – utvecklad av xAI, grundat av Elon Musk. Assistenten är tätt integrerad med plattformen X och har tillgång till realtidsinformation därifrån, med fokus på aktualitet och bildgenerering.
- Copilot – utvecklad av Microsoft i nära samarbete med OpenAI. Copilot är tänkt som en bred produktivitetsassistent för text, analys, kod och vardagsuppgifter, och är djupt integrerad i Microsofts ekosystem.
- Gemini – utvecklad av Google DeepMind. Det är en multimodal AI som kan hantera text, bild och analys och används som grund för flera av Googles AI-tjänster.
- Claude – utvecklad av Anthropic. Claude är en generell AI-assistent som är särskilt känd för att hantera långa texter, resonemang och nyanserade svar.
- Perplexity – utvecklad av Perplexity AI. Den fungerar som en kombination av AI-assistent och sökmotor, med tydligt fokus på faktasökning och källhänvisningar.
Snabbt resultat: Testet hade allt: fullträffar, gissningar och ett par svar som kändes mer som ren improvisation än AI. Vissa tänker – andra chansar.
Så genomförde vi 6-kampen
För att ta reda på hur bra dagens AI-assistenter faktiskt är i praktiken genomförde vi ett jämförande test med sex tydliga och vardagsnära uppgifter. Samma uppgifter gavs till samtliga AI-assistenter, formulerade med identiska prompter och utan några extra ledtrådar eller förtydliganden.
AI-testerna valdes för att spegla sådant många faktiskt använder AI till – kreativt skrivande, bildgenerering, visuell förståelse, problemlösning och situationsbedömning. Vissa uppgifter var medvetet utformade för att vara luriga, till exempel genom att sakna ett korrekt svar eller innehålla “brus”, för att se om AI-assistenterna vågade säga “det går inte” istället för att chansa fram ett svar.
Bedömningen gjordes redaktionellt med fokus på tre saker: korrekthet, omdöme och användbarhet. Syftet med 6-kampen är inte att utse en absolut vinnare, utan att visa hur olika AI-assistenter beter sig när de ställs inför verkliga, ibland obekväma, uppgifter. Resultatet ger en tydlig bild av vilka som resonerar – och vilka som bara svarar.
Poängskala:
- 0 poäng: Uppgiften kan inte slutföras eller AI:n misslyckas helt
- 1 poäng: Bristfälligt, orealistiskt eller väldigt generiskt
- 2 poäng: Helt okej och användbart
- 3 poäng: Mycket bra, genomtänkt och realistiskt
Undantag: I Test 5 är maxpoängen 5 (1 poäng per korrekt drag)
Test 1 – Skriva ett bröllopstal
Att skriva ett bröllopstal låter enkelt – tills man själv står där. Det här testet handlar om humor, fingertoppskänsla och förmågan att säga något varmt utan att bli klyschig eller pinsam. Max fem meningar räcker långt för att avslöja om en AI verkligen förstår sociala sammanhang.
Poängsättning: 1 poäng om talet är begripligt och passar uppgiften, 2 poäng om det dessutom känns personligt och lagom humoristiskt utan att bli stelt – och 3 poäng om det verkligen sitter, med bra ton, fingertoppskänsla och noll klyschor.
Prompt: Min syster Jonna gifter sig med sin Nils. Skriv ett kort och humoristiskt bröllopstal på max fem meningar. Undvik klyschor och floskler, samt gör inte narr av brudparet.
Sammanfattning av Test 1 – Skriva ett bröllopstal
ChatGPT
Jonna och Nils – ni är två personer som uppenbarligen har tittat på samma värld och tänkt: ja, den här vill jag dela med just dig.
Ni kompletterar varandra på ett sätt som inte kräver stora gester, utan märks i det lilla.
Det är tryggt, roligt och väldigt fint att se.
Om äktenskapet mest handlar om att välja samma lag varje dag, så känns det som att ni redan har vunnit serien.
Skål för ett liv som fortsätter ungefär som nu – fast ännu bättre.
Grok
Kära Jonna och Nils,
ni två har lyckats hitta varandra i en värld där de flesta fortfarande swipar fel åt höger – grattis, det är fanimej imponerande. Nils, du har redan lärt dig att Jonna alltid har rätt, även när hon har fel, och det är en livskunskap som sparar mer tid än alla IKEA-möbler ni någonsin kommer montera ihop. Jonna, du har hittat någon som faktiskt tycker att dina 47 olika kaffemuggar är en personlighetsdrag och inte ett lagringsproblem.
Så höj era glas: må era gräl vara korta, era kramar långa och era gemensamma Netflix-listor eviga. Skål för er – ni förtjänar varandra!
Copilot
Kära Jonna och Nils, idag firar vi inte bara att ni hittat varandra, utan också att ni lyckats planera ett helt bröllop utan att någon av er flytt landet. Det säger något om er samarbetsförmåga, och ännu mer om er humor. Ni två är som ett riktigt bra team: olika nog för att komplettera varandra, lika nog för att förstå varandras märkliga idéer. Må ert liv tillsammans fortsätta vara fullt av skratt, oväntade äventyr och precis lagom mycket ordning. Jag är så glad att få stå här och heja på er när ni tar nästa steg tillsammans.
Gemini
Stort grattis Jonna och Nils – det är fantastiskt att se två så smarta personer äntligen skriva på ett juridiskt bindande kontrakt om vem som ska ta ut soporna. Jonna, jag är så imponerad över att du lyckats hitta någon som inte bara står ut med dina små egenheter, utan faktiskt verkar uppskatta dem. Nils, välkommen till familjen; vi har ingen bytesrätt, men vi lovar att du kommer få det roligt. Jag ser fram emot att följa er resa, som förhoppningsvis innehåller betydligt fler skratt än diskussioner om var fjärrkontrollen ligger. Låt oss nu höja våra glas för ett livslångt lagarbete där ni alltid väljer varandras sida!
Claude
Kära Jonna och Nils! När Jonna berättade att hon träffat någon som faktiskt tyckte hennes sämsta skämt var roliga, visste jag att det var allvar. Nils, du har klarat det svenska mellantestet: att överleva en hel jul med vår familj och fortfarande vilja komma tillbaka. Jag har sett er bygga IKEA-möbler tillsammans utan att gräla, vilket vetenskapligt bevisat är äkta kärlek. Skål för er – må era liv tillsammans vara lika enkla som en Billy-hylla och lika hållbara som… tja, något mycket bättre än en Billy-hylla!
Perplexity
Kära Jonna och Nils — idag har ni bevisat att två människor faktiskt kan vara både kära, modiga och tillräckligt organiserade för att planera ett helt bröllop. Ni passar ihop som wifi och lösenord: helt meningslösa utan varandra. Må ert liv tillsammans vara fullt av lika mycket skratt som diskussioner om vem som ska ta disken — och lika mycket kärlek som tålmodiga omladdningar under buffén. Skål för kärleken, äventyret och er — paret som lyckades logga in på livets största gemensamma konto!
Test 1: Resultat
Här fanns det en hel del likheter mellan de olika talen, vilket inte är konstigt med tanke på att prompten var tämligen ospecifik. Grok tog sig vissa friheter att anta att Jonna samlar på kaffemuggar och Claude hittade på att Nils har firat jul med talaren samt att Jonna har berättat att Nils gillar hennes sämsta skämt. Två av assistenterna fick med klyschor om IKEA-möbler. Inget tal är speciellt bra, men inget är direkt dåligt heller. Samtliga klarade uppgiften.

Test 2 – Identifiera bilbatteriet som inte finns
I det här testet bad vi AI-assistenterna ringa in bilbatteriet i ett motorrum på en Toyota RAV4. Kruxet? Batteriet finns inte i motorrummet. Uppgiften handlar dels om bilkunskap där AI:n kan förklara att bilbatteriet inte sitter i motorrummet – eller om den chansar och pekar ut något som ser rimligt ut.
Poängsättning: 1 poäng om assistenten förstår att batteriet inte finns i motorrummet, 2 poäng om den dessutom pekar ut var det sitter men med viss tvekan eller gardering – och 3 poäng om den svarar rätt med säkerhet.
Så här ser motorrummet ut:

Prompt: Jag har fått motorstopp med min bil. Det är en Toyota RAV4, årsmodell 2020. Ringa in var bilbatteriet finns i motorrummet på bilden så att jag kan ladda det.
ChatGPT

Grok


Copilot

Gemini
Det är lätt att bli förvirrad när man öppnar motorhuven på en Toyota RAV4 Hybrid, eftersom det du ser i motorrummet faktiskt inte är det vanliga startbatteriet.
Här är vad du behöver veta för att få igång bilen:
Startbatteriet sitter i bagageutrymmet
På en RAV4 Hybrid (årsmodell 2019 och framåt) är det 12V-batteriet placerat i bagageutrymmet, bakom en panel på höger sida. Om du vill ladda batteriet direkt eller byta ut det, är det dit du ska vända dig.
Claude
Jag kan tyvärr inte ringa in eller markera delar direkt på bilder. Men jag kan hjälpa dig hitta bilbatteriet!
I din Toyota RAV4 2020 hybrid (baserat på de orange högspänningskablarna jag ser) sitter 12V-batteriet inte i motorrummet. På RAV4 hybrider från denna generation finns det vanliga 12V-batteriet oftast:
- Under baksätet (bakluckan på passagerarsidan), eller
- I bagageutrymmet under golvet
Perplexity
Batteriet sitter nere till vänster i bilden, precis framför förarplatsen. Det är den svarta rektangulära lådan med pluspol under det röda plastlocket och minuspol ansluten med svart kabel. För att ladda: öppna det röda locket och koppla laddarens pluskabel till pluspolen under locket, och laddarens minuskabel till den blottade minuspolen eller en obmålad metallpunkt i karossen.
Test 2: Resultat
Här var det bara två AI-assistenter som klarade testet: Gemini och Claude. Claude kom med två förslag på var batteriet kan finnas medan Gemini gav ett helt korrekt svar. ChatGPT visade prov på sin kreativa sida genom att helt enkelt genererade ett eget batteri till vänster på bilden och sedan självsäkert ringa in det. Grok garderade sig och gav två svar på var batteriet fanns – båda var fel. Perplexity kunde inte rita direkt på bilden, men gav en helt fel beskrivning av batteriets position. Det här visar att flera AI-assistenter fortfarande väljer att chansa och hitta på snarare än att säga att den inte vet.

Test 3 – Skriva en limerick
Limericks följer strikta regler för rim och rytm, vilket gör dem till ett perfekt test av språklig precision. Här räcker det inte att bara vara kreativ – formen måste också sitta. Dessutom ska limericken vara fyndig och humoristisk. Resultatet blir därför avslöjande: kan AI-assistenterna faktiskt hålla sig till reglerna, eller tappar de bort både struktur och rim på vägen?
Poängsättning: 1 poäng om strukturen sitter någorlunda och texten är begriplig, 2 poäng om rimmen dessutom fungerar med riktiga ord – och 3 poäng om helheten känns både korrekt, rolig och välskriven.
Prompt: Skriv en korrekt och humoristisk limerick om Techsajten.se.
ChatGPT
Det fanns en sajt som hette Techsajten.se,
där prylar granskas med både hjärna och le.
Här testas allt nytt,
utan marknadsföringskrut,
så du vet vad som faktiskt är värt att ta med.
Grok
En kille som läste Techsajten.se fick höra om prylar i tre.
Han testade högtalare, klockor och prång,
men fastnade mest för den lilla roboten så lång —
nu heter den ”Bosse” och bor hos hans fröken i tre!
Copilot
På Techsajten.se är det fart,
där Techsas är stjärnan så smart.
Med kablar och kod,
han styr varje nod,
och gör varje bugg till en konstnärlig start!
Gemini
En surfare hittade till Techsajten.se,
för att se vad tekniken kan ge. Där fanns prylar och mod,
som gav nörden nytt mod,
nu vill han aldrig från skärmen gå ner.
Claude
På Techsajten.se kan man se hur AI och gadgets ska te
sig i framtiden snart,
men min WiFi har kraschat ånyo – fan ta’t!
Nu får jag väl läsa på 5G.
Perplexity
Det fanns en sajt som hette Techsajten,
där prylnördar flockas i skaror som tajten.
De testar varenda mojäng,
från sladd till smart köksanläggning,
och får plånböcker att darra – men åh, så man hajten.
Test 3: Resultat
Här blev det tydligt att AI-modellerna inte är tränade på limerickar. Nödrim blandades med påhittade ord och de flesta hade problem med rytm och struktur. Den som utförde testet bäst måste anses vara Copilot som fick till både rytm och rim. Sämst i testet var Claude och Perplexity som bjöd på två obegripliga försök till limerickar.

Test 4 – Generera två bilder på mig
Vad vore en 6-kamp av det här slaget utan en bildgenereringsgren? Inte mycket. Det här testet består av två delar. I den första delen ska AI:n skapa en realistisk bild av när jag just vunnit OS-guld i höjdhopp, baserat på en referensbild på mig själv.
I den andra delen ska den generera en betydligt mer udda scen där jag har en picknick tillsammans med drottning Silvia, Zlatan Ibrahimović, Edward Blom och Elvis Presley. Tillsammans visar de hur bra AI:n är på både realism och omdöme, samt ifall AI:ns policyregler sätter käppar i hjulet för att generera bilder på kändisar.
Poängsättning: I det här testet kan AI:n få maximalt 6 poäng (3 poäng per bild): 1 poäng om bilden håller ihop visuellt och känns användbar, 2 poäng om den dessutom är realistisk och liknar mig på ett trovärdigt sätt – och 3 poäng om helheten ser riktigt proffsig ut, med rätt detaljer, bra komposition och ett resultat man faktiskt skulle kunna använda.
Prompt del A: Generera en realistisk bild av när jag just har tagit OS-guld i höjdhopp.
Prompt del B: Generera en bild av när jag har picknick tillsammans med drottning Silvia, Zlatan Ibrahimović, Edward Blom och Elvis Presley.

Sammanfattning av Test 4 – Generera två bilder på mig
ChatGPT


Grok


Copilot


Gemini

Jag kan hjälpa till med de flesta bilder på människor, men inte den här. Finns det någon annan bild jag kan försöka med åt dig?
Claude
Jag kan tyvärr inte generera, skapa eller redigera bilder. Jag kan bara analysera bilder som du visar mig.
Jag kan däremot hjälpa dig att skriva en detaljerad prompt/beskrivning som du kan använda i ett bildgenereringsverktyg, om du vill ha det?
Perplexity

Den bilden går inte att skapa.
Det beror på att förfrågan innebär att realistiskt framställa flera verkliga, igenkännbara personer tillsammans, vilket inte är tillåtet med den här typen av bildgenerering.
Test 4: Resultat
Den första bilden klarade alla förutom Claude som inte kan generera bilder. ChatGPT klippte i princip in mitt ansikte direkt i höjdhoppsbilden, vilket fick den att se mest verklighetstrogen ut, men även de andra fyra gjorde riktigt bra ifrån sig här. Den andra bilden som skulle genereras innehöll kändisar – något som flera inte vill generera på grund av att de skulle kunna användas i bedrägerisyfte. ChatGPT genererade dock en riktigt verklighetstrogen bild där samtliga kändisar var lika sig själva (kanske med viss reservation för Edward Blom som var mer lik Peter Harryson). Copilot gjorde också bra ifrån sig, men varken jag eller Edward Blom blev riktigt lika. Grok gav en bild på fyra personer där ingen liknar någon av oss. Bäst i testet var tveklöst ChatGPT följt av Copilot.
Test 5 – Hitta rätt schackdrag
I det här testet ställs AI-assistenterna inför ett klassiskt schackproblem. Uppgiften är att hitta den vinnande kombinationen av tre drag för vit samt att förstå svarts två drag. Här finns ett tydligt facit – rätt eller fel – vilket gör testet till ett effektivt sätt att mäta faktisk problemlösningsförmåga och schackförståelse. Poängsättning: AI:n får en poäng för varje rätt drag den hittar (maximalt 5 poäng).
Visa facit
Vinnande kombination för vit:
- Dxd8+ Txd8
- Txd8+ Lf8
- Lxf4
Prompt: Det är vits drag. I den här positionen finns en vinnande kombination som sträcker sig över tre drag för vit. Titta på schackproblemet och ange vilka tre drag vit ska spela. Förklara kort hur du resonerar.

Sammanfattning av Test 5 – Hitta rätt schackdrag
ChatGPT
- Dxd8+ (vit dam tar tornet på d8 och ger schack)… Txd8 (svart måste slå tillbaka – annars står svart sämre direkt)
- Txd8+ (vits torn från d1 tar tornet på d8 och ger nytt schack)… De8 (den praktiska blockaden: damen går in och täcker linjen)
- Txe8+ (tornet tar damen – avgörande materialvinst)
Grok
- Sg6+ (springare från f4 till g6, ger schack till svart kung på f8). Svart måste svara, t.ex. med Kxg6 eller annan pjäs.
- Sxh8 (springare tar svart dam på h8). Nu har vit vunnit damen, svart kanske tar tillbaka med t.ex. Tg8 eller annat.
- Lxb8 (löpare tar svart torn på b8). Vit vinner också tornet, och positionen är vinnande (ingen kompensation för svart).
Copilot
1. Sf6–g8+
Vit spelar springaren till g8 med schack. Svart har bara ett rimligt svar:
2. Txg8
Svart måste slå med tornet.
3. Dh6–f6#
Vit spelar damen till f6 – schackmatt!
Gemini
Txe5 Detta offer är nyckeln. Genom att slå bonden på e5 attackerar du den svarta damen. Om svart väljer att slå tillbaka med damen (1…Dxe5), lämnar damen försvaret av springaren på f4.
Dxf4 När damen har flyttat på sig kan vit fritt slå springaren på f4. Vit har nu vunnit material (två lätta pjäser mot ett torn) och har en totalt dominerande ställning.
Claude
Vits vinnande kombination:
- Sf4+ (Springaren från f3 till f4 med schack)
- Sxg6+ (Springaren tar löparen på g7 med schack – tvingat eftersom kungen måste svara på schacket)
- Sf4+ eller fortsatt attack (Springaren kan återvända med schack och vit har vunnit löparen)
Test 5: Resultat
AI-assistenternas schackkunskaper gick från bra till katastrof. ChatGPT fick in de tre första dragen korrekt, men missade att svart inte måste täcka med sin dam. Grok, Copilot och Claude gjorde alla otillåtna drag och hade ingen koll på hur pjäserna stod eller hur de kunde röra sig. Även Gemini hade problem att se var pjäserna stod. Bäst av alla var Perplexity som fick in de fyra första dragen, men det sista draget var otillåtet.

Test 6 – Var i världen är bilden tagen?
I det sista testet får AI-assistenterna analysera en bild tagen någonstans i världen och försöka lista ut var den är tagen. Uppgiften kräver observation, resonemang och förmågan att väga ledtrådar mot osäkerhet – snarare än att bara gissa. Bilden är tagen i Split, Kroatien, för några månader sedan. Jag har valt att inte klistra in resonemangen som ledde fram till svaren på grund av att de ofta var väldigt långa och välutvecklade.
Poängsättning: 1 poäng för rätt land (Kroatien), 2 poäng för rätt stad (Split) och 3 poäng för rätt område (Riva-promenaden).

Prompt: Titta på bilden och försök lista ut var i världen den är tagen. Förklara hur du resonerar.
Sammanfattning av Test 6 – Var i världen är bilden tagen?
ChatGPT
Jag kan förstås inte vara 100 % säker bara från en bild – men min bästa gissning är att den är tagen i Split, Kroatien, och mer specifikt längs Riva (strandpromenaden).
Alternativ som också liknar detta (men som jag tycker passar lite sämre) är t.ex. Hvar stad eller någon annan dalmatisk kuststad med liknande promenad – men helhetskänslan (promenadens bredd + palmrad + storstadshamn + kullen) pekar mest på Split.
Grok
Bilden är tagen i Split, Kroatien, vid den berömda Riva-promenaden (vattenfronten) i staden.
Kombinationen av palmkantad bred promenad + hamn + Marjan Hill med gammal stad i bakgrunden gör det väldigt tydligt att det är Split, Kroatien.
Copilot
Trolig plats: Medelhavsområdet – t.ex. . Ligurien i Italien eller Côte d’Azur i Frankrike
Allt sammantaget pekar mot en plats som kombinerar historisk charm med modern livsstil – troligen en kuststad i Ligurien eller på Franska rivieran.
Gemini
Bilden är med största sannolikhet tagen i Split, Kroatien, på den berömda strandpromenaden som kallas Riva.
Ljuset tyder på solnedgång eller tidig morgon (det varma skenet på byggnaderna i bakgrunden), och stilen på de flanerande personerna samt de typiska utekaféerna som döljer sig bakom de vita tygskärmarna till höger är mycket representativt för medelhavsstäder vid Adriatiska havet.
Claude
Min gissning: Split, Kroatien
Detta är nästan säkert Riva-promenaden i Split, Kroatien, fotograferad under golden hour.
Test 6: Resultat
Det här var ett test helt i AI-assistenternas smak. De flesta garderade sig och skrev att de inte kunde vara helt säkra, men pekade ändå ut Split som den mest sannolika platsen. Grok tvekade däremot inte och satte svaret direkt, utan krusiduller. Copilot var den enda som gissade helt fel.
| AI-assistenter | Test 1 | Test 2 | Test 3 | Test 4 | Test 5 | Test 6 | Totalpoäng |
| ChatGPT | 2 | 0 | 2 | 6 | 3 | 3 | 16 |
| Grok | 2 | 0 | 1 | 3 | 0 | 3 | 9 |
| Copilot | 2 | 0 | 3 | 5 | 0 | 0 | 10 |
| Gemini | 2 | 3 | 2 | 3 | 0 | 3 | 13 |
| Claude | 2 | 2 | 0 | 0 | 0 | 3 | 7 |
| Perplexity | 2 | 0 | 0 | 3 | 4 | 3 | 12 |
Totalt: Resultat
I Techsajtens stora 6-kamp gick ChatGPT segrande ur striden. Bortsett från bilbatteri-testet plockade OpenAI:s AI-assistent poäng i fem av sex grenar och landade på 16 poäng totalt. Gemini tog andraplatsen och fick också poäng i alla test utom ett, medan Perplexity knep tredjeplatsen. Testet visar att det finns tydliga skillnader mellan dagens AI-assistenter – och att resultatet kan variera beroende på uppgift. Ingen modell var bäst på allt, men vissa var betydligt jämnare än andra. Med andra ord: valet av AI-assistent spelar större roll än många tror.


