-
Tutkimus paljastaa: ChatGPT erehtyy tieteessä luultua useammin
Erityisen vaikeaa tekoälylle oli virheellisten väitteiden tunnistaminen.
Tuore tutkimus nostaa esiin yllättävän ristiriidan suositun kielimallin kyvykkyydessä. Vaikka ChatGPT kuulostaa vakuuttavalta, sen vastaukset eivät ole läheskään aina luotettavia. Pahimmillaan ne vaihtelevat huomattavasti samankin kysymyksen kohdalla.
Tutkijat analysoivat yli 700 tieteellistä hypoteesia ja esittivät jokaisen kysymyksen tekoälylle kymmenen kertaa mitatakseen vastausten johdonmukaisuutta. Tulokset paljastivat, että ongelma ei ole pelkästään virheissä, vaan myös epävakaudessa.
Ensimmäisessä testissä vuonna 2024 ChatGPT vastasi oikein 76,5 prosentissa tapauksista. Vuonna 2025 tehdyssä uusintatestissä tarkkuus nousi hieman 80 prosenttiin. Kun tuloksista kuitenkin poistettiin sattuman vaikutus, kokonaiskuva muuttui selvästi heikommaksi.
Todellisuudessa tekoälyn suorituskyky oli vain noin 60 prosenttia parempi kuin pelkkä arvaaminen. Käytännössä tämä tarkoittaa tasoa, joka muistuttaa heikkoa arvosanaa eikä vahvaa luotettavuutta.
Erityisen vaikeaa tekoälylle oli virheellisten väitteiden tunnistaminen. Niistä se tunnisti oikein vain 16,4 prosenttia. Lisäksi vastaukset vaihtelivat huomattavasti: samaan kysymykseen saatiin identtisissä olosuhteissa johdonmukainen vastaus vain noin 73 prosentissa tapauksista.
Tutkimuksen johtajan mukaan epäjohdonmukaisuus on keskeinen huolenaihe: täysin identtisillä kysymyksillä saatiin vaihtelevia vastauksia. Välillä väite arvioitiin todeksi, seuraavalla kerralla epätodeksi. Joissakin tapauksissa tulos jakautui tasan, viisi kertaa todeksi ja viisi kertaa epätodeksi.
Tulokset julkaistiin Rutgers Business Review -julkaisussa. Ne korostavat varovaisuuden tarvetta tekoälyn käytössä erityisesti tilanteissa, joissa vaaditaan syvällistä päättelyä.
Vaikka generatiivinen tekoäly tuottaa sujuvaa ja uskottavaa tekstiä, se ei vielä kykene samaan käsitteelliseen ymmärrykseen kuin ihminen. Tutkijoiden mukaan nykyiset järjestelmät eivät “ajattele”, vaan perustuvat pitkälti opittujen mallien toistamiseen.
Tutkimuksessa käytettiin 719 hypoteesia liiketaloustieteen julkaisuista vuodesta 2021 alkaen. Tällaiset väitteet vaativat usein hienovaraista tulkintaa ja useiden tekijöiden huomioimista, mikä tekee yksinkertaisesta tosi–epätosi-arviosta haastavan. Testeissä hyödynnettiin vuoden 2024 versiota ChatGPT-3.5:stä sekä vuoden 2025 päivitettyä ChatGPT-5 mini -mallia. Suorituskyky pysyi kuitenkin molemmissa versioissa pitkälti samankaltaisena.
Tutkijoiden johtopäätös on selkeä: tekoälyä ei pidä käyttää kritiikittömästi päätöksenteon tukena. Erityisesti liiketoiminnassa suositellaan tarkistamaan tekoälyn tuottama tieto ja ymmärtämään sen rajoitteet.
Kuva: Pixabay
Hei! Luitko jo tämän?
Humanoidirobotti pelasi tennistä ihmisen kanssa: Näin siinä kävi
Tagit: tekoäly ChatGPT tiede TakaisinKirjoittaja