Tekoälyn virhepäätelmät ja vinoumat sekä syrjintäriskit voidaan karkeasti jakaa:
- tekoälyn toiminnasta johtuviin (esimerkiksi algoritmien ja datan vinoumat),
- käyttäjän toiminnasta ja tulkinnasta johtuviin (esimerkiksi käyttötaidot ja tekoälyn tuottaman tiedon tulkinta ja ymmärtäminen) ja,
- systeemisiin eli koulutusjärjestelmän toiminnasta ja organisaation toimintakulttuurista johtuviin (esimerkiksi koulutusjärjestelmän rakenteet ja toimitavat voivat vaikuttaa käytettävään dataan sekä tiedon käsittelyyn luoden vinoumia).
Lisäksi on huomioitava, että tekoälysovellusten kehittäminen ei ole myöskään irrallaan kulttuurisesta ja historiallisesta kontekstista, arvoista ja muista taustavaikuttimista. Tällä hetkellä tekoälyjärjestelmät, erityisesti generatiivinen tekoäly, pohjautuvat pitkälle suuryhtiöiden kaupalliseen kehitystyöhön ja niiden käyttämään dataan sekä tarjoamien pilvipalvelimien laskentakapasiteettiin (cloud computing). Tekoälysovelluksissa on harvoin huomioitu esimerkiksi suomen kielen erityispiirteet ja kulttuurinen konteksti tai suomalaisten opetussuunnitelmien arvopohja.
Tekoälyn käytössä vinoumiin ja virhepäätelmiin sekä syrjintäriskeihin vaikuttavat esimerkiksi
Virheet algoritmeissa tai tekoälymallien luonnissa
Suunnitteluvirheet algoritmien tai tekoälymallin kehittämisvaiheessa voivat vinouttaa algoritmeja ja datan tulkintaa, vaikka käytetty data itsessään olisi oikeellista. Virheet voivat olla niin loogisia suunnitteluvirheitä kuin pieniä teknisiä virheitä. Algoritmien kehittäminen ja tekoälymallin kouluttaminen sekä testaus ja jälkiprosessointi vaikuttavat suuresti siihen, onko algoritmeissa ja tekoälyn toiminnassa vinoumia sekä mahdollisesti kielteisiä yhdenvertaisuusvaikutuksia kuten syrjintää.
Datan käyttö väärässä yhteydessä
Tekoälymallien opetusdataksi on voitu valita huonosti tekoälyn käyttökohteisiin soveltuvat datajoukot tai käytetyt muuttujat. Datan ilmaisuvoima ei välttämättä riitä kuvaamaan haluttua ilmiötä, vaan sinänsä oikeellista dataa käytetään väärässä kontekstissa tai käytetyt muuttujat on valittu väärin. Esimerkiksi oppimisanalytiikkadata, joka sisältää verkko-oppimisympäristön lokitiedot kirjautumisista, klikkauksista ja ajankäytöstä soveltuu varsin huonosti tekoälymallien luomiseen oppijan motivaatiosta tai ennustamaan oppimistuloksia.
Datan vähäinen määrä
Tekoälymallien opetukseen käytettävä datan määrä on ollut liian vähäinen, jolloin ei ollut mahdollista muodostaa laadukkaita ja tarkkoja tekoälymalleja sekä testata niitä. Tämä johtaa helposti tekoälyn virhepäätelmiin ja vinoumiin. Usein koneoppimisen mallien muodostaminen edellyttää erittäin suurta datajoukkoa, ns. big dataa.
Valinta- ja keräysvinouma datassa
Tekoälymallien pohjana käytetty opetusdata on valittu virheellisesti, se voi olla yksipuoleista tai se soveltuu huonosti kyseiseen käyttötarkoitukseen. Tällöin data voi esimerkiksi edusta huonosti laajempaa joukkoa ja sen ominaisuuksia luoden vinoumia tekoälymalleihin ja siten tekoälyn tuotoksiin.
Virheet ja puuttuvat arvot datassa
Usein datajoukoissa saattaa olla virheellisiä arvoja tai puuttuvia tietoja. Jos data on virheellistä, eivät tekoälyn tuotoksetkaan voi olla oikeellisia. Datan siivoaminen ja laadunvarmistaminen on olennaisin vaihe tekoälyn kehittämisessä. Puuttuvien ja poikkeavien arvojen korjaamisen datassa voidaan käyttää erilaisia menetelmiä, joiden luotettavuutta täytyy erikseen arvioida.
Väärä yleistäminen
Tekoälyä käytettäessä tai tekoälymalleissa voidaan tehdä helposti väärä yleistäminen populaatioiden välillä. Erityisesti oppimisanalytiikassa on huomioitava, että populaatioiden välillä ei voi tehdä suoraan johtopäätöksiä. Esimerkiksi luokan 5A oppimisdatan pohjalta ei voi tehdä kovin vahvoja johtopäätöksiä koskien luokkaa 5B. Toisaalta myös viime vuoden 5B-luokan oppimistuloksia ei voida yleistää tämän vuoden 5B-luokkaan.
Aggregointi
Jos heterogeenisestä aineistosta lasketaan esimerkiksi keskiarvoja tai luodaan keskiarvoihin pohjautuvia malleja, se ei enää kuvaa kovin hyvin aineiston kohderyhmää tai sitä ei voida soveltaa esimerkiksi yksittäiseen oppijaan. Ryhmään pohjautuvien laskelmien (ml. Gaussin käyrä) sijaan oikeellisimpia tuloksia tekoälyssä ja oppimisanalytiikassa saadaan usein käyttämällä yksilön pitkittäistä dataa, ns. idiografista lähestymistapaa.
Vanha data
Tekoälymallin pohjana käytetty data saattaa kuvata mennyttä aikaa, vanhaa tilannetta ja rakenteita ja siten soveltuu huonosti selittämään nykyistä kontekstia. Esimerkiksi aikaisemmin kerätty data voi heijastaa yhteiskunnassa aikaisemmin tai nykyään esiintyviä asenteita, syrjintäperusteisiin liittyvää epäyhdenvertaisuutta tai sukupuolten epätasa-arvoista asemaa. Toisaalta myös koulutusjärjestelmän muutosten ja opetussuunnitelmien uudistuksen jälkeen on tarkoin arvioitava, miten aikaisempi data oppijoista soveltuu nykytilanteeseen. Ydinkysymys on, että kuinka hyvin historian pohjalta voi ennustaa tulevaisuutta? Lisäksi on huomioitava, että lakisääteiset yhdenvertaisuuden ja tasa-arvon edistämisvelvoitteet edellyttävät varhaiskasvatuksen ja koulutuksen järjestäjiä aktiivisiin toimin poistamaan epäyhdenvertaisuutta. Yksi keino edistää yhdenvertaisuutta ja tasa-arvoa on positiivinen erityiskohtelu.
Tekoälyn vinoumien lisäksi puhutaan joskus vähän leikkisästi tekoälyn hallusinaatioista, jolloin tekoäly ikään kuin satuilee ja keksii asioita, jotka eivät ole todellisia tai totta. Tällöin useimmiten kyseessä ei ole varsinaisesti vinouma datassa tai algoritmeissa vaan tekoäly tuottaa esimerkiksi dataan tai laajaan kielimalliin pohjautuen tuotoksia, jotka ovat kielimallin ja datan pohjalta oikeita, mutta eivät vastaa faktoja todellisuudessa.
Tekoälymallin yhdenvertaisuusauditoinnissa ja -testauksessa on olennaista huomioida kansallisen yhdenvertaisuus- ja tasa-arvolainsäädännön lähtökohdat ja velvoitteet. Kansainvälisesti käytetyt menetelmät eivät välttämättä ole yhdenmukaisia kansallisen yhdenvertaisuus- ja tasa-arvosääntelyn kanssa.