Lyhyesti: kontradiktorinen hyökkäys koneoppimismallia kohtaan

  • Posted on: 20 March 2018
  • By: Juho Vaiste

Yhtenä koneoppimisen edistystä ja turvallisuuskeskustelua haittaavana hakkerointi-/häirintämenetelmänä on kontradiktoriset hyökkäykset.

Näissä esim. kuvantunnistuksessa mallille syötettävää kuvaa muutetaan lisäämällä kohinaa, mikä voi johtaa siihen, ettei malli enää toimi. Usein näissä tilanteissa ihmissilmälle kuva on edelleen selkeästi tiettyä objektia esittävä (tai jopa niin, että ihmissilmä ei tunnista kuvaa muutetun), mutta koneoppimismallit tunnistavat objektin kohinan takia väärin.

Kontradiktorisia hyökkäyksiä voi olla joko suunnattuja tai ei-suunnattuja. Suunnatussa hyökkäyksessä halutaan ja tähdätään haluttuun tunnistustulokseen (esim. pesukoneesta kassakaapiksi), kun taas ei-suunnatussa tavoitteena on vain se, ettei malli osaa tunnistaa kuvaa/objektia oikein.

Kontradiktorisista häirintää vastaan on vielä tänä päivänä vaikea suojautua täysin, ja parhaiten toimivia puolustuskeinoja on kaksi: mallin kontradiktorinen opettaminen tai "defensive distillation".

Oikeassa elämässä kontradiktorisella häirinnällä voi olla vakavia vaikutuksia:
- itseohjautuvien autojen mallien häirintä
- väärentämistapaukset esim. rahaliikenteessä

Lisää aiheesta ja lähteet:
https://blog.openai.com/adversarial-example-research/
https://blog.xix.ai/how-adversarial-attacks-work-87495b81da2d
https://www.kaggle.com/c/nips-2017-targeted-adversarial-attack