Sleutel wegneemetes uit NIST se nuwe riglyne oor teenstrydige KI-bedreigings

22 Februarie 2024

INHOUDSOPGAWE:

1) Vier tipes aanval
2) Hoe om hierdie aanvalle te versag
3) Skep wyer konteks
4) Nog werk om te doen

Daar is 'n konsep in kunsmatige intelligensie (KI) genaamd "belyning", wat verseker dat 'n KI-stelsel altyd menslike bedoelings en waardes volg. Maar wat gebeur as iemand 'n KI-stelsel kompromitteer om iets te doen wat die skeppers nie wou hê nie?

Voorbeelde van hierdie bedreiging, bekend as teenstrydige KI, wissel van die dra van grimering wat doelbewus gesigsherkenningstelsels mislei, tot om outonome motors te flous om oor die pad te draai. Dit is 'n gebied van potensiële risiko vir KI-stelselbouers en hul gebruikers, maar baie van die navorsing daaroor is steeds akademies.

In Januarie het die Amerikaanse Nasionale Instituut vir Standaarde en Tegnologie (NIST) 'n dokument gepubliseer wat probeer het om hierdie navorsing te distilleer. Dit was 'n lang projek. Die eerste konsep van Teenstrydige masjienleer: 'n taksonomie en terminologie van aanvalle en versagtings het in 2019 verskyn. Hierdie jongste weergawe is die finale een, en dit kan 'n belangrike grondslagdokument wees vir KI-ontwikkelaars wat gretig is om versagtings in hul produkte in te bou.

Vier tipes aanval

Die taksonomie verdeel teenstrydige KI-aanvalle in verskeie kategorieë:

1) Misbruik aanvalle

Dit gebeur voor die modelopleiding selfs begin deur met data te peuter voordat dit ingesamel word - die model vals of manipulerende data voed wat ontwerp is om die resultate daarvan te beïnvloed. Anders as die ander, is hierdie vorm van aanval uniek aan generatiewe KI (GenAI) stelsels.

Ons het reeds 'n paar innoverende voorbeelde hiervan gesien in die stryd oor intellektuele eiendom in GenAI. nastergal, 'n projek van navorsers aan die Universiteit van Chicago, is 'n hulpmiddel wat kunstenaars en illustreerders kan gebruik om hul werk subtiel aanlyn te verander sonder om die visuele ervaring vir kykers te verander.

Nightshade se veranderinge veroorsaak dat GenAI-opleidingsmodelle voorwerpe daarin verkeerd interpreteer (dit kan byvoorbeeld 'n koei as 'n broodrooster beskou). Dit verwar GenAI-modelle wat op daardie opleidingsdata staatmaak om 'nuwe' kunswerke te skep. Nightshade spreek wat die span sien as ongemagtigde diefstal van data vir opleidingsdoeleindes aan deur dit ekonomies problematies vir GenAI-maatskappye te maak.

2) Vergiftigingsaanvalle

Dit spreek ook die KI-opleidingsproses aan, maar op 'n manier wat reeds versamelde data doelbewus korrupteer om die finale opleidingsmodel te verdraai. Ons kan ons voorstel dat iemand visuele data inbreek wat gebruik word om outonome voertuie op te lei en beelde van stoptekens te verander of vals te merk en dit in groen ligte te verander.

3) Ontduikingsaanvalle

Selfs al is 'n KI-model akkuraat opgelei op die korrekte data, kan aanvallers steeds die KI-stelsel teiken nadat dit ontplooi is. ’n Ontduikingsaanval mik sy afleidingsproses – die handeling van die ontleding van nuwe data met behulp van die opgeleide model – deur nuwe data te manipuleer wat die KI-model veronderstel is om te interpreteer. In ons voorbeeld van outonome bestuur kan iemand dalk merke by stoptekens op straat voeg wat verhoed dat 'n voertuig dit herken, wat hulle aanspoor om voort te ry.

4) Privaatheidsaanvalle

Sommige aanvalle gaan oor die oes van data eerder as om die model se interpretasie daarvan te verdraai. 'n Privaatheidsaanval sal 'n KI-model tydens die afleidingsfase ondervra om sensitiewe inligting uit sy opleidingsdata te verkry. Navorsers het reeds maniere uitgevind het om soet-praat OpenAI se GPT-3.5 Turbo- en GPT4-modelle om ander gebruikers se e-posadresse prys te gee.

Hoe om hierdie aanvalle te versag

Die NIST-dokument bied tegniese versagtingsmaatreëls om hierdie misbruik van KI te help aanpak. Dit sluit in teenstrydige opleiding, waarin datawetenskaplikes data-items in die opleidingstel invoeg wat ontduikingsaanvalle stuit. Dit het egter tipies afwykings op gebiede soos opleidingsmodel akkuraatheid, erken die dokument, wat oplossings vir hierdie afwegings beskryf as ''n oop vraag.

Die onoortuigende versagtingsmaatreëls bevestig hierdie dokument se posisie as 'n opname van akademiese werk oor teenstrydige KI en die distillasie daarvan in 'n gedetailleerde taksonomie wat mense kan gebruik om te verseker dat hulle dieselfde dinge beskryf wanneer hulle oor hierdie probleme praat. Dit is nie 'n gids vir praktisyns om die teenstrydige KI-bedreiging aan te spreek nie, waarsku Nathan VanHoudnos, senior masjienleer-navorsingswetenskaplike en laboratoriumleier by die CERT-afdeling van die Sagteware-ingenieursinstituut by die Carnegie Mellon Universiteit.

Skep wyer konteks

"Ek dink daar sal ruimte wees om 'n meer praktisyn-gefokusde gids te hê noudat hulle die harde werk gedoen het om 'n taksonomie saam te stel," vertel hy aan ISMS.online. "Die dinge wat ek in daardie soort gids sou wou sien, sou wees om nie net die masjienleerlaag te oorweeg nie, maar die hele stapel van 'n KI-stelsel."

Hierdie stapel strek verder as die datalaag, wat wissel van die onderliggende GPU-hardeware tot die wolkomgewings waarin dit werk en die verifikasiemeganismes wat in AI-stelsels gebruik word, verduidelik hy.

NIST het reeds beduidende stappe gedoen om diegene wat KI implementeer met meer praktiese raad te help. Die instituut, wat sy betroubare en verantwoordelike KI-hulpbronsentrum in Maart 2023 geskep het, het 'n KI Risikobestuursraamwerk in Januarie 2023 saam met 'n speelboek wat ontwerp is om 'n volle spektrum van individuele, organisatoriese en sosiale risiko's van KI te help bestuur.

Vroeg Februarie 2024 het NIST 'n RFI uitgereik omdat dit hulp gesoek het oor hoe om sy verantwoordelikhede onder die Withuis se Uitvoerende Bevel van Oktober 2023 oor Veilige, Veilige en Betroubare Ontwikkeling en Gebruik van Kunsmatige Intelligensie na te kom. Dit sluit in die ontwikkeling van KI-ouditvermoë en riglyne oor KI-rooi span.

Alhoewel die inligting oor teenstrydige KI van NIST tot dusver meer akademies is, wys VanHoudnos op ander aanvullende hulpbronne. MITER het sy Teenstrydige bedreigingslandskap vir kunsmatige intelligensiestelsels (Atlas) inisiatief, wat werklike tegnieke op verskillende stadiums van die teenstrydige KI-aanvalsketting versamel, van verkenning tot impak.

Die KI Risiko en Kwesbaarheid Alliansie, wat 'n oopbronpoging onder KI-navorsers is, het ook 'n taksonomie van KI-kwesbaarhede saam met 'n databasis van spesifieke aanvaltipes wat aan daardie taksonomie gekoppel is (bv. AVID-2023-V005: Camera Hijack Attack on Facial Recognition System). 'n Sleutelverskil tussen die AVID-taksonomie en NIST's is dat dit formeel tegniese kwesbaarhede karteer na hoër-orde risiko's op gebiede soos sekuriteit (bv. inligtinglekkasies), etiek (bv. verkeerde inligting) en prestasie (bv. datakwessies of privaatheidsimplikasies).

Om die teenstrydige uitdagings aan hierdie hoër-orde risiko's te koppel, is 'n sleuteldeel van die opkomende werk oor volwasse navorsing oor die gevare rondom KI, stel VanHoudnos voor. Die samelewingsimplikasies van KI-mislukking – beide opsetlik of andersins – is immers groot.

"Die grootste risiko [van KI-stelsels] is die onopsetlike skade wat hulle sal aanrig," verduidelik VanHoudnos. Dit kan wissel van per ongeluk lieg aan kliënte deur na mense onregverdig van belastingbedrog beskuldig en val 'n regering of om iemand te oorreed om homself dood te maak.

In hierdie konteks noem hy ook die Sentrum vir Sekuriteit en Opkomende Tegnologie, wat gepoog het om hierdie skade te kategoriseer en te formaliseer in sy verslag oor Voeg struktuur by AI Harm.

Nog werk om te doen

Die NIST-dokument is 'n omvattende opname van terme en tegnieke in die veld wat sal dien as 'n nuttige aanvulling tot werk wat reeds teenstrydige KI-risiko's en kwesbaarhede in die gebied dokumenteer. VanHoudnos is egter bekommerd dat ons nog werk het om te doen om hierdie risiko's vanuit 'n praktisyn se perspektief te omhels.

“Dit was eers verlede somer dat mense die idee dat KI-sekuriteit kuberveiligheid is ernstig begin opneem,” sluit hy af. "Dit het 'n rukkie geneem voordat hulle besef het dat KI net 'n toepassing is wat loop op rekenaars wat aan netwerke gekoppel is, wat beteken dat dit die CISO se probleem is."

Hy glo dat die bedryf nog nie 'n robuuste prosedurele raamwerk het om teenstrydige teenmaatreëls in te stel nie. Tussen hulle staan CMU en SEI op die KI-sekuriteitsvoorvalreaksiespan (ASIRT), 'n inisiatief wat gerig is op nasionale veiligheidsorganisasies en die verdedigingsindustriële basis, wat sal fokus op die navorsing en ontwikkeling van formele benaderings om KI-stelsels teen teëstanders te beveilig.

Hierdie soort poging kan nie gou genoeg kom nie, veral gegewe NIST se bewering dat "nog nie 'n onfeilbare metode bestaan om AI teen verkeerde rigting te beskerm nie." Weereens sal ons waarskynlik in 'n eindelose stryd met teëstanders verval wanneer ons ons KI-stelsels teen ondermyning beskerm. Hoe gouer ons in alle erns begin, hoe beter.

skrywer

Danny Bradbury

Danny Bradbury is 'n gedrukte joernalis wat spesialiseer in tegnologie sedert 1989 en 'n vryskutskrywer sedert 1994. Hy het vir nasionale publikasies aan beide kante van die Atlantiese Oseaan geskryf en het toekennings gewen vir sy ondersoekende kuberveiligheidsjoernalistiekwerk.

Sien alle plasings deur Danny Bradbury