Wat is die Opsommingsjabloon vir Inhoudsopleiding? 

Die Europese Kommissie het onlangs vrygestel 'n verduidelikende kennisgewing en sjabloon om verskaffers van algemene KI (GPAI)-modelle te help om die inhoud op te som wat gebruik word om hul modelle op te lei. Die sjabloon ondersteun GPAI-verskaffers om hul verpligtinge kragtens Artikel 53 van die EU KI-wet, en maak 'n opsomming oor die inhoud wat gebruik word vir die opleiding van alle GPAI-modelle publiek beskikbaar.  

Van kritieke belang is dat dit ook 'n verdere stap verteenwoordig in die rigting van die bou van vertroue in KI deur deursigtigheid te verhoog, in lyn met die doelwitte van die regulasie. 

Alhoewel die opsomming van inligting oor 'n GPAI-model wat met behulp van die Sjabloon verskaf word, publiek beskikbaar is, het die Kommissie rekening gehou met die behoefte om handelsgeheime en vertroulike sake-inligting te beskerm. As sodanig verduidelik die verduidelikende kennisgewing dat die opsomming 'oor die algemeen omvattend in sy omvang moet wees in plaas van tegnies gedetailleerd om partye met wettige belange, insluitend kopiereghouers, te fasiliteer om hul regte kragtens Unie-wetgewing uit te oefen en af ​​te dwing.' 

Afdeling Een: Algemene Inligting 

Die eerste afdeling van die sjabloon bevat algemene inligting oor die GPAI-verskaffer en -model, insluitend die verskaffer se kontakbesonderhede, die naam van die GPAI-model wat as weergawe gebruik is, modelafhanklikhede en die datum waarop die model op die Unie-mark geplaas is. Verskaffers moet die modaliteite wat in die opleidingsdata teenwoordig is, uiteensit vir sover dit identifiseerbaar is, insluitend: 

  • Teks 
  • Image 
  • Audio 
  • Video 
  • ander 

Verskaffers moet die grootte van opleidingsdata uiteensit deur reekse binne die beraamde totale datagrootte vir elke modaliteit te kies. Hulle moet ook die tipes inhoud vir elke gekose modaliteit beskryf, byvoorbeeld: 

  • Fiksieteks 
  • Nie-fiksie teks 
  • Wetenskaplike teks 
  • Fotografie 
  • Visuele kunswerke 
  • computeranimatie 
  • Sosiale media beelde 
  • Musikale komposisies 
  • Voorspoed 
  • Privaat oudiokommunikasie 
  • Musiekvideo's 
  • films 
  • TV-programme 
  • Video speletjies 
  • Sosiale media video's. 

Laastens moet verskaffers die jongste datum van data-insameling of -verkryging vir modelopleiding en enige bykomende inligting oor die insameling van opleidingsdata deel. 

Afdeling Twee: Databronne 

Die tweede, en grootste, afdeling van die sjabloon vereis dat verskaffers spesifieke databronne wat gebruik word om die GPAI-model op te lei, moet uiteensit. Organisasies moet die modaliteit of modaliteite van die inhoud wat deur die betrokke datastelle gedek word in elke afdeling spesifiseer, en dan spesifieke vrae vir elke tipe databron beantwoord. 

Hierdie afdeling klassifiseer die term "datastel" as 'n enkele, voorafverpakte versameling data; data wat gefiltreer en voorafverwerk is uit dieselfde voorafverpakte versameling moet nie as 'n nuwe datastel beskou word wat afsonderlik bekend gemaak moet word nie. Indien 'n datastel in meer as een kategorie val, moet verskaffers die mees relevante kategorie kies. 

GPAI-verskaffers moet besonderhede verskaf oor die datastelle wat gebruik word om die model op te lei: 

  • Openbaar beskikbare datastelle 
  • Datastelle wat deur 'n derde party saamgestel word, word gratis in die openbaar beskikbaar gestel en kan geredelik as 'n geheel of in voorafbepaalde dele afgelaai word. 
  • Privaat nie-openbaar beskikbare datastelle verkry van derde partye 
  • Datastelle kommersieel gelisensieer deur regtehouers of hul verteenwoordigers. 
  • Privaat datastelle verkry van ander derde partye. 
  • Data gekruip en geskraap van aanlynbronne 
  • Gekruipte, geskraapte data, of data wat andersins uit aanlynbronne saamgestel is, uitgesluit publiek beskikbare datastelle wat reeds gedek is.  
  • Gebruikersdata 
  • Gebruikersdata wat deur alle dienste en produkte van die verskaffer ingesamel word, uitgesluit data wat deur gebruikers gelisensieer is op grond van kommersiële transaksieooreenkomste of kliëntdata, om modelle vir spesifieke doeleindes te verfyn. 
  • Sintetiese KI-gegenereerde data  
  • Data wat geskep is vir die opleiding van die model op die uitsette van 'n ander model, soos KI-terugvoer deur versterkingsleer, uitgesluit die gebruik van KI-modelle om data skoon te maak of te verryk. 
  • Ander bronne van data 
  • Data wat nie onder enige van die vorige kategorieë val nie, bv. data wat van vanlyn bronne versamel is, selfgedigitaliseerde media, datastelle wat deur mense gemerk is en deur die verskaffer in opdrag gegee is. 

Afdeling Drie: Dataverwerkingsaspekte 

Die derde afdeling van die sjabloon fokus op die maatreëls wat die verskaffer geïmplementeer het om enige voorbehoude van regte onder die uitsondering of beperking op teks- en data-ontginning (TDM) soos uiteengesit in Artikel 4 van die Richtlijn oor Kopiereg in die Digitale Enkele Mark te identifiseer en daaraan te voldoen. Hierdie maatreëls moet ook ooreenstem met die verskaffer se kopieregbeleid, soos vereis deur Artikel 53 van die EU-KI-wet.  

Dit sluit in die beskrywing van maatreëls wat die verskaffer voor modelopleiding geïmplementeer het om die voorbehoud van regte uit die TDM-uitsondering of -beperking te respekteer: 

  • Maatreëls wat voor en tydens data-insameling geïmplementeer is 
  • Uitsluitingsprotokolle en -oplossings wat deur die verskaffer geëer word 
  • Uitsluitingsprotokolle en -oplossings wat deur derde partye waaruit datastelle verkry is, nagekom word. 

GPAI-verskaffers moet 'n algemene beskrywing verskaf van die maatreëls wat hulle getref het om onwettige inhoud kragtens Unie-wetgewing uit die opleidingsdata te vermy of te verwyder. Hulle is egter nie verplig om spesifieke besonderhede oor hul interne sakepraktyke of handelsgeheime bekend te maak nie. 

Laastens bied die sjabloon 'n opsionele afdeling waar verskaffers enige ander relevante inligting kan deel oor dataverwerkingsmaatreëls wat voor of na die opleiding van die model geneem is. 

Volgende stappe 

Vir GPAI-verskaffers is dit noodsaaklik om bestaande GPAI-modeldokumentasie en -prosesse te hersien. Ter voorbereiding vir die gebruik van die sjabloon moet organisasies duidelike interne sigbaarheid oor datastelbronne, datastelmodaliteite, groottes en inhoudtipes, en bestaande dataverwerkingsmaatreëls verseker.  

Implementering van beste praktyke, soos dié uiteengesit in die KI-bestuur standaard ISO 42001 Om 'n etiese KI-bestuurstelsel (AIMS) te bou, kan ook help om deursigtigheid te verhoog, KI-risiko te verminder, duidelike dokumentasie te verseker en vertroue in 'n organisasie en sy KI-modelle te bou.