Screenshot del video di presentazione del Sari (da Youtube)

Con un roboante annuncio a reti unificate, il 7 settembre 2018 l’Italia è venuta a sapere che la polizia ha un nuovo alleato: il Sistema automatico di riconoscimento delle immagini (Sari). In meno di un secondo e mezzo, recitano le veline, questa tecnologia è in grado di identificare un potenziale criminale, confrontandone il volto con un database di sedici milioni di profili. Oppure dieci milioni. O forse nove.

Il problema è che del Sari, che ha consentito per la prima volta a settembre del 2018 di identificare due rapinatori georgiani nel Bresciano, non sono mai stati compresi diversi dettagli. Prima di tutto, non è mai stato definito chiaramente quanto sia grande la base di dati su cui lavora il sistema. E poi: i due georgiani arrestati a settembre sono davvero stati i primi a essere identificati grazie al Sari?

Wired ha tracciato alcuni punti fermi nella questione del riconoscimento facciale in Italia: nella banca dati sono presenti i volti di 2 milioni di cittadini italiani e 7 milioni di stranieri (questi ultimi non sono necessariamente tutti residenti in Italia). Allo stesso tempo, però, è stato possibile individuare un primo utilizzo di Sari che sposterebbe le lancette al 6 giugno 2018. Ben tre mesi prima dell’annuncio ufficiale di settembre.

Perché la confusione sui numeri del database?

Informazioni contrastanti, dati corretti in corsa e un generale velo di mistero circondano Sari. Grazie ai (pochi) dettagli tecnici forniti dalle autorità e a una serie di richieste di accesso agli atti (Foia), sappiamo che Sari è “un’evoluzione del Sotto sistema anagrafico” Ssa-Afis, ovvero del Sistema automatizzato di identificazione delle impronte (Automated fingerprint identification system). In parole povere, inserendo in Sari la fotografia di un sospettato, il sistema dovrebbe andare a cercare tutti i fotosegnalati che gli somigliano e che erano stati precedentemente inseriti nel database di Afis. Ed è qui che i numeri iniziano a confondersi.

La banca dati ha sedici milioni di volti,” aveva detto Fabiola Mancone, primo dirigente della polizia scientifica, in un’intervista al Tg1. La stessa cifra viene indicata da un dirigente di Parsec 3.26, società leccese che ha sviluppato il sistema, in un’intervista rilasciata a Telenorba nello stesso periodo. Ma sedici milioni di profili sono tanti, troppi secondo Stefano Quintarelli – già deputato nella scorsa legislatura – che su Twitter ha osservato come a essere schedato sarebbe “un italiano su tre, esclusi i bambini.”

Le rivelazioni dai verbali

All’interno del verbale di collaudo, ottenuto con una richiesta di accesso agli atti, si trova un elemento che potrebbe giustificare l’errore dei 16 milioni di foto all’interno del database — ma che complica ulteriormente la comprensione del sistema.

Nel verbale si legge che i tecnici hanno provveduto a verificare il corretto allineamento tra Afis e il software per il riconoscimento facciale. In particolare, si legge nel documento, “la base dati del Sari Enterprise è composta da circa 16 milioni di record per quanto riguarda le informazioni strutturate, e da circa 10 milioni di immagini per quanto riguarda i volti (come da apposita specifica del capitolato tecnico)”.

Il riferimento è alla versione Enterprise di Sari, ovvero di quella che funziona tramite l’inserimento manuale di un’immagine nel motore di ricerca. L’altra modalità, Real-Time, è in grado di identificare il volto di un soggetto in tempo reale attraverso le telecamere di sorveglianza, e peraltro non ha ancora ottenuto il via libera da parte del Garante della privacy, che a ottobre del 2018 ha chiesto al ministero di fornire una valutazione d’impatto del sistema.

In questo caso, però, non è ben chiaro cosa si intenda per “informazioni strutturate”, né come queste vengano elaborate dagli algoritmi. A riguardo abbiamo chiesto chiarimenti direttamente alla polizia di Stato, con una mail inviata il 21 marzo, che non ha ricevuto risposta al momento della pubblicazione di questo articolo.

Ma un altro dato lo aveva fornito lo stesso ufficio stampa, con una mail che risale al 12 ottobre del 2018. In quell’occasione, le autorità avevano confermato che il database su cui lavora il sistema di riconoscimento facciale è composto da nove milioni di profili (quindi non più sedici o dieci). E di questi, “circa 2 milioni su 9 milioni riguardano soggetti italiani,” ha precisato l’ufficio stampa.

Da questa informazione si capiscono due cose: i sette milioni che mancano per arrivare a sedici dovrebbero essere quei “dati strutturati” di cui si fa riferimento nel verbale. E inoltre, se gli italiani contenuti in Afis sono due milioni, significa che i restanti sette milioni sono stranieri.

Come si finisce nel database di Sari?

Passaporti, Sistema dattiloscopico europeo (Eurodac) o addirittura la rinnovata tendenza delle forze dell’ordine a scattare copiose fotografie durante le manifestazioni: le ipotesi su come si sia arrivati a parlare di 16 milioni di identità sono state molteplici. Peraltro, la necessità di chiarire tutti i dettagli intorno a Sari è stata sottolineata anche da Federico D’Incà, deputato del Movimento 5 Stelle, che ha depositato un’ interrogazione parlamentare il 19 settembre 2018, a una decina di giorni dalla notizia del primo arresto avvenuto grazie al riconoscimento facciale.

Ma se questa non ha ancora formalmente ricevuto risposta – nonostante siano passate ventotto settimane -, un portavoce della polizia ha spiegato a Wired che “per fare un’identificazione si avvisa il magistrato di turno e si va alla scientifica se ci sono i presupposti, poi si prendono i dati e l’impronta: quello va dentro Afis.” Nessun altro tipo di dato dunque dovrebbe finire tra gli ingranaggi del riconoscimento facciale. Non le fotografie raccolte durante manifestazioni e cortei, né i passaporti, per i quali è comunque necessario fornire le impronte digitali, ma che costituirebbero una catalogazione preventiva ingiustificata.

Algoritmi e pregiudizi

Diverso invece per gli immigrati, che quando entrano nel nostro Paese, sia via mare sia via terra, vengono fotosegnalati e sono tenuti a fornire le impronte digitali. Sarebbero proprio sette milioni gli stranieri i cui dati rientrano nella base di lavoro del sistema di riconoscimento facciale, come riferisce la polizia. Di questi, però, non è dato sapere quanti rientrano in Afis per aver commesso un reato – in questo caso i tempi di conservazione sono stabiliti dal Dpr del 15 gennaio 2018 – o per via delle leggi sull’immigrazione. A riguardo, non è mai stato pubblicato il decreto ministeriale, che sarebbe dovuto seguire al parere emesso dal Garante per la privacy, a febbraio del 2017.

Diversamente Eurodac, prevede la cancellazione automatica dei dati dopo 18 mesi. Cancellazione che invece avviene anche prima se il cittadino di un Paese terzo o apolide ottiene un titolo di soggiorno, lascia il territorio europeo o acquisisce la cittadinanza di un Paese comunitario.

Sette milioni a due: una sproporzione tale può far temere per un pregiudizio del sistema stesso. Il fatto che gli stranieri reperibili grazie al frame di una videocamera siano più di tre volte gli italiani potrebbe non sembrare un problema per quanti pensano, erroneamente, che i sistemi di intelligenza artificiale siano infallibili. La realtà, però, è ben diversa.

Basate sul Machine Learning, ovvero la capacità di una macchina di individuare ricorrenze statistiche da dei dati, tali tecnologie sono state ampiamente criticate per le loro difficoltà nell’identificare persone con diverse colorazioni di pelle. In uno dei casi più recenti, uno studio ha sottolineato le difficoltà degli algoritmi delle auto a guida autonoma nel distinguere i pedoni dalla pelle scura.

Il problema risiede nelle immagini utilizzate nella fasi di addestramento. Se il database di allenamento è costituito prevalentemente da volti di maschi bianchi, l’algoritmo commetterà degli errori quando sarà chiamato a riconoscere volti di persone con diverso colore della pelle o diverso genere.

Nel caso degli algoritmi utilizzati da Sari, al momento, non è chiaro su quali database siano stati addestrati. Se questo non è un problema nel caso del Sari Enterprise – la convalida della somiglianza, infatti, avviene sempre da una postazione remota e richiede la valutazione di un agente specializzato -, potrebbe esserlo nei casi di applicazione di Sari Real-Time. Un errore dell’algoritmo può portare a un controllo diretto sulla persona individuata anche se questa non è effettivamente quella che si stava cercando. Immaginiamo di venire fermati per strada e controllati dalle forze di polizia perché un algoritmo ci ha erroneamente segnalati e l’ufficiale ha deciso di seguire il comando del computer per un eccesso di zelo. Scenario che può anche generare tensioni ingiustificate.

Ritorno al futuro

Brescia: ladri d’appartamento identificati con il riconoscimento facciale: titolavano i giornali il 7 settembre del 2018, con una notizia che segna l’ingresso della polizia scientifica nel futuro delle modalità investigative. Ma nel passato – precisamente il 6 giugno dello stesso anno – un altro fatto è sfuggito ai più: la notizia di un’altra identificazione avvenuta proprio grazie a Sari.

Genova, 6 giugno 2018. Il Secolo XIX pubblica sul proprio sito internet un articolo dal titolo Genova, identificato un ladro grazie a un nuovo software di riconoscimento facciale. La storia è semplice: un gruppo di tre rapinatori tenta di forzare la serranda di un bar. I proprietari se ne accorgono e chiamano la polizia, dando inizio a un inseguimento. Due dei tre ladri vengono arrestati e – scriveva il quotidiano – forniscono agli agenti la foto del profilo Facebook del terzo, poi utilizzata per l’identificazione e il reperimento dell’indirizzo.

Questa notizia anticiperebbe di 93 giorni il primo impiego ufficiale di Sari in un contesto d’indagine, se non fosse che l’articolo è stato eliminato (verosimilmente lo stesso giorno), e sostituito con un più semplice pezzo di cronaca nel quale sparisce ogni riferimento a Sari e al riconoscimento facciale. Dell’articolo originale rimangono solo la url (software_identificato_riconoscimento.shtml) e i post in fondo alla pagina, dove alcuni utenti commentano tiepidamente la notizia del debutto di Sari.

L'articolo comparso sul Secolo XIX dopo le modifiche
L’articolo comparso sul Secolo XIX dopo le modifiche

Nella seconda stesura del pezzo si apprende che gli agenti avrebbero ottenuto le immagini del ricercato dalle “telecamere ad alta definizione della zona” e che l’identificazione sarebbe avvenuta grazie a un passaggio della foto nella “chat interna delle volanti”. Alla richiesta di chiarimenti, un portavoce della questura di Genova ha spiegato a Wired che probabilmente i giornalisti avevano altre fonti “non ufficiali”, e che, in ogni caso, all’epoca non avevano accesso al software di riconoscimento facciale. È stato spiegato che gli agenti hanno ottenuto la foto grazie al profilo Facebook del ricercato (come si legge nel primo articolo) e che questa “è passata tramite tam-tam su Whatsapp”.

Sorvolando sulla coincidenza tra le tecnologie in forze alle autorità italiane e i software di proprietà di Zuckerberg (sic), rimane comunque un ultimo dubbio: il primo articolo del 6 giugno, dove si fa riferimento all’impiego di Sari, è ancora reperibile nella rassegna stampa di Parsec 3.26. Se quindi la polizia all’epoca non aveva realmente accesso a questa tecnologia, è quantomeno curioso che sia proprio l’azienda che l’ha sviluppata – e che verosimilmente saprà anche quando l’ha consegnata – a inserire e mantenere sul proprio sito l’articolo che ne parla.

Tanto più che, in quel periodo, non risulta che le autorità avessero ragione di non utilizzare Sari. Da contratto, il sistema sarebbe dovuto essere attivato “entro e non oltre i 10 giorni lavorativi dal termine delle attività di verifica (decorrenti dalla comunicazione di approvazione del certificato dell’avvenuta verifica funzionale positiva)”. In questo caso il collaudo era terminato l’8 marzo. Eppure, in risposta a una precedente richiesta di accesso agli atti – rifiutata il 25 giugno 2018 -, la Polizia ha dichiarato che il sistema non era ancora operativo.

Chi vigila su Sari?

L’unico documento ancora mancante all’epoca era il parere del Garante a Sari Enterprise, arrivato a luglio del 2018. Ricostruendo il lento ma costante botta e risposta tra l’Autorità e il ministero dell’Interno, iniziato con l’avvio dell’istruttoria il 10 novembre del 2017, possiamo comprenderne meglio le ragioni e, soprattutto, i momenti cruciali.

Secondo l’Autorità, il sistema Enterprise sarebbe una nuova modalità di gestione della ricerca delle foto, che non prevede la raccolta di nuovi dati personali. Sari, quindi, già rispetterebbe quanto previsto e disciplinato dalle normative in vigore per il database Afis. Ma se la decisione finale del Garante sembra concisa e lineare, il percorso è stato leggermente più tortuoso.

Dopo alcune richieste preliminari sulle finalità del nuovo sistema, presentate tra la fine del 2017 e i primi mesi del 2018, il 23 marzo 2018 il Garante avanza la necessità di sottoporre il sistema a una verifica. Dopo quattro mesi e alcuni contatti telefonici intercorsi tra le due parti, a luglio il ministero comunica che il sistema Sari Enterprise non è altro che un’evoluzione del Ssa-Afis e quindi già debitamente regolamentato. Così si è chiusa definitivamente la porta a una verifica preliminare del Garante.

Altri tentativi di comprendere le capacità del sistema di riconoscimento facciale sono falliti. A dicembre 2018, Wired ha inviato una richiesta per i dati statistici sui falsi positivi, le ore di utilizzo di Sari, il numero di ufficiali che si sono connessi ed eventuali altre statistiche sull’utilizzo del sistema, generate automaticamente dal software. L’accesso è stato negato.

In particolare, nella risposta  si sottolinea come i dati relativi ai falsi positivi “non sono automatizzati, bensì sono collegati a indagini di polizia giudiziaria”. Sarebbe dunque necessario presentare differenti richieste a ciascuna articolazione della polizia di Stato, in ogni regione, previo nulla osta delle procure della Repubblica.

Dal marketing alla sorveglianza di Stato

Dagli aeroporti alle metropolitane, dal controllo delle minoranze in Cina ai concerti di Taylor Swift. Negli ultimi anni le tecnologie per il riconoscimento facciale si sono diffuse a macchia d’olio, dando a governi e aziende il potere di disporre del volto dei cittadini per attività che spaziano dalla pubblica sicurezza al marketing mirato.

Nel frattempo, la cittadinanza continua a essere estromessa dal dibattito e all’oscuro di quali conseguenze possano derivare da un utilizzo spensierato di simili strumenti, soggetti anch’essi a errori o vulnerabilità. Quasi ogni giorno si sente parlare di hacker capaci di sottrarre e diffondere pubblicamente liste di nomi e password, rendendo evidente la vulnerabilità cibernetica del Paese. E se, come già successo in Cina, un archivio di volti e identità venisse reso pubblico per sbaglio?

Sorveglianza, privacy, pregiudizi algoritmici: interrogativi che si infrangono contro il muro di sostanziale riservatezza delle autorità – in Italia come all’estero – e che rende ancora più importante fare chiarezza sulle finalità e le modalità di utilizzo dei sistemi di riconoscimento facciale. A partire dalla più semplice delle domande: come si finisce in Sari? Una prima risposta ora ce l’abbiamo: nell’ottanta per cento dei casi, bisogna essere migranti.

The post Riconoscimento facciale, nel database di Sari quasi 8 schedati su 10 sono stranieri appeared first on Wired.



Leggi l’articolo su wired.it