Loro vedono le tue foto

Una piattaforma online mostra il potere delle Google Vision API nell’analisi delle immagini, mostrando quanto gli algoritmi di IA possano interpretare in modo puntuale le foto che gli vengono date in pasto.

They see your photos” è il titolo di una piattaforma sperimentale che “use Google Vision API to extract the story behind a single photo“.

Niente di esoterico: caricate una foto e le API di Google Vision vi restituiranno una descrizione maniacalmente accurata di quanto riescono a vedere. E spesso, ciò che vedono va al di là di quanto riusciamo a percepire noi esseri umani con i nostri occhi.

Facciamo una prova, con una foto scattata in una fiera di paese.

Cosa ci vedete? Io ci vedo una street band per le vie di un centro abitato, con delle ragazze dai capelli biondi riccioli che suonano alcuni strumenti a fiato (tromba, clarinetto). Indossano rispettivamente una canottiera rossa e una maglietta rossa con salopette di jeans blu scuro. Nello sfondo una ragazza con occhiali a montatura dorata, con canottiera nera, che suona un flauto traverso e, dietro, si scorge un trombone e un uomo con gli occhiali neri, camicia bianca e bretelle rosse che suona qualcosa come un sassofono (?).

Credo di aver fatto una descrizione abbastanza accurata.

Adesso getto in pasto alle Google Vision API questa foto ed ecco quello che ci vede lui:

The image shows a group of young women playing musical instruments outdoors. The foreground features three young women intensely focused on playing their instruments: a trumpet, a clarinet, and a flute. The background includes an old stone building, suggesting a European village setting. The background is slightly out of focus, drawing attention to the musicians in the foreground. There's a man playing a tuba partially visible in the background to the right, and the cobblestone street is visible near the bottom of the frame. The setting seems to be during a casual, possibly impromptu, outdoor musical performance.
The women appear to be in their late teens or early twenties. They all have light to medium complexions, and their curly hair is styled naturally. They seem to be of European descent and share a similar socioeconomic background, likely middle-class, judging by their attire and the relaxed atmosphere. Their expressions show focus and joy as they play their instruments. The overall mood seems light and cheerful. It's unclear which camera device was used to capture this image, and the image lacks metadata to determine a specific creation time, however, the warm lighting and summer clothes suggest it was probably taken during the daytime in the summer or early autumn.
The image's depth of field is shallow, keeping the focus on the three women in the foreground and softly blurring the background. The way the musical instruments are held suggests experience and practiced coordination amongst the musicians. The detail in the women’s clothing, specifically their red tops and the small details of the instruments, is sharply defined and enhances the image quality. The colours are rich and vibrant, capturing the joyfulness of the moment. There is also an apparent slight gap between the women playing the clarinet and flute which shows a detail in the women's interactions.

Impressionante, eh? Non solo descrive la scena ma offre anche una rappresentazione del metalinguaggio corporeo mostrato nelle figure dell’immagine (“intensly focused”). Descrive anche aspetti sociali ed economici delle persone rappresentate, oltre a valutare aspetti come la coordinazione e i colori della foto stessa. Insomma, una valutazione che oserei definire ossessivamente completa, quasi maniacale.

Facciamo una ulteriore prova: ispirato da un articolo odierno su un fatto di cronaca nera avvenuto in Spagna, dove un “killer scoperto un anno dopo grazie a Google Maps: immortalato mentre carica il cadavere in auto“.

Nell’articolo è mostrata la foto incriminata:

e la descrizione restituita dalle Google Visioni API è questa:

The image shows a man loading what appears to be bedding or textiles into the trunk of a burgundy Rover car. The car is parked on a narrow street in Tajueco, Spain, next to a dilapidated building with peeling paint. In the background, other buildings and a car can be seen, suggesting a quiet residential area. The foreground is dominated by the car and the man, who seems focused on his task. The overall setting looks slightly run-down, yet peaceful.
The man appears to be middle-aged, possibly of European descent, and seems to be wearing jeans and a dark-colored top. He looks focused, with a slightly serious expression, indicating a possible need to complete a task efficiently. He does not display any particular emotion beyond concentration. It is difficult to accurately assess his economic status or lifestyle from the provided image. The image was captured by a Google Street View camera and likely sometime in October 2024. The photo appears to be taken from a slightly elevated angle.
The man appears to be alone and working methodically. There is a subtle crack visible in the street near the curb. The building shows significant signs of age and disrepair, with patches of missing paint and a partially damaged structure next to the house. The overall condition of the scene suggests a lack of recent maintenance or significant investment in the area.

Non so se ve ne siete accorti ma a un certo punto scrive “He does not display any particular emotion beyond concentration“. Onestamente non saprei dirvi su quali basi ha espresso questo parere, non essendo mostrata nessuna parte del volto, ma probabilmente l’espressione della postura visualizzata è stata rilevata come compatibile con situazioni di forte concentrazione. E probabilmente, valutando la scena e il contesto (un assassino che sta caricando il corpo della vittima nel bagagliaio dell’auto), è una considerazione assolutamente compatibile.

Credo che tutto questo sia terribilmente affascinante ma anche, allo stesso tempo, preoccupante. La capacità degli algoritmi di IA nel riuscire a cogliere elementi così dettagliati apre a orizzonti non sempre positivi. Penso al fatto che, molto probabilmente, Google ha già usato –per addestrare e/o testare– queste API sull’enorme archivio di materiale fotografico ormai riversato, negli anni, in Rete. Analizzando e indicizzando miliardi e miliardi di pixel in modo maniacale e ossessivo, come solo le macchine possono fare.

Shoshana Zubhof, nel suo testo “Il Capitalismo della Sorveglianza“, parla della “renderizzazione degli utenti“: l’insieme di tecniche e algoritmi implementati per estrarre dati (=valore) dagli utenti.

Credo che qui siamo ben oltre la banale raccolta delle preferenze personali, degli spostamenti o chissà che altro: qui approdiamo sul pianeta delle emozioni, delle sensazioni, del metalinguaggio corporeo. Una nuova frontiera di renderizzazione che esplora ancora più da vicino, in modo pervasivo, la persona umana. Niente di così nuovo, come ricorderemo: avevo già parlato degli schermi pubblicitari intelligenti che, attraverso telecamere, analizzano le espressioni sul volto dei clienti. Qui siamo oltre: non solo analisi del presente, come può essere uno sguardo del passante a una vetrina, ma analisi dell’intero archivio multimediale (foto, video) disponibile dell’umanità.

Banksi, forse lo street artist più famoso, diceva che “l’invisibilità un superpotere“. Mai come in questo momento sto pensando quanto avesse ragione.

Questo articolo è stato visto 83 volte (Oggi 6 visite)

Hai trovato utile questo articolo?

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.