Deep Learning | RPI4.0 | Approfondimento

DEEP LEARNING: COS’È, COME FUNZIONA E QUALI SONO I CASI D’USO

La rete neurale è stata “addestrata” con migliaia di immagini, per ogni soggetto, “imparato”. Questo procedimento consente alla rete di imparare le caratteristiche fondamentali con cui riconoscere ogni soggetto anche se presente parzialmente nell’immagine tipo per esempio il rilevamento del soggetto “Persona” anche se davanti alla telecamera si pone la mano.

La rete neurale utilizzata fa parte dei modelli connessionisti. Questi modelli ipotizzano che ciascuna unità della rete elabori un frammento di informazione più piccolo di un simbolo, un sub simbolo.
Le rappresentazioni interne alla rete non vengono immagazzinate all’interno di specifiche unità ma sono immagazzinate sotto forma di configurazioni di connessioni tra unità (rappresentazione distribuita: una stessa configurazione di unità può rappresentare diversi concetti attribuendo pesi differenti a ciascun concetto).
La rappresentazione distribuita si attiva anche in presenza di una rilevazione incompleta di un oggetto (la rete neurale, ad esempio, può riconoscere un oggetto parzialmente nascosto).
L’apprendimento di una rete comporta una modificazione nei pesi delle connessioni tra le unità e tra gli strati di unità.
I pesi iniziali sono assegnati in modo arbitrario o secondo la logica dallo sperimentatore e cambiano in funzione dell’algoritmo di apprendimento usato, ovvero in funzione della tecnica che lo sperimentatore adotta per far apprendere la rete.

L’elaborazione delle informazioni nella rete neurale segue sempre la stessa procedura: le informazioni sotto forma di modelli o segnali sono trasferite ai neuroni dello strato di ingresso dove sono elaborate. A ogni neurone è assegnato un peso in modo che i neuroni ricevano un’importanza diversa. Il peso, insieme a una funzione di trasferimento, determina l’ingresso dove quindi il neurone è inoltrato.
Nella fase successiva una funzione di attivazione e un valore di soglia calcolano e ponderano il valore di uscita del neurone. A seconda della valutazione delle informazioni e della ponderazione, altri neuroni sono collegati e attivati in misura maggiore o minore.
Per mezzo di questi processi viene modellato un algoritmo che produce un risultato per ogni ingresso. A ogni addestramento, la ponderazione e quindi l’algoritmo è modificato in modo che la rete fornisca risultati sempre più precisi e migliori.
L’analisi avviene circa ogni secondo. I rilevamenti effettuati dal Programma non sono quindi “motion detection” ma analisi delle immagini con reti profonde (deep learning).

La velocità dell’analisi dell’immagine dipende dal numero di Telecamere attive.

I risultati di ogni analisi dipendono soprattutto dalla qualità dell’immagine e dalla qualità dell’illuminazione della scena. Queste due caratteristiche cambiano nel tempo da un frame all’altro motivo per cui il risultato dell’analisi può cambiare da un frame all’altro (p.e. se l’immagine della scena è sempre la stessa il risultato non cambia, ma se anche solo una delle due caratteristiche sopra citate cambia ad esempio come l’interazione della luce con la materia, il risultato dell’analisi può cambiare in modo significativo creando delle allucinazioni.

A causa di quanto sopra è possibile per esempio che un soggetto programmato non venga subito rilevato. Di fatto ogni rilevamento è influenzato dalla luce diurna o notturna che in quel momento avvolge la scena però le reti neurali profonde di fatto imparano le forme ma non il “contesto”.

Per esempio, prendiamo alcune immagini di ombre rilevate su una tenda. Il sistema analizza la forma che gli sono sembrate dei volatili, ma non capisce che sono ombre su una tenda. Anche l’uomo crede di vedere delle forme (p.e. nuvole) ma “lui capisce che sono nuvole”. Le reti invece non lo sanno e si basano solo sulle forme.

In sostanza, anche all’uomo può avere delle ‘allucinazioni’, anche se poi analizzando il contesto capisce la realtà. Le reti non possono analizzare il contesto. Esse dividono l’immagine in piccole porzioni e poi le analizzano cercando somiglianze in base a quello che hanno imparato.

 

IL SISTEMA NEL MOMENTO IN CUI RILEVA UNO DEI SOGGETTI SELEZIONATI PROCEDE IN QUESTO MODO:

  1. Fa lo snapshot e lo invia a Telegram (che poi lo invierà al cliente), ed avvia la registrazione interrompendo l’analisi (Se nel frattempo altri soggetti entrano in scena non vengono rilevati ma solo filmati);
  2. Il filmato della durata programmata una volta finito viene spedito a Telegram (che poi lo invierà al cliente);
  3. Finito il filmato, parte un tempo programmabile di Interdizione durante il quale non viene fatta l’analisi;
  4. Scaduto il tempo di interdizione il processo si ripete e ritorna in analisi.

 

SEQUENZA SEGUITA DAL SOFTWARE

  1. Test licenza;
  2. Test preliminare sui dati delle telecamere e prove di accesso (Ok – prosegue – No – Ok -.richiesta di ricerca telecamere ONVIF nella rete);
  3. Acquisizione delle immagini e analisi, tramite reti neurali, di presenza di soggetti programmati;
  4. Se è presente uno dei soggetti programmati e se è attivato il rilevamento, viene spedito un avviso, con Screenshoot e filmato relativo.
it_ITItalian
Non ci sono prodotti nel tuo carrello