Come funziona Llava, l’assistente virtuale che codifica l’immagine e risponde alle nostre domande

Published by

Dalma Bonaiti

1 anno ago

Come Llava, l’assistente virtuale intelligente, ti aiuta a codificare le immagini e a rispondere alle tue domande, con semplicità d’uso e in modo efficacia. Ecco come funziona.

L’esame del chatbot open per immagini, noto come Llava, ci ha reso possibile comprendere il suo funzionamento. Llava è l’acronimo di Large Language and Vision Assistant, ed è un modello multimodale di grande scala sviluppato da un team di scienziati.

«Questa rappresentazione è autentica o manipolata?». Sottoponendo Llava a una fotografia generata dall’ intelligenza artificiale che illustra un finto assalto al Pentagono, non dovrebbe essere in grado di riconoscerla, dato che lui non consulta le notizie. Tuttavia, la sua risposta è strabiliante. Llava dichiara: “Questa immagine è una foto contraffatta di un’imponente nuvola di fumo, probabilmente ideata per scopi artistici o di intrattenimento”.

Come determina la sua falsità? Lo vediamo insieme.

Esistono vari elementi che fanno pensare che la foto in questione possa non essere autentica. Inizialmente, la dimensione del fumo appare eccessiva e non realistica, il che non rispecchia le caratteristiche tipiche di fenomeni naturali quali incendi o esplosioni vulcaniche. Successivamente, viene descritta la presenza del fumo davanti ad un edificio, tuttavia i dettagli architettonici non sono bene in vista, il che potrebbe rivelare un intervento di manipolazione digitale sullo sfondo. Infine, la rappresentazione generale del fumo e dell’ambiente circostante dà l’impressione di essere artificiale, rinforzando ulteriormente la tesi che l’immagine potrebbe essere stata falsificata.

Cos’è e come funziona Llava

Llava è l’acronimo di Large Language and Vision Assistant, un modello multimodale ampio sviluppato da un team di ricercatori. Funziona unendo un encoder visuale e un modulo di “grande lingua” (Llm) per consentire una comprensione generale e visiva del linguaggio.

Foto | nuttapong punna’s Images @Canva – sitiwebook.it

Noi possiamo fornire a Llava un’immagine e chiedere informazioni – al momento solo in inglese – relative a quella ottenendo risposte in pochissimo tempo.

Llava ha tre funzioni principali:

identificare gli oggetti o il contenuto di una foto;
l’ocr, cioè la capacità di leggere parole nell’immagine;
l’analisi dell’immagine che permette al sistema di connettersi a una base di dati e quindi fornirci consigli o osservazioni, ad esempio riguardo alle notizie false.

Questo è un frammento di codice di esempio che illustra l’uso del codificatore CLIP di LLaVA.

# Import the CLIP encoder
from clip_encoder import CLIP
# Initialize the encoder
clip = CLIP() # Load an image
image_path = “sample_image.jpg”
image = clip.load_image(image_path)
# Get the image features
image_features = clip.get_image_features(image)
# Print the features
print(“Image Features:”, image_features)

Il sistema lavora in maniera interattiva, simile a ChatGpt e altri: possiamo instaurare un dialogo, facendo domande correlate.

Un test dopo l’altro per provare il funzionamento di Llava

Avere un testo letto o tradotto può non essere particolarmente utile. Samsung’s Bixby o Google Lens dallo smartphone lo fanno già in modo più diretto e comodo. L’analisi dell’immagine, invece, risulta molto più interessante.

Un caso tipico è di mostrare una foto di un frigorifero aperto e poi domandare qualcosa del tipo: “Quali ricette suggerisce con questi ingredienti per una cena con tre partecipanti di cui uno vegetariano?”

Nell’esperimento proposto, la risposta è stata: “Ecco una proposta per la cena:

1. Insalata di pasta vegetariana: – Cuoci la pasta (spaghetti, penne o qualsiasi altro tipo) e mettila da parte. – In un altro recipiente, unire i pomodori ciliegino, peperoni tagliati e cetrioli tagliati. – In un terzo recipiente, unisci la pasta cotta, le verdure e un condimento a base di olio d’oliva, aceto balsamico, sale e pepe. – Puoi aggiungere del parmigiano grattugiato per dare sapore.

2. Spiedini di pollo o verdure grigliate…”. Ci sono altri due esempi seguenti fino a “Questo pasto offre una varietà di sapori e consistenze per accontentare gusti differenti e preferenze dietetiche. L’insalata di pasta vegetariana è un’opzione leggera e rinfrescante”

Si potrebbe caricare un’etichetta di una maglia e interrogarlo sul significato dei simboli presenti, oppure chiedere direttamente se è possibile stirare o sbiancare il capo in base a tali simboli.

Un altro esperimento possibile si sviluppa nel campo “medico”. Si potrebbe utilizzare Llava sul telefono per scattare una foto, attraverso l’interfaccia, di uno spray nasale e chiedere: “cosa è, come si utilizza, qual è la posologia”.

Risposta: “La foto mostra un flacone di Care, uno spray nasale decongestionante. L’utilizzo di questo spray è mirato a lenire la congestione nasale e offrire un sollievo momentaneo dai sintomi dell’influenza e del raffreddore. La posologia dello spray nasale Care prevede di spruzzarlo nelle narici all’occorrenza, solitamente due o tre volte al giorno. Seguire attentamente le indicazioni sulla confezione è cruciale e consigliato consultare un operatore sanitario per eventuali domande specifiche sul dosaggio o sull’utilizzo del prodotto”.

Llava e GPT-4: differenze e similitudini

Le prestazioni di un modello possono essere misurate attraverso diverse metriche. Per valutare le prestazioni di LLava possiamo confrontare quest’ultimo con GPT-4 e vedere sostanziali differenze e similitudini tra i due modelli.

In merito alla precisione, sebbene GPT-4 risulti lievemente superiore a LLaVA nelle attività che coinvolgono testi, come SQuAD e GLUE, LLaVA si distingue particolarmente nell’attività dei sottotitoli delle immagini, per la quale GPT-4 non è stato ideato.

Per quanto riguarda la velocità, GPT-4 vanta una velocità di inferenza di 10 ms, cioè superiori ai 20 ms di LLaVA. Malgrado ciò, la velocità di LLaVA rimane estremamente alta, risultando così adatta per applicazioni in tempo reale. Questo forse dovuto anche al minor numero di utenti che ad oggi lo utilizzano.

Infine, la flessibilità di LLaVA, essendo un chatbot specializzato in biomedicina, esso è avvantaggiato nelle applicazioni nel campo della salute, un settore in cui le qualità di GPT-4 non sono altrettanto evidenti.

Molte persone esperte ritengono che i bot multimodali rappresenteranno forse il futuro di questi tipi di sistemi. Solo nell’anno appena trascorso, abbiamo visto l’arrivo di Llava, Bing, Bard e ChatGpt4V, ognuno con i propri punti di forza e debolezze. In generale, questi prodotti si rivelano ancora acerbi, ma al tempo stesso molto interessanti. Possono sorprendere per la loro utilità ed efficacia e allo stesso tempo, possono talvolta deludere. Probabilmente, ci troviamo ancora all’inizio di un’era tecnologica in cui questi sistemi troveranno applicazioni diffuse per l’analisi di dati multimediali, sia per motivi personali che aziendali.

Dalma Bonaiti

Next Come scegliere un nuovo computer, tutto quel che bisogna sapere »

Previous « Internet, parental control obbligatorio per i gestori: ecco da quando

Published by

Dalma Bonaiti

1 anno ago

Presto la chat di Instagram cambierà radicalmente: ecco come

Una delle innovazioni più attese è la possibilità di condividere la propria posizione in tempo…

5 mesi ago

Videogiochi

Game over per GameStop in Italia: ecco cosa cambierà per la catena di negozi

Secondo quanto riportato da igizmo.it, Cidiverte S.p.A. avrebbe acquisito il 100% delle quote della divisione…

5 mesi ago

Videogiochi

PS5 Pro è una delusione? La qualità di alcuni giochi è inferiore a quella raggiungibile su PS5

Alcuni titoli soffrono di problemi tecnici del tutto assenti nella precedente versione della console. Sony…

5 mesi ago

Tecnologia

I tecnici sono già al lavoro sul Wi-Fi 8. Sarà una rivoluzione?

Il Wi-Fi 8 si preannuncia come il prossimo grande passo, con un orizzonte temporale che…

5 mesi ago

Tecnologia

Attenzione al malware bancario ToxicPanda

La minacci, creata da dei cybercriminali cinesi, può aggirare i sistemi di sicurezza e sottrarre…

5 mesi ago

Internet

Microsoft mette in palio un milione di dollari per invogliare gli utenti a usare Edge

Inoltre, due premi secondari da diecimila dollari ciascuno saranno assegnati rispettivamente al secondo e terzo…

5 mesi ago

Come funziona Llava, l’assistente virtuale che codifica l’immagine e risponde alle nostre domande

Cos’è e come funziona Llava

Un test dopo l’altro per provare il funzionamento di Llava

Llava e GPT-4: differenze e similitudini

Related Post

Recent Posts

Presto la chat di Instagram cambierà radicalmente: ecco come

Game over per GameStop in Italia: ecco cosa cambierà per la catena di negozi

PS5 Pro è una delusione? La qualità di alcuni giochi è inferiore a quella raggiungibile su PS5

I tecnici sono già al lavoro sul Wi-Fi 8. Sarà una rivoluzione?

Attenzione al malware bancario ToxicPanda

Microsoft mette in palio un milione di dollari per invogliare gli utenti a usare Edge