Proseguiamo con il nostro viaggio informatico alla scoperta del complesso ma interessante mondo dei Big Data, questa volta analizziamo qualche parola con le lettere L e M: in due lettere, un mondo di dati e tantissime curiosità!
LINKED DATA
I Linked Data o “dati collegati” sono dati pubblicati in modo che possano essere collegati fra loro e consentire la cooperazione tra macchine rendendo loro comprensibili in autonomia tutti i dati che trovano sul web. I Linked Data costituiscono la base del Web Semantico e vengono utilizzati, ad esempio, dai motori di ricerca.
LOAD BALANCING
Load Balancing o bilanciamento del carico, è una tecnica che viene spesso utilizzata per gestire elevati carichi di elaborazione, per esempio su siti o servizi web con alti livelli di traffico: le richieste da elaborare vengono suddivise e smistate su diverse macchine o server che svolgono la stessa funzione, riducendo il carico di lavoro che ciascuna di esse deve gestire e permettendo il mantenimento di un’alta affidabilità dei servizi con la riduzione del rischio di perdita dei dati e di indisponibilità in caso un server smetta di funzionare.
LOCATION ANALYTICS
A volte indicata come “Geoanalytics” è l’aggiunta di dati geografici dell’azienda, utilizzata per ottenere informazioni più precise nel momento in cui bisogna fare ricerche di mercato estraendo degli insights più dettagliati e sicuri.
LOG FILE
I log file sono registrazioni di eventi, ordinati cronologicamente, che vengono eseguiti da un sistema informatico, permettendo di rilevare eventuali problemi di sicurezza, minacce malware o operazioni fallite, ecc. Queste operazioni possono essere eseguite manualmente oppure in modo automatizzato. Nell’ambito Big Data il volume dei log file diventa sempre più grande ed è di fondamentale importanza adottare sistemi di analisi adeguati a mantenere la capacità di estrarre le informazioni utili.
MACHINE-GENERATED DATA
Ad arricchire il mondo di dati prodotti quotidianamente ci sono anche quelli generati automaticamente dalle macchine, per esempio attraverso software, sensori, centrali che monitorano il meteo, Internet of Things, informazioni biomedicali o i già citati Log File.
MACHINE TO MACHINE (M2M)
Viene chiamata Machine to Machine (o M2M) la comunicazione tra due o più macchine senza aver bisogno dell’intervento dell’uomo. Un esempio pratico di M2M potrebbe essere l’utilizzo dei sensori utilizzati per elaborare le previsioni meteo: con migliaia di dispositivi che rilevano i dati riguardanti pressione, temperatura, umidità ecc. e li comunicano autonomamente al servizio meteorologico che ne cura la raccolta e l’elaborazione.
MACHINE LEARNING
Machine learning è un sottoinsieme dell’intelligenza artificiale che si riferisce alla capacità di una macchina di apprendere dai dati in maniera autonoma senza intervenire manualmente sulla programmazione. Stiamo parlando di apprendimento automatico. Un settore in cui viene spesso applicato il machine learning è quello del riconoscimento vocale degli smartphone. L’apprendimento automatico avviene tramite una serie di algoritmi che, tramite successive interazioni, perfezionano i modelli utilizzati della macchina e ne migliorano i risultati.
MAPREDUCE
MapReduce è un paradigma software progettato inizialmente da Google e viene utilizzato per la creazione di applicazioni in grado di elaborare a grande velocità grandi quantità di dati attraverso cluster di computer. I dati vengono suddivisi in insiemi più piccoli che sono poi ordinati ed elaborati in parallelo dalle varie macchine, i vari risultati parziali vengono poi ricomposti in un unico risultato finale.
MAHOUT
In ambito di machine learning parliamo anche di Apache Mahout, cioè un software utilizzato per organizzare in librerie specifiche gli algoritmi utilizzati per l’apprendimento automatico. I principali software Mahout sono utilizzati su Hadoop che si basa su framework MapReduce.
MONGODB
MongoDB, da “humongous” (enorme), è un database open source non relazionale e fa parte dei database NoSQL. La struttura dei dati è flessibile e viene organizzata in collezioni.
Garantisce un’alta affidabilità e sicurezza dei dati attraverso il sistema della replicazione su più macchine o server. Le scritture vengono fatte solo sulla macchina primaria mentre le macchine secondarie mantengono una copia dei dati della macchina primaria. È previsto un sistema di Failover in caso di malfunzionamento della macchina primaria.
È inoltre un database altamente scalabile perché permette la dei dati in nodi diversi (chiamati Shard), che possono a loro volta essere replicati. Tramite l’utilizzo di indici e sistemi di aggregazione dei dati (tra cui MapReduce) permette una ricerca veloce anche in grandissime quantità di dati.
Viene utilizzato, ad esempio, da eBay, Adobe, Google e, addirittura, dal Governo del Regno Unito… insomma, da tutti i maggiori creatori e utilizzatori del mondo di dati in cui stiamo vivendo.
Mi raccomando, se avete qualche dubbio o osservazione non esitate a contattarci.