PREV

MACHINE LEARNING

NEXT

aHead Research modella e sviluppa algoritmi di machine learning supervisionato e non supervisionato per estrarre dai dati informazioni utili al business

Il Machine Learning è la branca dell’Artificial Intelligence che permette di estrarre informazioni strutturate da vaste quantità di dati spesso non strutturati. Permette di trovare correlazioni nascoste tra le variabili misurate e di utilizzare tali correlazioni per inferire comportamenti futuri del processo osservato. 

Il machine learning per aHead Research

I Machine Learning Engineer e Data Scientist di aHead Research conoscono le basi matematiche e statistiche dietro ai modelli ed algoritmi di machine learning: grazie a questo background riescono non solo ad utilizzarli, ma a suggerire il modello più efficace ed efficiente per la soluzione del problema oggetto di analisi. Infatti, non sempre il modello più complesso e computazionalmente costoso porta i risultati migliori.
Gli ambiti di applicazione più avanzati sono quelli del riconoscimento e processamento di immagini e linguaggio naturale, e dell’analisi e previsione di serie storiche, molto utilizzati sia per supportare decisioni strategiche, come ad esempio la previsione del comportamento della customer base ai fini di strategia di pricing e mix produttivo, che nelle operations, come il riconoscimento di difetti o anomalie su base analisi di immagini del prodotto/processo.

I benefici derivanti da una strategia chiara sul machine learning

aHead Research supporta i propri partner e clienti nella costruzione di una chiara strategia nell’applicazione di modelli avanzati quali quelli del machine learning. Una strategia che va dalla possibile creazione di una data platform alla strutturazione dei servizi di machine learning che possono essere costruiti sulla base dei dati disponibili, fino alla misurazione di dati esterni che potrebbero fare la differenza e, infine, alla progettazione e misurazione di KPI chiari per la valutazione del beneficio apportabile al business.
Ad esempio, la creazione di una unica data platform, cross linea di business, può portare enormi benefici nell’utilizzare dati da varie fonti ed estrarne informazioni non banali, ma potrebbe essere un investimento troppo costoso. La valutazione dei dati disponibili e necessari, dei benefici ottenibili e, di conseguenza, la prioritizzazione degli interventi sono presupposti fondamentali per trasformare un business da experience-based a data-based.

I benefici derivanti da una strategia chiara sul machine learning

aHead Research supporta i propri partner e clienti nella costruzione di una chiara strategia nell’applicazione di modelli avanzati quali quelli del machine learning. Una strategia che va dalla possibile creazione di una data platform alla strutturazione dei servizi di machine learning che possono essere costruiti sulla base dei dati disponibili, fino alla misurazione di dati esterni che potrebbero fare la differenza e, infine, alla progettazione e misurazione di KPI chiari per la valutazione del beneficio apportabile al business.
Ad esempio, la creazione di una unica data platform, cross linea di business, può portare enormi benefici nell’utilizzare dati da varie fonti ed estrarne informazioni non banali, ma potrebbe essere un investimento troppo costoso. La valutazione dei dati disponibili e necessari, dei benefici ottenibili e, di conseguenza, la prioritizzazione degli interventi sono presupposti fondamentali per trasformare un business da experience-based a data-based

L’importanza del dato

Non esiste algoritmo di machine learning senza un dato di qualità: questa è la filosofia alla base del lavoro dei data scientist e machine learning engineer di aHead Research.
La qualità e quantità di dati disponibili non è un’invariante, in quanto modelli complessi hanno bisogno di un’elevata quantità, ma soprattutto qualità, di dati su cui eseguire il training. Infatti non è consigliabile utilizzare modelli con milioni di parametri su dati che non supportano la potenza del modello: se la correlazione tra gli input e gli output non esiste, l’impiego di modelli di Deep Learning non risolverà certo il problema. Per questi motivi aHead Research supporta anche nell’identificazione dei dati necessari rispetto a quelli disponibili e, laddove possibile, nel reperimento di dati ulteriori, anche esterni al business oggetto di analisi, da integrare. Inoltre, gli specialisti di aHead Research applicano sofisticate tecniche di data cleaning e data augmentation, per estrarre il massimo dell’informazione dai dati disponibili.

L’importanza del dato

Non esiste algoritmo di machine learning senza un dato di qualità: questa è la filosofia alla base del lavoro dei data scientist e machine learning engineer di aHead Research. La qualità e quantità di dati disponibili non è un’invariante, in quanto modelli complessi hanno bisogno di un’elevata quantità, ma soprattutto qualità, di dati su cui eseguire il training. Infatti non è consigliabile utilizzare modelli con milioni di parametri su dati che non supportano la potenza del modello: se la correlazione tra gli input e gli output non esiste, l’impiego di modelli di Deep Learning non risolverà certo il problema. Per questi motivi aHead Research supporta anche nell’identificazione dei dati necessari rispetto a quelli disponibili e, laddove possibile, nel reperimento di dati ulteriori, anche esterni al business oggetto di analisi, da integrare. Inoltre, gli specialisti di aHead Research applicano sofisticate tecniche di data cleaning e data augmentation, per estrarre il massimo dell’informazione dai dati disponibili.

Principali modelli supervisionati

Un modello supervisionato ha bisogno delle cosiddette ‘etichette’ (o label), ovvero un data set dove per ogni input, ad esempio una serie di misurazioni ad un certo istante temporale, sia disponibile l’output, come la presenza o meno di un difetto o di una anomalia: in questo modo, il modello può essere ‘allenato’ sul data set esistente per inferire il rapporto tra input e output, ed applicarlo a nuovi input nel futuro (identificare la presenza o meno di una anomalia sulla base di misurazioni mai viste prima). Tra i modelli supervisionati si possono distinguere due macro-classi: regressione e classificazione, dove rispettivamente si cerca di prevedere un output numerico, come il valore di una variabile quale la domanda di un prodotto, o categoriale, quindi la presenza o meno di una anomalia, l’appartenenza o meno ad una determinata classe.
Gli specialisti di aHead Research conoscono tutti i principali algoritmi di apprendimento supervisionato, dalle Deep Neural Networks (aka Deep Learning), con le varie varianti (Convolutional Neural Networks per l’elaborazione di immagini, Recurrent Neural Networks/ LSTM per l’analisi e previsione di serie storiche, Transformers per il Natural Language Processing, …), alle Support Vector Machines (aka metodi kernel-based), al Reinforcement Learning (da alcuni considerato parte del Deep Learning, da altri considerato un metodo non supervisionato).

Principali modelli supervisionati

Un modello supervisionato ha bisogno delle cosiddette ‘etichette’ (o label), ovvero un data set dove per ogni input, ad esempio una serie di misurazioni ad un certo istante temporale, sia disponibile l’output, come la presenza o meno di un difetto o di una anomalia: in questo modo, il modello può essere ‘allenato’ sul data set esistente per inferire il rapporto tra input e output, ed applicarlo a nuovi input nel futuro (identificare la presenza o meno di una anomalia sulla base di misurazioni mai viste prima). Tra i modelli supervisionati si possono distinguere due macro-classi: regressione e classificazione, dove rispettivamente si cerca di prevedere un output numerico, come il valore di una variabile quale la domanda di un prodotto, o categoriale, quindi la presenza o meno di una anomalia, l’appartenenza o meno ad una determinata classe.
Gli specialisti di aHead Research conoscono tutti i principali algoritmi di apprendimento supervisionato, dalle Deep Neural Networks (aka Deep Learning), con le varie varianti (Convolutional Neural Networks per l’elaborazione di immagini, Recurrent Neural Networks/ LSTM per l’analisi e previsione di serie storiche, Transformers per il Natural Language Processing, …), alle Support Vector Machines (aka metodi kernel-based), al Reinforcement Learning (da alcuni considerato parte del Deep Learning, da altri considerato un metodo non supervisionato).

Principali modelli non supervisionati e
semi-supervisionati

Un modello non supervisionato o semi-supervisionato non ha (o ha solo in parte) a disposizione le cosiddette ‘etichette’. Dunque, deve svolgere un task sensibilmente più complesso rispetto ad un modello supervisionato, in quanto non può essere allenato su un passato dove il legame tra input e output è disponibile. Fanno parte di questa classe gli algoritmi di clustering, molto utilizzati per identificare cluster di dati omogenei tra loro, molto usati, ad esempio, nel targeted advertising, in quanto permettono di identificare cluster di clienti sulla base di variabili misurate e non determinate a priori. Un altro ambito di applicazione è nella cosiddetta outlier/ anomaly detection, dove viene chiesto all’algoritmo non supervisionato di identificare cambiamenti significativi tra il comportamento passato e presente di una serie di misure, ad esempio per identificare il più velocemente possibile il cambiamento dell’opinione di un gruppo di consumatori, o il cambiamento della media o del trend della domanda di un certo prodotto. Tra le tecniche più utilizzate abbiamo il K-Means, l’algoritmo di clustering distance-based più utilizzato, e le SOM (Self Organizing Maps), il più conosciuto tra gli algoritmi density-based, ovvero basati sulla valutazione della ‘densità’ di un insieme di dati in una certa regione dello spazio delle variabili.

Principali modelli non supervisionati e
semi-supervisionati

Un modello non supervisionato o semi-supervisionato non ha (o ha solo in parte) a disposizione le cosiddette ‘etichette’. Dunque, deve svolgere un task sensibilmente più complesso rispetto ad un modello supervisionato, in quanto non può essere allenato su un passato dove il legame tra input e output è disponibile. Fanno parte di questa classe gli algoritmi di clustering, molto utilizzati per identificare cluster di dati omogenei tra loro, molto usati, ad esempio, nel targeted advertising, in quanto permettono di identificare cluster di clienti sulla base di variabili misurate e non determinate a priori. Un altro ambito di applicazione è nella cosiddetta outlier/ anomaly detection, dove viene chiesto all’algoritmo non supervisionato di identificare cambiamenti significativi tra il comportamento passato e presente di una serie di misure, ad esempio per identificare il più velocemente possibile il cambiamento dell’opinione di un gruppo di consumatori, o il cambiamento della media o del trend della domanda di un certo prodotto. Tra le tecniche più utilizzate abbiamo il K-Means, l’algoritmo di clustering distance-based più utilizzato, e le SOM (Self Organizing Maps), il più conosciuto tra gli algoritmi density-based, ovvero basati sulla valutazione della ‘densità’ di un insieme di dati in una certa regione dello spazio delle variabili.