Data mining e vodka
Un sistema molto originale di profilazione dei clienti (CC BY-SA 2.0 Malcolm Murdoch via Flickr).

Si fa un gran parlare, perfino negli spot TV, della concorrenza tra imprese. Ma un ambiente altamente concorrenziale non è un ambiente facile: senza un’adeguata “situation awareness” delle variabili in gioco (mercato, normative, concorrenti, fornitori e soprattutto clienti) un’azienda è destinata prima o poi a sparire.  Il data mining è una risorsa che diventerà sempre più indispensabile, anche alle piccole-medie imprese.

 

Il “problema dell’esplosione dei dati” e il “data mining”

Oggigiorno è sempre più sentito il problema della c.d. “esplosione dei dati”: lo sviluppo della capacità di archiviazione e della potenza di calcolo ha portato ad avere database di dimensioni impressionanti, che è umanamente impossibile trattare senza strumenti automatici appropriati.

Basti pensare all’insieme delle pagine web e ai loro testi, ai siti di e-commerce, ai dati contenuti perfino nei banali scontrini fiscali per non parlare delle transazioni bancarie e delle carte di credito.

L’elaborazione dei dati permetterebbe di farli “parlare”, estraendone informazioni non immediatamente evidenti. Alla fine, si arriva al punto che si “affoga” nella massa di dati riguardanti un problema, ma si è “affamati” di informazioni utili sul problema stesso, poiché la capacità di elaborazione dei dati, senza tecniche appropriate, non tiene il passo con l’aumento spropositato di questi. Le tecniche tradizionali di interrogazione dei database sono inapplicabili ai c.d. “big data”. Ne segue che larga parte dei dati a disposizione non viene analizzata.

data mining: piramide della conoscenza
La piramide della conoscenza (infografica autoprodotta).

Analisi dei dati e problemi decisionali

La pressione competitiva, in tutti gli ambiti dell’economia, è diventata talmente forte che avere una buona “situation awareness” è diventato indispensabile per riuscire ad emergere sulla concorrenza. L’analisi dei dati si applica in pratica a qualsiasi ambito dove siano presenti problemi decisionali complessi.

Un problema decisionale complesso si risolve decomponendolo in sottoproblemi o compiti (task) che vengono risolti separatamente; le soluzioni parziali così trovate vengono ricomposte nella soluzione complessiva del problema. La scomposizione in sottoproblemi permette soprattutto di utilizzare tecniche risolutive standardizzate.

 

Fasi del data mining

Poiché è applicato in sostanza nella previsione del comportamento di persone e gruppi, il data mining concettualmente considera i dati come relativi ad “individui” (o più generalmente “entità”) all’interno di “popolazioni”. A partire dai dati, il data mining costruisce un modello a partire dai dati (in genere “dati storici”). Il data mining è un processo iterativo, per cui le varie fasi di cui è composto non vanno viste come concluse una volta per tutte.

Data mining: CRISP-DM
Diagramma delle differenti fasi del data mining secondo il metodo CRISP-DM, che evidenzia la natura ricorsiva di un progetto di data mining (CC BY-SA 3.0 Kenneth Jensen via WikiCommons).

 

Queste sono, sommariamente, le fasi del data mining:

  • Business understanding → capire quali sono i problemi generali che si devono risolvere col data mining.
  • Data understanding → capire, tra i vari dati a disposizione, quali sono utili per risolvere un determinato problema. Di solito, la comprensione del problema e la comprensione dei dati vanno di pari passo.
  • Data preparation → i dati selezionati vanno sempre pre-elaborati (“pulizia” e “normalizzazione”) per poter essere utilizzati in modo omogeneo
  • Modeling → estrazione di un modello (“pattern”) dai dati, che definisce delle regolarità tra questi ultimi.
  • Evaluation → i modelli sono poi valutati in modo da decidere se essi risolvono effettivamente il problema di business iniziale.
  • Deployment → se il modello trovato è soddisfacente, viene effettivamente messo in uso.
  • Ritorno sull’investimento → va poi alla fine valutata l’efficacia dell’utilizzo del modello in rapporto ai risultati di business ottenuti.

 

Tecniche di data mining

  • Classificazione → dato un certo numero di classi predefinite, predice per ogni individuo di una popolazione a quale classe appartiene.
  • Regressione → predire, per un individuo, il valore di un attributo quantitativo sulla base dei valori di altre variabili.
  • Similarity matching → identificare individui simili tra loro in riferimento a uno o più attributi.
  • Clustering → identificare delle classi per raggruppare gli individui di una popolazione sulla base della loro somiglianza (attività preliminare alla classificazione).
  • Co-occorrenze (associazioni) → trovare relazioni comuni tra gli individui sulla base di transazioni che li riguardano.
  • Profiling → descrizione del comportamento di un individuo o di una popolazione.
  • Link prediction → previsione di relazioni tra individui.
  • Causal modeling → comprensione delle relazioni di causa-effetto tra eventi o azioni.
  • Alberi di classificazione → una regola di classificazione può essere rappresentata mediante una struttura decisionale ad albero. Ogni albero di classificazione è basato su una successione di condizioni, ciascuna riguardante un singolo attributo dell’individuo.
  • Co-occorrenze → scoprire relazioni tra individui/entità che compaiono nell’ambito di transazioni. Lo scopo è trovare regole di associazioni non evidenti.
  • Pattern sequenziali → trovare gruppi di oggetti che compaiono in transazioni successive di uno stesso individuo.
  • Sommarizzazione → individuazione di una descrizione compatta di un insieme o sottoinsieme di dati.

 

Data mining results Brede
Grafico dei risultati di un progetto di data mining attraverso i tools di Brede (CC BY-SA 4.0 Finn Årup Nielsen via WikiCommons).

Alcune applicazioni del data mining

  • Analisi di database (estrazione di pattern)
  • Analisi di mercato (customer profiling, direct marketing)
  • Analisi di rischio (solvibilità, investimenti)
  • Individuazione di frodi (carte di credito, sofisticazioni alimentari)
  • Supporto alle decisioni (resource management, allocazione di risorse)
  • Analisi mediche (diagnosi e prognosi)
  • Text mining di documenti web
  • Analisi di politiche economiche e/o sociali (“rule learning”)
  • Analisi di sequenze temporali
  • Individuazione di comportamenti anomali
  • Analisi di “eventi rari”

 

Data mining e piccole-medie imprese

Le problematiche legate alla “business intelligence” per le piccole-medie imprese stanno ottenendo sempre più attenzione. Come scrivono Virginia Gallo e Donato Malerba: «Negli ultimi decenni il ciclo di vita dei processi decisionali nelle aziende è andato accorciandosi sempre più. La tempestività nell’individuare nuovi segmenti di mercato, nello scoprire preferenze e comportamenti da parte di clienti, nel ridurre eventuali sprechi nella produzione o nel razionalizzare altri processi aziendali, è diventata vitale per la sopravvivenza delle aziende. Questo è tanto più vero quanto più piccola è la dimensione della realtà aziendale: oggigiorno le Piccole e Medie Imprese (PMI) sono costrette a competere su mercati globali pur non disponendo né delle strutture né delle risorse disponibili invece alle grandi aziende. Tale tempestività, tuttavia, a volte contrasta con la mole dei dati da elaborare per estrarre le informazioni necessarie a supportare il processo decisionale. I dati sono spesso difficilmente recuperabili perché sommersi nell’insieme di informazioni ospitate dal sistema informativo».

A questa esigenza sempre più stringente si contrappone però il costo ancora proibitivo delle attuali soluzioni di “data warehousing”, ossia della particolare tipologia di basi di dati necessaria al data mining. Una soluzione di data warehousing accessibile alle piccole-medie aziende deve essere “leggera”, anche se ciò implica, inevitabilmente, una quantità minore di dati.

 

Fonti

Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, draft 2009, https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
http://cabibbo.inf.uniroma3.it/dw/pdf/020_intro_dm.pdf
http://www.dis.uniroma1.it/~bruni/files/bruni04dm.pdf
http://bias.csr.unibo.it/golfarelli//DataMining/MaterialeDidattico/DMISI-Introduzione.pdf
https://www.cs.waikato.ac.nz/ml/weka/
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
http://www.di.uniba.it/~malerba/publications/datalight.pdf