Il Text Mining consiste nell'applicazione di tecniche di Data Mining a testi non strutturati (agenzie stampa, pagine web, e-mail, ecc.) e più in generale a qualsiasi corpus di documenti, allo scopo di:
individuare i principali gruppi tematici
classificare i documenti in categorie predefinite
scoprire associazioni nascoste legami tra argomenti, o tra autori, trend temporali.
estrarre informazioni specifiche (es: nomi di geni, nomi di aziende)
addestrare motori di ricerca
estrarre concetti per la creazione di ontologie (ontology learning)
Un processo di Text Mining si struttura generalmente in tre fasi:
1. Indicizzazione
2. Mining
3. Valutazione
Nella fase di indicizzazione viene effettuata la parte di analisi linguistica e tutto ciò che serve per arrivare ad una rappresentazione vettoriale del documento. In particolare l'identificazione (POS tagging) e la selezione dei termini, la lemmatizzazione, la ponderazione, la definizione delle stop-words, l'eventuale riduzione di dimensionalità, l'integrazione con eventuale meta-informazione.
Ai documenti così trasformati, nella fase di "mining" viene applicato un algoritmo di Data Mining specifico per l'obiettivo da raggiungere. Generalmente si tratta di un algoritmo di clustering (per il raggruppamento tematico), oppure di un algoritmo di machine learning (per la classificazione automatica).
Infine la fase di valutazione consiste nel calcolo di misure di efficacia e/o nell'interpretazione dei risultati ottenuti.
Raggruppamento tematico:
Il raggruppamento tematico consente di organizzare i documenti in gruppi tematici, fornendo una panoramica dei contenuti.
Consente inoltre di individuare nuovi argomenti e le relazioni tra aree tematiche.
Particolarmente utile quando si devono esplorare grandi quantità di documenti per estrarne informazioni sintetiche e rappresentative del contenuto, oppure quando si desidera classificare i testi senza disporre di un sistema di classificazione consolidata.
Principali applicazioni:
- Analisi di tutti i brevetti registrati dagli European Patent Office dal 1985 (2,3 milioni di documenti) per identificare i nuovi orientamenti del mercato e i potenziali concorrenti.
- Analisi dei brevetti sul packaging (120 mila documenti) per identificare per identificare nuovi orientamenti del mercato e potenziali concorrenti.
Classificazione automatica:
Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di individuare la classe di appartenenza di un nuovo documento.
Queste tecniche possono essere utili per costruire dei sistemi di filtering delle news o di messaggi di posta elettronica o per catalogare e indirizzare messaggi di reclamo o per indicizzare documenti sulla base di un vocabolario controllato.
Principali applicazioni:
IPCMapping: classifica un documento testuale in lingua inglese nelle sezioni e nelle 600 sottoclassi dell’International Patent Classification, catalogando così i documenti con la stessa logica con cui sono catalogati i brevetti internazionali.
AreaMapping: classifica un documento testuale nelle diverse aree e settori disciplinari (circa 400).
Inviato da: fresbe
il 08/01/2024 alle 12:40
Inviato da: fresbe
il 08/01/2024 alle 12:37
Inviato da: fresbe
il 03/01/2024 alle 17:00
Inviato da: fresbe
il 03/01/2024 alle 10:54
Inviato da: fresbe
il 03/06/2023 alle 12:06