Creato da fresbe il 18/10/2005

CLUB BENCHMARKING

Economia, Fisco, Tributi, Ottimizzazione della Gestione aziendale (Benchmarking), Direzione Aziendale. GOOGLE PAGE RANK: 7

AREA PERSONALE

 
 

JOHN MAYNARD KEYNES

immagine
 

CERCA IN QUESTO BLOG

  Trova
 

ARCHIVIO MESSAGGI

 
 << Giugno 2024 >> 
 
LuMaMeGiVeSaDo
 
          1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
 
 

 

« GERARD ZALTMANUFFA..... ISTAT! »

TEXT MINING

Post n°1008 pubblicato il 05 Marzo 2017 da fresbe
 
Foto di fresbe

Il Text Mining consiste nell'applicazione di tecniche di Data Mining a testi non strutturati (agenzie stampa, pagine web, e-mail, ecc.) e più in generale a qualsiasi corpus di documenti, allo scopo di:
 individuare i principali gruppi tematici
 classificare i documenti in categorie predefinite
 scoprire associazioni nascoste legami tra argomenti, o tra autori, trend temporali.
 estrarre informazioni specifiche (es: nomi di geni, nomi di aziende)
 addestrare motori di ricerca
 estrarre concetti per la creazione di ontologie (ontology learning)
Un processo di Text Mining si struttura generalmente in tre fasi:
1. Indicizzazione
2. Mining
3. Valutazione
Nella fase di indicizzazione viene effettuata la parte di analisi linguistica e tutto ciò che serve per arrivare ad una rappresentazione vettoriale del documento. In particolare l'identificazione (POS tagging) e la selezione dei termini, la lemmatizzazione, la ponderazione, la definizione delle stop-words, l'eventuale riduzione di dimensionalità, l'integrazione con eventuale meta-informazione.
Ai documenti così trasformati, nella fase di "mining" viene applicato un algoritmo di Data Mining specifico per l'obiettivo da raggiungere. Generalmente si tratta di un algoritmo di clustering (per il raggruppamento tematico), oppure di un algoritmo di machine learning (per la classificazione automatica).
Infine la fase di valutazione consiste nel calcolo di misure di efficacia e/o nell'interpretazione dei risultati ottenuti.
Raggruppamento tematico:
Il raggruppamento tematico consente di organizzare i documenti in gruppi tematici, fornendo una panoramica dei contenuti. 
Consente inoltre di individuare nuovi argomenti e le relazioni tra aree tematiche. 
Particolarmente utile quando si devono esplorare grandi quantità di documenti per estrarne informazioni sintetiche e rappresentative del contenuto, oppure quando si desidera classificare i testi senza disporre di un sistema di classificazione consolidata.
Principali applicazioni:
  • Analisi di tutti i brevetti registrati dagli European Patent Office dal 1985 (2,3 milioni di documenti) per identificare i nuovi orientamenti del mercato e i potenziali concorrenti.
  • Analisi dei brevetti sul packaging (120 mila documenti) per identificare per identificare nuovi orientamenti del mercato e potenziali concorrenti.
Classificazione automatica:
Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di individuare la classe di appartenenza di un nuovo documento. 
Queste tecniche possono essere utili per costruire dei sistemi di filtering delle news o di messaggi di posta elettronica o per catalogare e indirizzare messaggi di reclamo o per indicizzare documenti sulla base di un vocabolario controllato.
Principali applicazioni:
IPCMapping: classifica un documento testuale in lingua inglese nelle sezioni e nelle 600 sottoclassi dell’International Patent Classification, catalogando così i documenti con la stessa logica con cui sono catalogati i brevetti internazionali.
AreaMapping: classifica un documento testuale nelle diverse aree e settori disciplinari (circa 400).

 

 
 
 
Vai alla Home Page del blog

TAG

 

TRILOGIA GALATTICA

immagine
 

ULTIME VISITE AL BLOG

fresbeDott.Ficcagliacassetta2caramella1284apungi1950cannibale3acer.250Drakkar_58solitudinesparsapaolopisano47cuorevagabondo_1962amorino11meroveo0mitic98
 
Citazioni nei Blog Amici: 13
 

LINK PREFERITI

CONTATTA L'AUTORE

Nickname: fresbe
Se copi, violi le regole della Community Sesso: M
Età: 70
Prov: SP
 
RSS (Really simple syndication) Feed Atom
 
 
 

© Italiaonline S.p.A. 2024Direzione e coordinamento di Libero Acquisition S.á r.l.P. IVA 03970540963