Creato da fresbe il 18/10/2005

CLUB BENCHMARKING

Economia, Fisco, Tributi, Ottimizzazione della Gestione aziendale (Benchmarking), Direzione Aziendale. GOOGLE PAGE RANK: 7

AREA PERSONALE

 
 

JOHN MAYNARD KEYNES

immagine
 

CERCA IN QUESTO BLOG

  Trova
 

ARCHIVIO MESSAGGI

 
 << Aprile 2024 >> 
 
LuMaMeGiVeSaDo
 
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
 
 

 

« GERARD ZALTMANUFFA..... ISTAT! »

TEXT MINING

Post n°1008 pubblicato il 05 Marzo 2017 da fresbe
 

Il Text Mining consiste nell'applicazione di tecniche di Data Mining a testi non strutturati (agenzie stampa, pagine web, e-mail, ecc.) e più in generale a qualsiasi corpus di documenti, allo scopo di:
 individuare i principali gruppi tematici
 classificare i documenti in categorie predefinite
 scoprire associazioni nascoste legami tra argomenti, o tra autori, trend temporali.
 estrarre informazioni specifiche (es: nomi di geni, nomi di aziende)
 addestrare motori di ricerca
 estrarre concetti per la creazione di ontologie (ontology learning)
Un processo di Text Mining si struttura generalmente in tre fasi:
1. Indicizzazione
2. Mining
3. Valutazione
Nella fase di indicizzazione viene effettuata la parte di analisi linguistica e tutto ciò che serve per arrivare ad una rappresentazione vettoriale del documento. In particolare l'identificazione (POS tagging) e la selezione dei termini, la lemmatizzazione, la ponderazione, la definizione delle stop-words, l'eventuale riduzione di dimensionalità, l'integrazione con eventuale meta-informazione.
Ai documenti così trasformati, nella fase di "mining" viene applicato un algoritmo di Data Mining specifico per l'obiettivo da raggiungere. Generalmente si tratta di un algoritmo di clustering (per il raggruppamento tematico), oppure di un algoritmo di machine learning (per la classificazione automatica).
Infine la fase di valutazione consiste nel calcolo di misure di efficacia e/o nell'interpretazione dei risultati ottenuti.
Raggruppamento tematico:
Il raggruppamento tematico consente di organizzare i documenti in gruppi tematici, fornendo una panoramica dei contenuti. 
Consente inoltre di individuare nuovi argomenti e le relazioni tra aree tematiche. 
Particolarmente utile quando si devono esplorare grandi quantità di documenti per estrarne informazioni sintetiche e rappresentative del contenuto, oppure quando si desidera classificare i testi senza disporre di un sistema di classificazione consolidata.
Principali applicazioni:
  • Analisi di tutti i brevetti registrati dagli European Patent Office dal 1985 (2,3 milioni di documenti) per identificare i nuovi orientamenti del mercato e i potenziali concorrenti.
  • Analisi dei brevetti sul packaging (120 mila documenti) per identificare per identificare nuovi orientamenti del mercato e potenziali concorrenti.
Classificazione automatica:
Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di individuare la classe di appartenenza di un nuovo documento. 
Queste tecniche possono essere utili per costruire dei sistemi di filtering delle news o di messaggi di posta elettronica o per catalogare e indirizzare messaggi di reclamo o per indicizzare documenti sulla base di un vocabolario controllato.
Principali applicazioni:
IPCMapping: classifica un documento testuale in lingua inglese nelle sezioni e nelle 600 sottoclassi dell’International Patent Classification, catalogando così i documenti con la stessa logica con cui sono catalogati i brevetti internazionali.
AreaMapping: classifica un documento testuale nelle diverse aree e settori disciplinari (circa 400).

 

Commenti al Post:
fresbe
fresbe il 15/03/17 alle 14:05 via WEB
La disponibilità di documenti elettronici in forma non strutturata (e-mail, articoli, agende, cartelle cliniche, relazioni, pagine web), e la necessità di elaborarli, hanno portato alla realizzazione di nuovi strumenti e tecnologie per la manipolazione automatica del linguaggio naturale nei più svariati ambiti, quali i processi produttivi, di marketing e amministrativi. Questo volume vuole sopperire alla mancanza di testi di riferimento in lingua italiana, completi e strutturati, che descrivano la teoria e la pratica dell'elaborazione dei documenti: il Text Mining. L'obiettivo è fornire concetti fondamentali, quali l'elaborazione del linguaggio naturale, la rappresentazione della conoscenza e l'analisi statistica. Si vuole quindi sottolineare come questi concetti possano essere applicati con successo nella pratica, se affiancati a software performanti come SAS(r) Text Miner, il software utilizzato per i casi studio descritti nel volume. Il testo si rivolge al mondo accademico e ai professionisti che vogliono cogliere nuove opportunità di mercato, sfruttando tecnologie innovative.
 
Gli Ospiti sono gli utenti non iscritti alla Community di Libero.
 

TAG

 

TRILOGIA GALATTICA

immagine
 

ULTIME VISITE AL BLOG

apungi1950cannibale3fresbeacer.250Drakkar_58solitudinesparsacassetta2paolopisano47cuorevagabondo_1962amorino11meroveo0mitic98felixyaxprefazione09
 
Citazioni nei Blog Amici: 13
 

LINK PREFERITI

CONTATTA L'AUTORE

Nickname: fresbe
Se copi, violi le regole della Community Sesso: M
Età: 70
Prov: SP
 
RSS (Really simple syndication) Feed Atom
 
 
 

© Italiaonline S.p.A. 2024Direzione e coordinamento di Libero Acquisition S.á r.l.P. IVA 03970540963