Creato da fresbe il 18/10/2005

CLUB BENCHMARKING

Economia, Fisco, Tributi, Ottimizzazione della Gestione aziendale (Benchmarking), Direzione Aziendale. GOOGLE PAGE RANK: 7

AREA PERSONALE

- Login

JOHN MAYNARD KEYNES

ULTIMI COMMENTI

Occorre incentivare la fiducia, proponendo interventi di...
Inviato da: fresbe
il 08/01/2024 alle 12:40

Quindi in un momento storico di stagnazione/recessione la...
Inviato da: fresbe
il 08/01/2024 alle 12:37

Industry 4.0 venne introdotta in Germania nel lontano 2013....
Inviato da: fresbe
il 03/01/2024 alle 17:00

Qualcuno ha notato che se avessero tagliato gli stipendi...
Inviato da: fresbe
il 03/01/2024 alle 10:54

I chatbot delle aziende sono operativi da tempo. Chi di noi...
Inviato da: fresbe
il 03/06/2023 alle 12:06

Tutti i commenti...

CERCA IN QUESTO BLOG

ARCHIVIO MESSAGGI

Aprile 2024

Guarda le immagini del Mese

« GERARD ZALTMAN

UFFA..... ISTAT! »

TEXT MINING

Post n°1008 pubblicato il 05 Marzo 2017 da fresbe

Tag: Innovazione

Il Text Mining consiste nell'applicazione di tecniche di Data Mining a testi non strutturati (agenzie stampa, pagine web, e-mail, ecc.) e più in generale a qualsiasi corpus di documenti, allo scopo di:

 individuare i principali gruppi tematici

 classificare i documenti in categorie predefinite

 scoprire associazioni nascoste legami tra argomenti, o tra autori, trend temporali.

 estrarre informazioni specifiche (es: nomi di geni, nomi di aziende)

 addestrare motori di ricerca

 estrarre concetti per la creazione di ontologie (ontology learning)

Un processo di Text Mining si struttura generalmente in tre fasi:

1. Indicizzazione

2. Mining

3. Valutazione

Nella fase di indicizzazione viene effettuata la parte di analisi linguistica e tutto ciò che serve per arrivare ad una rappresentazione vettoriale del documento. In particolare l'identificazione (POS tagging) e la selezione dei termini, la lemmatizzazione, la ponderazione, la definizione delle stop-words, l'eventuale riduzione di dimensionalità, l'integrazione con eventuale meta-informazione.

Ai documenti così trasformati, nella fase di "mining" viene applicato un algoritmo di Data Mining specifico per l'obiettivo da raggiungere. Generalmente si tratta di un algoritmo di clustering (per il raggruppamento tematico), oppure di un algoritmo di machine learning (per la classificazione automatica).

Infine la fase di valutazione consiste nel calcolo di misure di efficacia e/o nell'interpretazione dei risultati ottenuti.

Raggruppamento tematico:

Il raggruppamento tematico consente di organizzare i documenti in gruppi tematici, fornendo una panoramica dei contenuti.

Consente inoltre di individuare nuovi argomenti e le relazioni tra aree tematiche.

Particolarmente utile quando si devono esplorare grandi quantità di documenti per estrarne informazioni sintetiche e rappresentative del contenuto, oppure quando si desidera classificare i testi senza disporre di un sistema di classificazione consolidata.

Principali applicazioni:

Analisi di tutti i brevetti registrati dagli European Patent Office dal 1985 (2,3 milioni di documenti) per identificare i nuovi orientamenti del mercato e i potenziali concorrenti.
Analisi dei brevetti sul packaging (120 mila documenti) per identificare per identificare nuovi orientamenti del mercato e potenziali concorrenti.

Classificazione automatica:

Un classificatore automatico impara a riconoscere, da un insieme di documenti pre-classificati, le caratteristiche delle categorie di interesse ed è in grado di individuare la classe di appartenenza di un nuovo documento.

Queste tecniche possono essere utili per costruire dei sistemi di filtering delle news o di messaggi di posta elettronica o per catalogare e indirizzare messaggi di reclamo o per indicizzare documenti sulla base di un vocabolario controllato.

Principali applicazioni:

IPCMapping: classifica un documento testuale in lingua inglese nelle sezioni e nelle 600 sottoclassi dell’International Patent Classification, catalogando così i documenti con la stessa logica con cui sono catalogati i brevetti internazionali.

AreaMapping: classifica un documento testuale nelle diverse aree e settori disciplinari (circa 400).

Scrivi Commento - Commenti: 1

Condividi e segnala - permalink - Segnala abuso

Commenti al Post:

TEXT MINING

fresbe il 15/03/17 alle 14:05 via WEB

La disponibilità di documenti elettronici in forma non strutturata (e-mail, articoli, agende, cartelle cliniche, relazioni, pagine web), e la necessità di elaborarli, hanno portato alla realizzazione di nuovi strumenti e tecnologie per la manipolazione automatica del linguaggio naturale nei più svariati ambiti, quali i processi produttivi, di marketing e amministrativi. Questo volume vuole sopperire alla mancanza di testi di riferimento in lingua italiana, completi e strutturati, che descrivano la teoria e la pratica dell'elaborazione dei documenti: il Text Mining. L'obiettivo è fornire concetti fondamentali, quali l'elaborazione del linguaggio naturale, la rappresentazione della conoscenza e l'analisi statistica. Si vuole quindi sottolineare come questi concetti possano essere applicati con successo nella pratica, se affiancati a software performanti come SAS(r) Text Miner, il software utilizzato per i casi studio descritti nel volume. Il testo si rivolge al mondo accademico e ai professionisti che vogliono cogliere nuove opportunità di mercato, sfruttando tecnologie innovative.

Rispondi

Gli Ospiti sono gli utenti non iscritti alla Community di Libero.

Nuovo commento

TRILOGIA GALATTICA

ULTIME VISITE AL BLOG

Citazioni nei Blog Amici: 13

LINK PREFERITI

- Tutto Gratis
- LINKEDIN
- BLOG

CONTATTA L'AUTORE

Nickname: fresbe
	Sesso: M Età: 70 Prov: SP

AVVERTENZA IMPORTANTE

L’autore dichiara di non essere responsabile per i commenti inseriti dai lettori. Eventuali commenti dei lettori, lesivi dell’immagine o dell’onorabilità di persone terze, non sono da attribuirsi all’autore, nemmeno se il commento viene espresso in forma anonima o criptata. Questo blog non rappresenta una testata giornalistica poiché viene aggiornato senza alcuna periodicità. Non può pertanto considerarsi un prodotto editoriale ai sensi della legge n. 62/2001. Le immagini pubblicate sono quasi tutte tratte da internet e quindi valutate di pubblico dominio: qualora il loro utilizzo violasse diritti d’autore, lo si comunichi all’autore del blog che provvederà alla loro pronta rimozione.

QUESTA NON E', NON VORREBBE E NON POTREBBE ESSERE, UNA TESTATA GIORNALISTICA. I COMMENTI ALL'ATTUALITA' SONO OCCASIONALI ED HANNO LA SOLA ED UNICA INTENZIONE DI COMUNICARE UNA OPINIONE.

immagine

Lu	Ma	Me	Gi	Ve	Sa	Do

1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

CLUB BENCHMARKING

Economia, Fisco, Tributi, Ottimizzazione della Gestione aziendale (Benchmarking), Direzione Aziendale. GOOGLE PAGE RANK: 7

AREA PERSONALE

MENU

JOHN MAYNARD KEYNES

TAG CLOUD

ULTIMI COMMENTI

CERCA IN QUESTO BLOG

ARCHIVIO MESSAGGI

TEXT MINING

TAG

TRILOGIA GALATTICA

ULTIME VISITE AL BLOG

LINK PREFERITI

CONTATTA L'AUTORE

AVVERTENZA IMPORTANTE

Lu	Ma	Me	Gi	Ve	Sa	Do

1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Lu	Ma	Me	Gi	Ve	Sa	Do

1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Lu	Ma	Me	Gi	Ve	Sa	Do

1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30