Menu Close

Funzionalità di TaLTaC

Il programma offre un insieme di funzioni di base che si prestano ad una ricerca qualitativa, o meglio ad una analisi di materiali tipicamente qualitativi con strumenti di natura quantitativa, propri della linguistica, dell’informatica e della statistica testuale.

Queste funzioni nel loro insieme costituiscono una “cassetta degli attrezzi” per svolgere le operazioni fondamentali di trattamento del linguaggio naturale e di ricerca ed estrazione d’informazioni dal testo, nonché per fare annotazioni sul vocabolario del corpus e categorizzazione automatica dei documenti, a partire da query semplici o complesse, predefinite o personalizzate.
Il programma è di tipo interattivo con classici menu di tipo windows.
TaLTaC permette all’analista di seguire una propria strategia di analisi e trascrive in un giornale di bordo la sequenza delle operazioni svolte, favorendo così la riproducibilità della prova.

Text Analysis

Le principali funzioni di TaLTaC2 finalizzate all’analisi di contenuto sono:

  • normalizzare il testo, mediante standardizzazione delle grafie di parole e numeri, riconoscimento di nomi, toponimi, sigle, nonché principali locuzioni ed espressioni polirematiche;
  • analizzare il vocabolario del corpus, calcolando: gamma delle frequenze, frequenze normalizzate, rango, indici di ricchezza lessicale, livello di soglia di frequenza per l’analisi delle corrispondenze;
  • estrarre i poliformi più significativi (sequenze di significato compiuto) mediante individuazione dei segmenti ripetuti, calcolo dell’indice d’assorbimento e confronto con un lessico di poliformi, individuare le sequenze semanticamente rilevanti da riconoscere come “parole” (lessicalizzazione);
  • condurre l’analisi lessicale del vocabolario, mediante riconoscimento automatico delle categorie grammaticali delle forme non ambigue; integrare in maniera semiautomatica la categorizzazione grammaticale, per le forme significative per l’analisi, previa analisi delle concordanze;
  • categorizzare secondo classi semantiche predefinite le forme del vocabolario;
  • effettuare la fusione automatica dei termini categorizzati – per lemmi o classi di categorie – con relativo ricalcolo delle frequenze, ottenendo liste di termini (es. insieme dei verbi o degli aggettivi) da confrontare con un altro lessico;
  • estrarre le parole chiave del testo mediante il calcolo del sovra/sotto-utilizzo di un termine rispetto a un lessico di frequenza, assunto come riferimento (modello di linguaggio);
  • calcolare la connessione lessicale fra due vocabolari di testi diversi di uno stesso Autore o relativi a due corpus confrontabili fra loro;
  • effettuare calcoli di rangodispersione e uso su tabelle lessicali di frequenza;
  • esportare il vocabolario con tutte le annotazioni prodotte dall’analisi lessicale e con le sub-occorrenze secondo una o più variabili di partizione del corpus;
  • ricostruire il testo, con la categorizzazione grammaticale o semantica al fine di sottoporlo a successive analisi di contenuto con altri software di tipo lessicometrico (Alceste, Lexico, IRaMuTeQ…).

Text Mining

Qui di seguito si elencano le principali funzioni di TaLTaC2 finalizzate
–> al recupero ed estrazione di informazione 
–> al popolamento di database strutturati a partire da testi non strutturati
–> alla categorizzazione automatica di documenti

  • navigazione del corpus mediante browser di visualizzazione dei documenti, a livello di intero record o di singole sezioni del testo, delle variabili a priori e a posteriori associate a ciascun documento
  • analisi delle concordanze di forme, lemmi o lessemi e di segmenti (sequenze); concordanze di gruppo secondo categorie grammaticali o semantiche; estrazione dell’insieme dei co-testi di una parola o di una categoria
  • strumenti di text mining sul vocabolario per la selezione di insiemi di forme; query semplici e complesse, configurazione di piani di lavoro, ossia sequenze di query ripetibili su altre sessioni di lavoro sullo stesso corpus o altri aventi la struttura analoga
  • creazione di query predefinite per ricerche di tipo lessicale (classi di parole o terminologia)
  • popolamento di campi in un database strutturato grazie alla funzionalità di tipo testuale di “Ricerca Entità”:
  • –> operazioni di text mining di tipo testuale per localizzare “entità di interesse” nel testo: semplici occorrenze di parole o segmenti, classi di forme o lemmi, precategorizzate da punto di vista grammaticale o semantico, quasi-segmenti (sequenze di parole con ritardo massimo di un numero predefinito di elementi)
  • –> studio di relazioni fra entità predefinite con generazione automatica di dizionari di espressioni e popolamento di campi in un database strutturato
  • –> creazione di variabili testuali con modalità sconosciute a priori, ma definite da una regola
  • costruzione di dizionari da fonti diverse, sia interne, sia esterne a TaLTaC2
  • utilizzo di procedure ibride – dizionari + regole – per la categorizzazione automatica di documenti