ARTÍCULO
TITULO

Extração semiautomática de taxonomia para domínios especializados usando técnicas de mineração de textos

Fabiane dos Reis Braga    

Resumen

Apresenta metodologia para a extração semiautomática de uma taxonomia de conceitos, utilizando técnicas de mineração de textos, a partir de um corpus textual. A classificação de textos é uma prática natural do ser humano e uma tarefa crucial para se trabalhar com grandes repositórios. A técnica de agrupamento (clustering) de documentos fornece uma estrutura lógica e compreensível que facilita a organização, a navegação e a busca. A maioria dos algoritmos de agrupamento utiliza o modelo de saco de palavras (bag of words) para representar um documento. Este modelo gera alta dimensionalidade dos dados, ignora o fato de que diferentes palavras podem ter o mesmo significado e não considera o relacionamento entre elas, presumindo que as palavras são independentes umas das outras. A metodologia proposta apresenta a combinação de um modelo de representação de documentos por conceitos com um método de agrupamento hierárquico de documentos baseado na frequência da coocorrência dos conceitos e uma técnica de rotulação mais representativa, com o objetivo de produzir uma taxonomia de conceitos que possa refletir uma estrutura do domínio do conhecimento. A metodologia foi avaliada em um corpus textual composto de documentos científicos relacionados à área nuclear extraídos da produção científica da Comissão Nacional de Energia Nuclear (CNEN). Os resultados confirmaram que a mineração de textos serve como poderosa técnica para gerenciar conhecimento encapsulado em grandes coleções de documentos e, assim, apoiar a gestão das atividades de pesquisa da área.

 Artículos similares

       
 
Raúl Eguizábal Maza, Alberto Luis García García, Luis Eguizábal Jiménez     Pág. 241 - 248
Una de las tareas fundamentales del trabajo científico es la de poner orden en el caos. No es una tarea baladí ni tampoco eludible. Es más, con frecuencia se realiza de una manera que podríamos llamar automática e intuitiva, lo que impide al investigador... ver más

 
Sergio Poblete    
El objetivo de este artículo es caracterizar y analizar los acuerdos de riesgo compartido que la industria farmacéutica propuso para la inclusión de medicamentos en el cuarto decreto del Sistema de Protección Financiera para Diagnósticos y Tratamientos d... ver más

 
Rocio Martinez Jimenez, Carmen Ruiz Jiménez     Pág. 49 - 67
En los últimos años hemos vivido un cambio importante en el ámbito universitario, que ha provocado que sean necesarias nuevas metodologías docentes en las que el estudiante adquiera un rol mucho más activo y responsable de su propio aprendizaje. En esta ... ver más

 
Patricia Dorow,Gregório Varvakis,Jose Terra,Felipe de Souza Nobre     Pág. 109 - 124
O objetivo do artigo é identificar e descrever as categorias evolutivas para um radiologista conquistar a perícia. O estudo é respaldado na teoria de aprendizagem de Bloom et al. (1956), que permite verificar os resultados de aprendizagem. A partir de um... ver más

 
Alberto López     Pág. 118 - 129
El Diccionario de la Real Academia Española de la Lengua define la taxonomía como ?la ciencia que trata de los principios, métodos y fines de la clasificación? y aclara que ?se aplica en particular para la ordenación jerarquizada y sistemática de los gru... ver más