DataGramaZero - Revista de Ciência da Informação - v.7  n.4   ago/06                            ARTIGO 01

Construindo tesauros a partir de tesauros existentes: a experiência do TCI - Tesauro em Ciência da Informação
Constructing thesaurus starting from existent thesaurus: the experience of TCI - Thesaurus of Information Science
por Manoel Palhares Moreira e Maria Aparecida Moura




Resumo: A necessidade de um tesauro atualizado em Ciência da Informação para experimentos relativos à atualização semi-automática de tesauros levou a construção de um Tesauro em Ciência da Informação (TCI) a partir de tesauros existentes na área. Foram eleitos os tesauros do IBICT, em português, do ASIS, em inglês, do DOCUTES e o do CINDOC, ambos em espanhol. Os três últimos foram traduzidos para o português resguardando as facetas originárias. O tesauro ASIS tornou-se base para o novo tesauro. Foram realizadas adequações no novo instrumento no sentido que o mesmo pudesse responder  às questões de representação informacional no âmbito da Ciência da Informação no Brasil. O texto apresenta as etapas de sistematização e implementação do Tesauro  e a o detalhamento  da metodologia para criação de tesauros em outras áreas em circunstâncias semelhantes.
Palavras-chave: Tesauro; Linguagem de indexação; Organização da informação; Construção de tesauros; Tesauro em Ciência da Informação.

Abstract: The need of a current thesaurus in Information Science for experiments to semiautomatic updates of thesaurus lead to a construction of a Tesauro em Ciência da Informação (TCI) from existing ones. Therefore, was chosen thesaurus from IBICT, in Portuguese, from ASIS, in English, from DOCUTES and from CINDOC, both in Spanish. The last three ones were translated to Portuguese keeping their original facets. The thesaurus ASIS become the basis to a new thesaurus it was made some adaptations in the instrument in order to answer the questions concerning the representation of information in the context of Information Science in Brazil. The present article describes the stages of thesaurus construction and the details of the methodology to create thesaurus in other areas in similar circumstances.
Key words: Thesaurus; Indexing language; Information organization; Thesaurus construction; Thesaurus of Information Science.
 
 
 

1. Introdução

O período compreendido entre o final da década de 40 e o início dos anos 50 foi marcado pelo aumento das formas de produção e difusão de informações e pelo desejo de sua obtenção. O desenvolvimento tecnológico teve importância decisiva na resolução da segunda guerra mundial e afetou substancialmente o direcionamento dado à indústria, principalmente a norte-americana, levando o tema do desenvolvimento na ciência e na tecnologia a ser almejado pelas diretrizes políticas de diversos países. Nos Estados Unidos, a indústria, o governo, a comunidade científica e a população em geral concordavam quanto a essa necessidade e acreditavam que a pesquisa seria a base para a mudança e o direcionamento necessários. Ao Estado caberia o apoio nos investimentos e à indústria sua parcela de contribuição. A pesquisa aplicada seria orientada para objetivos específicos e realizada em institutos nacionais enquanto a pesquisa tecnológica ficaria sob o patrocínio da indústria e sem interferências governamentais (GUIMARÃES, 2002).

Assim, cresceu a produção científica e tornou-se claro que era preciso acelerar o processo de disseminação do conhecimento produzido. Em 1945, Vannevar Bush publicou um artigo apontando a necessidade de se tornar acessível o conhecimento produzido em ciência e tecnologia e sugerindo a aplicação de tecnologia da informação como uma solução possível para a recuperação da informação frente ao acelerado crescimento da produção científica (BUSH, 1945; SARACEVIC, 1995). Muitos outros cientistas compartilharam dessa preocupação e entusiasmaram-se com as possibilidades de soluções tecnológicas para o problema.

Em decorrência, nos anos 50, a recuperação de informação ganha força entre a comunidade científica. Nesta época, nos Estados Unidos, a solução para esse problema passa a ter apoio do governo, em um primeiro instante, endereçada principalmente à explosão de informação em ciência e tecnologia e mais tarde em outras áreas do conhecimento humano.

Os tesauros vieram como resposta a essa necessidade de recuperação de informação. Um tesauro é uma linguagem de documentação com a característica específica de possuir relações entre os termos que o compõem. O termo linguagem de documentação compreende, genericamente, os sistemas de classificação bibliográfica, as listas de cabeçalho de assunto e os tesauros, os quais surgiram estimulados pela necessidade de manipulação de grande quantidade de documentos de conteúdos especializados. Os tesauros constituem uma ferramenta de indexação já consolidada nas atividades de organização da informação empregada por muitos que exercem essas atividades. A flexibilidade de estabelecimento de novas relações entre seus termos, o estabelecimento de hierarquias e referências cruzadas conferem ao instrumento uma multiplicidade de usos, abrangendo os processos desde a indexação até o suporte para a efetiva recuperação dos documentos.

O estudo dos tesauros envolve diversos campos do conhecimento, pois o tema é, em si, multidisciplinar. Como área de estudo da Ciência da Informação, multidisciplinar por natureza e interdisciplinar na vocação, o tesauro herda dessa ciência essas propriedades. Diz respeito à Ciência da Informação, por sua origem e utilização imediata nos processos de indexação e recuperação de informação; também está vinculado às contribuições da Terminologia, da Lingüística, da Filosofia, da Lógica, da tradução, da análise sistêmica, da normalização, dos sistemas de classificação, entre tantos outros. Todos eles, cada qual em seu nicho particular, apresentam pontos de contribuição.

Requer também o conhecimento do tema de tratamento da informação em sua forma abrangente, o que corresponde dizer que compreender as ferramentas anteriores que facilitavam os serviços de indexação colabora para o entendimento de como os tesauros passaram a representar um ganho nesta atividade.  De forma geral, os tesauros são específicos, construídos para determinada área do conhecimento, que tendem a aprofundar.

Três pontos fundamentais - a garantia literária, a garantia de uso e a garantia estrutural - constituem o referencial para a construção de tesauros.

O presente trabalho apresenta a criação de um Tesauro em Ciência da Informação, o TCI, a partir de tesauros existentes na área. Ao se buscar um tesauro em língua portuguesa para experimentos de atualização automática de tesauros, no contexto da Ciência da Informação, constatou-se uma lacuna em relação à atualidade. No Brasil, o tesauro disponível especializado nessa área é o tesauro do IBICT, produzido em 1989 e defasado frente à velocidade de atualização desta área. A necessidade tornou-se um desafio. Era preciso gerar um tesauro em Ciência da Informação, capaz de satisfazer as necessidades de processamento de atualização automática e de retratar as diversas áreas de domínio da Ciência da Informação; e que fosse construído levando-se em conta as garantias literária, de uso e estrutural.

Este artigo está organizado nas seguintes seções:  a seguir apresenta-se um histórico e  aspectos teóricos relativos aos tesauros e ao seu planejamento; no item 3 apresenta-se a base para a construção de um tesauro formada pelas garantias literária, de uso e estrutural. Logo após apresenta-se o desafio da criação do tesauro em ciência da Informação, a metodologia utilizada e os resultados obtidos.  Nas conclusões aborda-se também as perspectivas de  continuidade para este trabalho.
 

2. O contexto sócio-histórico de implementação dos tesauros

A palavra tesauro tem origem do latim thesaurus, que significa tesouro. Foi empregada como título no dicionário analógico de Peter Mark Roget, "Thesaurus of English words and phrases", publicado em Londres pela primeira vez em 1852. O autor era secretário da Royal Society e objetivava facilitar sua atividade literária. Trabalhou nesse projeto durante 50 anos. Em seu dicionário as palavras foram agrupadas em ordem distinta da alfabética. Priorizaram-se as idéias que exprimiam e esta foi a ordem escolhida. A busca por palavras dava-se sempre por aquilo que elas podiam expressar, com seu significado (GOMES, 1990).

A formação de um tesauro dá-se por palavras cuidadosamente escolhidas, palavras que possuam significado para uma determinada área. Roget chamou sua obra de thesaurus, com o significado de vocabulário, dicionário. Alguns dicionários traduzem a palavra por enciclopédia ou tesouro. A originalidade deste trabalho foi que ele associou uma significação tão grande ao vocábulo que o mesmo permaneceu, para a área de documentação, associado à forma de organização do vocabulário para os processos de indexação e recuperação (CAMPOS, 2001; CHAUMIER, 1978; GOMES, 1990; MARQUES DE JESUS, 2002).

Motta (2005) citando Mikhailov et al. (1973) afirma que o termo tesauro já havia sido utilizado anteriormente, tendo sido empregado por Brunetto Latini (1220-1294) para designar uma enciclopédia sistematizada que ele chamou de 'Os livros do tesouro'. Em 1532, Thierry e R. Etienne publicaram o livro 'Dicionário ou tesouro do idioma latino', um dicionário da língua latina em arranjo alfabético. Quarenta anos depois, A. Etienne publicou outro dicionário empregando o termo: "Thesaurus linguage Graecae", iniciado por seu pai R. Etienne. Em 1736, Shorter Oxford Dictionary registrou o uso da expressão inglesa "thesaury or storehouse of knowledge", definindo o termo como "tesouro ou armazém de conhecimento, similar a um dicionário ou a uma enciclopédia" (MOTTA, 2005).

Interessa-nos que o tesauro surgiu da necessidade de manipulação de grande quantidade de documentos especializados, onde é preciso trabalhar com vocabulário mais específico e uma estrutura mais articulada e integrada do que aquela presente nos cabeçalhos de assunto (remissivas e referências cruzadas tipo 'ver' e 'ver também'). Parte do desejo de uma comunidade de usuários em recuperar documentos de uma área específica, na qual é necessária maior sistematização para a recuperação.

O tesauro avançou na estrutura e nas referências cruzadas, dando lugar às relações hierárquicas (verticais) e associativas (horizontais).  São as relações existentes entre os termos que conferem a um tesauro uma multiplicidade de usos, desde o auxílio na própria função de indexação até o auxílio na efetiva recuperação dos documentos.

Elaborar um tesauro é antes de tudo uma atividade intelectual, que requer atividades específicas para a consecução dos objetivos dos que se empenham nesta tarefa, entre elas: o conhecimento de documentos produzidos na área, o entendimento dos termos empregados, a construção de conceitos para explicação dos termos.  A construção de um tesauro requer uma atitude flexível para incorporar as mudanças que a linguagem utilizada sofre no caminho de seu desenvolvimento sem abrir mão dos conceitos, mas em atitude aberta a seu próprio desenvolvimento.

A ambigüidade que as palavras trazem em seus múltiplos significados, faz com que se tornem inadequadas para a indexação e a recuperação. As linguagens de indexação partem de uma palavra, tomada sob certos princípios, ou uma expressão, para representar um único conceito ou idéia. De antemão, pressupõe-se que estes conceitos ou idéias encontram-se legitimados na comunidade de usuários para a qual se constrói o tesauro.

Cada palavra, ou expressão recebe então o nome de termo, que equivale a um conceito adicionado de uma designação, construída por uma ou mais unidades léxicas. O controle é necessário para que se mantenha a relação de um termo para cada conceito e a cada conceito um só termo. Os termos que representam um conceito são também chamados de descritores. Os outros recebem o nome de não-descritores e formam o conjunto das remissivas. Um tesauro é algo dinâmico, retrato fiel da realidade que representa, em contínua mudança, requerendo contínuas manutenções e atualizações. Seus componentes são: os termos, o conjunto de remissivas e a sintaxe.

A estrutura de um tesauro diz respeito aos relacionamentos, às ligações e vinculações existentes entre os conceitos representados por termos. Nenhum termo existe em um tesauro sem ligação com outro, sempre determinada por seu significado (SVENONIUS, 2000). Os relacionamentos podem ser de diversos tipos, como:
 

* Relacionamentos lógicos, oriundos da comparação de dois conceitos. Podem se dividir em: genérico-específico, o que permite formar as classes dos conceitos e a estrutura hierárquica dos tesauros; relacionamento analítico, que gera as relações a partir das relações associativas entre os termos; o relacionamento de oposição, indicando os termos opostos;

* Relacionamentos ontológicos, reunindo as relações partitivas, os relacionamentos de sucessão ou contigüidade entre os termos e os relacionamentos material-produto;

* Relacionamentos de efeito, constituído pelos relacionamentos de causalidade ou causa efeito, pelos relacionamentos de instrumentalidade e os relacionamentos de descendência que apresentam relações genealógicas entre os termos (GOMES, 1990).


Curras (1995) apresenta as relações existentes entre os termos de um tesauro classificadas em relações de equivalência, hierárquicas e associativas. As relações de equivalência são aquelas que representam os sinônimos ou quase sinônimos de um termo. Na área técnica verifica-se a ocorrência de sinonímia com freqüência. Nos tesauros os sinônimos aparecem com a indicação de USE ou UP (use para).
 

Linguagens de indexação UP Linguagens de documentação


Linguagens de documentação

USE Linguagens de indexação


A quase-sinonímia acontece quando dois conceitos têm praticamente a mesma intensão. Define-se intensão por um conjunto das características que constituem um conceito. Na definição de um conceito, incluem-se em sua definição apenas as características mais importantes para o domínio do tesauro (BITI, 2005). Quando de sua ocorrência, seleciona-se um deles como descritor e procede-se como no exemplo acima, com uma entrada para cada um deles, estabelecendo uma relação de equivalência.

A homonímia é o emprego do mesmo termo com significados diferentes. A solução, quando ocorre, é a indicação do contexto. Exemplo (BITI, 2005):
 

Tênis (calçado)
Tênis (esporte)


As relações hierárquicas surgem da necessidade de especificar termos genéricos e específicos e desta forma, estabelecer os mais diversos tipos de relações, dependendo da linha e objetivo do tesauro.
 

Frutas Frutas cítricas Laranja
Lima
Limão


Na bibliografia consultada assinalam-se as relações hierárquicas do tipo genérica, do tipo partitiva, ou seja, o todo com suas partes, do tipo enumerativa (Exemplo: Mar - Mar Báltico, Mar Negro, Mar Mediterrâneo) e as polihierárquicas, onde um termo pode depender de mais de um termo genérico.  As relações associativas são estabelecidas por pontos distintos de associação, dependendo do domínio do tesauro e de seu objetivo. O estabelecimento dos tipos de relações associativas faz parte da política de implantação do tesauro.

Os tesauros são construídos para uma área específica do conhecimento. Não existe um tesauro geral; alguns cobrem vários assuntos. Nascem da necessidade de se reunir e sistematizar a informação contida em documentos de determinado nicho do conhecimento. O trabalho de BRUSCHINI et al. (1998) é um bom exemplo. Assim, é possível definir um tesauro como uma "... linguagem documentária dinâmica que contém termos relacionados semântica e logicamente, cobrindo de modo compreensivo um domínio do conhecimento" (GOMES, 1990).

A função do tesauro é representar os assuntos dos documentos e das solicitações de busca. Esta representação é feita no momento da indexação, através dos processos consecutivos de análise do documento, identificação de seu conteúdo e da tradução para os termos do tesauro de acordo com a política de indexação. Na recuperação, a representação da solicitação é feita no momento em que o usuário busca uma informação, quando o pedido é analisado, identificando-se seu conteúdo. A seguir, busca-se o termo no tesauro através do processo de tradução. A própria estrutura do tesauro, ou seja, os relacionamentos nele existentes possibilitam este processo de tradução.

Seguindo este raciocínio, pode-se afirmar que o termo é um componente do sistema de recuperação de informação, sendo afetado por ele e diretamente afeta também seu desempenho. A estrutura de um tesauro é que traz ao usuário - consulente ou indexador - a possibilidade de encontrar o termo mais adequado, mesmo desconhecendo o nome específico para a idéia ou conceito. A partir do que informa ao usuário, outros termos, oportunos ou não, são apresentados para sua escolha, através da estrutura do tesauro.

Alguns pontos específicos na teoria de Tesauros merecem destaque. São eles a garantia literária, a garantia do usuário, também conhecida como garantia de uso, e a garantia estrutural.
 

3. A garantia literária, a garantia de uso e a garantia estrutural: bases para a construção de um tesauro

Um dos principais desafios no processo de construção de um tesauro refere-se à seleção de vocabulário, que vem logo após as atividades de planejamento do tesauro, ou seja, a definição do domínio e dos objetivos do instrumento, a seleção das fontes para consulta e a definição de sua forma de apresentação. Alguns autores indicam que o vocabulário deve ser levantado nas principais fontes do domínio do tesauro, indicadas na fase de seu planejamento, ou de algum vocabulário de um serviço de informação já consolidado da área (AITCHISON e GILCHRIST, 1979; BITI, 2005). O vocabulário selecionado para a criação de tesauros é, antes de tudo, um vocabulário normalizado, observa Svenonius (2000), pois é oriundo de um conjunto restrito de palavras e frases, que vieram da linguagem natural encontrada nas fontes do domínio e também, pelo tratamento semântico dos termos, para fixar o seu referente e estabelecer as suas relações com outros termos.

Nem todo vocabulário de um serviço de informação já existente deve ser aproveitado para um novo tesauro, pois nem sempre o conjunto como um todo interessa à clientela desse novo serviço (BITI, 2005). Selecionar o vocabulário é antes de tudo uma tarefa de delimitação do tesauro a ser construído, levando-se em conta principalmente as pessoas que dele farão uso e o próprio domínio do tesauro.

A definição do domínio do tesauro assegura as decisões da escolha do vocabulário a ser utilizado, bem como, as relativas aos termos a serem adicionados ou removidos, o que colabora na questão do custo da construção de um tesauro, que está fortemente relacionado a seu tamanho. É importante limitar o tamanho de um vocabulário para se ter somente termos necessários e suficientes para alcançar seus objetivos (SVENONIUS, 2000).

O ideal seria que houvesse uma forma de conhecer precisamente se determinado termo deveria pertencer ou não ao vocabulário, o que é uma tarefa árdua e requer antes de tudo a experiência e o conhecimento da área de domínio do tesauro. Svenonius (2000) observa que, na prática, os domínios tendem a ser definidos indiretamente, especificando critérios para a seleção de termos, e que, tradicionalmente, os critérios empregados para este propósito são a garantia literária, a garantia do usuário e a garantia estrutural.

A garantia literária é um conceito introduzido em 1911 por Wyndam Hulme, autor que defendia que a determinação de classes utilizadas em linguagens de indexação não deveria originar-se da classificação do conhecimento, mas das classes existentes na literatura (DODEBEI, 2000).  A garantia literária possui o status de um princípio: nas linguagens de indexação, o vocabulário escolhido para a representação dos assuntos deve ser derivado empiricamente da literatura para a qual pretende-se a representação. Ou seja, a literatura deve ser determinante.

A linguagem a qual Hulme se referia era a Library of Congress Classification (LCC), e a literatura que serviria como garantia era a contida nos livros que estavam na biblioteca. A linguagem específica de uma área ou disciplina da ciência tem a propriedade de ser definida através de um texto canônico desta disciplina ou de um conjunto de documentos da mesma. Uma vez que a literatura de uma área pode ser definida, as expressões e termos nela contidos são indicativos da temática e tornam-se candidatos à inclusão no vocabulário da linguagem (SVENONIUS, 2000).

O princípio da garantia literária é aplicado desde os processos de classificação. A classificação é antes de tudo uma ferramenta de seleção. No processo de classificação, o ato de agrupar termos em categorias deve estar acompanhado da observação de novos termos continuamente descobertos e cujas relações encontram-se gravadas na literatura. Não se pode ser demasiadamente rígido em apresentar antecipadamente um termo associado a uma categoria, pois esta tarefa também requer um exame concreto da literatura do assunto. A classificação deve ser baseada na garantia literária (VICKERY, 1975).

Embora necessária, a garantia literária não é suficiente para legitimar a admissão de termos no vocabulário de uma linguagem de documentação, pois nem sempre os termos utilizados pelos autores equivalem a termos utilizados por quem pesquisa e deseja recuperar a informação.

A garantia do usuário está relacionada com o princípio de que os termos selecionados para um tesauro precisam estar de acordo com aqueles utilizados pelos usuários na tarefa de recuperação de informação. Para Svenonius (2000), alguns teóricos da indexação por assuntos vêem a garantia do usuário competindo em importância com a garantia literária. Na realidade, ambas são importantes e complementares. É importante acatar o vocabulário dos usuários e através dele conduzir as requisições que eles fazem aos descritores de um vocabulário mais especializado. Mas, sabe-se também que muitas vezes alguns usuários se perdem em palavras no instante da busca. Para eles, é sempre útil incluir termos nos quais nunca poderiam pensar, mas para os quais poderiam ser dirigidos com a finalidade de melhorar os pedidos, em sua procura.

Comumente, a garantia do usuário é sempre considerada na criação de uma linguagem de documentação e é muito raro existirem tentativas contrárias a este princípio pelos especialistas nestas linguagens. Existem diversos trabalhos nesta área, inclusive trabalhos que pesquisam em registros de transações feitas em bases de dados dispostas em tecnologia de bancos de dados, onde é possível retomar a consulta de um usuário e tentar medir a adequação e o confronto do vocabulário por ele empregado nas rotinas de busca com os vocabulários normalizados de linguagens de documentação. Estes trabalhos demonstram que, no nível léxico, o encontro nem sempre se dá em nível significativo. Entretanto, no nível conceitual, em que os autores contabilizam os sinônimos e as relações genéricas, ele é consideravelmente alto. Tal fato fez com que Svenonius (2000) definisse que encontrar a linha de uso comum entre os termos nem sempre é o alvo principal para identificar os conceitos nos quais um usuário está interessado, mas é fundamental para dar nome a estes conceitos. Além de que, são muitos usuários diferentes e com usos distintos, e para traçar um vocabulário normalizado é necessário incluir todos os nomes pelos quais um conceito é conhecido.

Também a garantia de uso já era observada ao longo da história de consolidação dos tesauros. Gilchrist (1971) tratou a garantia de uso, de acordo com o contexto de sua época, como uma força paralela de pensamento na qual o leitor, como usuário e freqüentemente criador de literatura, deveria ser empregado como uma fonte para se conhecer a linguagem mais apropriada para a indexação. Para este autor, os modelos que levam em conta o usuário estão diretamente relacionados com o potencial da necessidade de informação do usuário e com a linguagem por ele utilizada: uma linguagem "espontânea" com a qual expressa seu pedido de informação.

Muitas vezes, alguns termos não se apóiam nem na garantia literária nem na garantia de uso, mas são admitidos em um vocabulário normalizado porque possibilitam uma função estrutural útil. São termos que facilitam elos em uma hierarquia de termos ou colaboram para que seja possível dispor um conjunto mais específico de termos.

Quando se constrói um vocabulário hierárquico, o mais provável é admitir termos que estão somente garantidos por suas propriedades estruturais. Vocabulários altamente estruturados, como os empregados por linguagens classificatórias, incluem muitos assuntos designados por expressões que dificilmente alguém pensaria em usar por escrito em documentos ou em arquivos de tecnologia, isto é, bancos de dados de aplicações automatizadas. Svenonius (2000) exemplifica o fato citando títulos encontrados na Classificação Decimal de Dewey que começam com a palavra "tipos", como "Tipos de escolas". Embora nem sempre requeridos, estes títulos existem em virtude da sua utilidade nas funções de navegação pela estrutura.

A isto denomina-se garantia estrutural, ou seja, termos cuja colocação encontra justificativa na estrutura do tesauro. Geralmente, para esses termos, a garantia estrutural tende a anular a garantia literária ou a garantia de uso e a sua colocação resulta em uma seleção de vocabulários da forma top-down ao invés de uma seleção bottom-up (SVENONIUS, 2000).

As relações existentes entre os termos de um tesauro constituem ponto fundamental de tal forma que as diretrizes de alguns tesauros proíbem termos órfãos, isto é, não relacionados a outros termos.  O que faz sentido, se o propósito da normalização de vocabulário é estabelecer conectividade na forma de relações semânticas entre termos. Também é significativo se o vocabulário for usado junto com texto livre para pesquisa. Seria uma despesa desnecessária incluir termos órfãos que poderiam ser capturados através de palavras-chave. Por outro lado, em circunstâncias em que  o vocabulário de assunto é o único acesso à informação, baseado em índice impresso, é necessário incluir termos órfãos ou conceitos importantes para que possam ser recuperados.
 

4. Uma forma de se criar um tesauro em Ciência da Informação

A Ciência da Informação é um campo emergente no âmbito das Ciências Sociais que se caracteriza por estudos de cunho multidisciplinar e interdisciplinar. Como resultado, a sua representação temática oscila entre as especificidades do campo e as hibridações conceituais realizadas nas fronteiras do seu domínio. A geração de um tesauro para a Ciência da Informação, como o TCI, deve levar em consideração essa particularidade, sob o risco de estabelecer uma estrutura pouco consistente e um facetamento que não reflita o seu real entrelaçamento conceitual, preocupação presente em todo o processo.

Partiu-se então da hipótese de que era possível obter um tesauro em Ciência da Informação a partir de tesauros existentes na área em língua portuguesa e em outras línguas. A escolha dos tesauros que iriam servir de base à criação do TCI - em português e em outras línguas - foi orientada pela legitimidade dos órgãos responsáveis por sua criação, por seu uso consolidado na comunidade usuária e pela disponibilidade de acesso aos mesmos.  Foram então eleitos quatro tesauros: o Thesaurus of Information Science and Librarianship, da American Society for Information Science (ASIS), o Tesauro de Ciencias de la Documentación - tesauro DOCUTES - da Universidade de León (Espanha), o Tesauro en Biblioteconomía y Documentación do Centro de Información y Documentación Científica (CINDOC) e o Tesauro em Ciência da Informação, do IBICT.

Os tesauros CINDOC e DOCUTES foram retirados da Web em seus respectivos endereços. O tesauro ASIS e o IBICT encontram-se disponibilizados em bibliotecas. A opção por mais de um tesauro nesta construção justifica-se no fato de que a Ciência da Informação conjuga outras ciências em seu corpo teórico e por se desejar buscar culturas e visões diferentes de representação de seus campos. A escolha do tesauro em língua inglesa deve-se à legitimidade do mesmo na comunidade mundial de Ciência da Informação. Os tesauros espanhóis foram eleitos por retratarem as áreas de Arquivologia, Documentação e Museologia, tendo como foco o registro documental.

O tesauro ASIS, em segunda edição, segue basicamente o proposto na edição anterior. A política de sua criação elegeu como objetivo uma cobertura mais profunda nos campos da Ciência da Informação e Biblioteconomia, para a indexação nestas áreas, sem esquecer os campos relacionados e periféricos mais fortemente relacionados, entre eles: Ciência da Computação,  Lingüística e ciências relacionadas à cognição e ao comportamento. Outras áreas periféricas foram incluídas, com uma cobertura limitada: Economia, Administração, Estatística e Sociologia (MILSTEAD, 1998).

O tesauro ASIS descreve e incorpora o caráter interdisciplinar da Ciência da Informação e suas interfaces mais evidentes, mas isto é feito de forma mais abrangente e horizontal, ficando o desejo de maior aprofundamento em alguns pontos. As manifestações da informação são ordenadas em disciplinas distintas, destacando-se as contribuições dos campos disciplinares à Ciência da Informação e sinalizando o aspecto informacional a ser organizado em cada campo (MOREIRA e MOURA, 2005).

O tesauro encontra-se delimitado a partir de assuntos tópicos. De acordo com a política de seleção dos termos, não foram incluídos nomes próprios de organizações, pessoas, programas, etc., com algumas exceções, como por exemplo, os nomes de ferramentas, tendo em vista sua representatividade na prática da indexação e catalogação. Outra exceção aberta diz respeito a termos fundamentais no contexto da Web, já que por sua disseminação e uso comum podem ser considerados nomes próprios (MILSTEAD, 1998).

Esta edição do tesauro ASIS incluiu 1353 descritores e 778 não-descritores, distribuídos em trinta e seis facetas. A equipe de montagem do tesauro vivenciou, entre as dificuldades enfrentadas para sua atualização, o dinamismo existente na Ciência de Informação, cujo campo de ação sofreu a velocidade de mudanças, principalmente após a Web, com a incorporação de novos termos e a eliminação de muitos outros. Foi necessário equilíbrio para incluir termos atuais, ou mesmo um jargão que poderia ser superado antes do tesauro ser publicado. Com base nessa premissa, a ausência de alguns termos foi justificada. A versão data de 1998 e alguns termos hoje conhecidos por todos, como XML, por exemplo, não constam dessa edição.

O Tesauro de Biblioteconomía e Documentación do CINDOC (CINDOC, 2005) foi proposto para ser uma linguagem controlada para a análise de conteúdo e recuperação de documentos incluídos na Base de Datos de Biblioteconomía, Documentación y Política Científica - ISOC-DC, produzida pelo CINDOC, do Consejo Superior de Investigaciones Científicas (CSIC) desde 1975. Sua criação teve como alvo suprir a falta de léxicos documentais em espanhol abrangendo os campos semânticos representados nos textos técnico-científicos publicados na Espanha, muitos dos quais estão armazenados na mencionada base de dados.

A implantação deste tesauro possibilitou indexação mais homogênea dos documentos incorporados na ISOC-DC, facilitando uma recuperação fácil e exaustiva, eliminando ambigüidades e dando uma visão da afinidade semântica entre os termos distintos, enriquecendo o trabalho dos documentalistas e ampliando o campo de busca do usuário. O tesauro proporciona à comunidade científica um conjunto estruturado de termos sobre a base de um sistema de conceitos para a organização do conhecimento biblioteconômico (CINDOC, 2005).

A ISOC-DC é uma base de dados bibliográficos de artigos de revistas espanholas sobre Biblioteconomia, Documentação, Arquivologia, Política Científica e Política de Informação, assim como artigos de congressos espanhóis nessas áreas. Permite a recuperação de informação por diversos critérios de busca. A temática abrange as áreas de Antropologia, Arqueologia e Pré-História, Belas Artes, Biblioteconomia e Documentação, Direito, Economia, Educação, Filosofia, Geografia, História, Lingüística, Literatura, Psicologia, Ciências Políticas e Sociologia, Urbanismo e Estudos americanistas. A vastidão do universo para o qual foi criada foi um dos motivos de sua escolha como um dos tesauros para a composição do TCI.

O tesauro, orientado para sua disponibilidade na Web (DOCUTES, 2005), foi elaborado pelo setor de Biblioteconomía y Documentación da Universidad de León, através de um projeto de investigação científica patrocinado pela Junta de Castilla no ano 2000 e faz parte de um objetivo maior de potencializar práticas e ações na área através de tutoriais desenvolvidos a partir de material adequado. É utilizado nas atividades docentes da universidade e, por esta razão, tem disponibilidade constante na Web, onde é possível encontrar a relação completa dos termos distribuídos nas seguintes facetas: Ciência da documentação: Historia. Teorias. Sistemas; Informação. Documentos. Fontes de informação; Investigação e metodologia documental; Profissionais e usuários; Representação e recuperação de informação; Sistemas de informação e Tecnologias da informação.

O Tesauro de Ciência da Informação do IBICT (IBICT, 1989) foi desenvolvido com vistas a atender às necessidades de indexação dos documentos existentes no acervo desse instituto e está orientado por sete grandes categorias aqui entendidas como facetas: Informação; Documento; Unidade de informação; Planejamento; Processos e serviços de informação; Transferência e uso da informação e Profissão.

Observou-se uma articulação de suas facetas em torno do conceito de informação; mas o tesauro não reflete o avanço do campo e de suas interfaces disciplinares. Há um número excessivo de termos que demarcam um atraso em relação à nova configuração do campo. Este fato era esperado já que o tesauro data de 1989 e, desde então, foram muitas as atualizações existentes na Biblioteconomia e na Ciência da Informação.

A edição de 1989 traz toda documentação do processo de sua criação, explicitando as políticas e escolhas feitas na ocasião. Já esteve disponibilizado na Web, mas no instante da coleta dos dados não nos foi possível encontrá-lo nesta mídia.
 

5. A metodologia empregada

Para a construção do TCI alguns passos foram previamente estabelecidos, em conformidade com os autores BITI (2005), Campos (2001), Cintra et al. (2002), Dodebei (2002), Gomes e Campos (2004). Acredita-se que estes passos possam facilitar a construção de futuros tesauros em outras áreas, a partir de tesauros já existentes.
 

* Estabelecimento dos objetivos: O objetivo do tesauro foi definido em quatro pontos: primeiramente, ele deveria servir de apoio a um experimento de atualização semi-automática de tesauros; deveria fornecer subsídios para indexação de artigos científicos em língua portuguesa; deveria estar disponível na Web para futuras pesquisas utilizando tesauros e este ambiente e, por fim, deveria servir de experimento para uma atualização coletiva, tendo em vista a participação da comunidade usuária.

O campo temático foi delimitado pelas áreas de Arquivologia, Biblioteconomia, Ciência da Informação e Documentação. Estas áreas do conhecimento foram tomadas a partir de seu próprio foco e das áreas que compõem o universo de sua produção. Primeiramente elegeu-se a área de Ciência da Informação como central para o propósito do tesauro a ser construído. A seguir, analisou-se sua relação com a área de Biblioteconomia, com levantamento das áreas limítrofes mais próximas dos conteúdos destas duas áreas ou de outras áreas cujo relacionamento com a Ciência da Informação e com a Biblioteconomia revela interdisciplinaridade. São elas: Administração, Arquivologia, Museologia, Ciências Cognitivas, Ciências da Computação, Economia, Educação, Linguística e Sociologia. Estas áreas compõem o círculo primeiro de relacionamento com a Ciência da Informação e a Biblioteconomia. Seguindo a elas, estão as áreas de Filosofia, Ciências Políticas, História e Direito, por suas relações com as áreas centrais os com as áreas do primeiro círculo.

A Figura 1 ilustra o relacionamento estreito entre estas áreas e aponta para questões como a alfabetização informacional, através dos conteúdos da Educação, da Linguística e da Ciência da informação; como a comunicação mediada por computador, através das demandas da comunicação e das soluções proposta pela Ciência da Computação; da educação em Ciência da Informação, como peculiaridades da Educação no domínio específico da Ciência da Informação; da liberdade intelectual, através do Direito, da Comunicação e da Sociologia; como para questões relativas à Informação e Sociedade, pelos conteúdos de Sociologia e Ciência da Informação e Ciências Políticas; para a automação dos processos de indexação e o processamento de linguagem natural através da Linguística, da Biblioteconomia e da Ciência da Computação; para pontos relativos à gerência de informação, de recursos informacionais, de biblioteca, através dos conteúdos da Administração, da Ciência da Informação e da Biblioteconomia.


Figura 1 - Áreas limítrofes à Ciência da Informação
 
 

* Definição da equipe: Partiu-se do princípio de que a equipe de construção de um tesauro deve ser representativa da sua área. Neste caso específico, as atividades foram realizadas pelos autores. É importante observar que a construção de tesauros deve sempre prever um trabalho em equipe, constituída sempre que possível por pessoas com amplo conhecimento do campo temático, conhecimento de elaboração de tesauros e abertura para novos horizontes.  Dois alunos oriundos dos cursos de Biblioteconomia e de Ciência da Computação participaram dos processos de montagem do tesauro. Assim, a equipe formada para a geração do TCI contou então com conhecimentos oriundos da Ciência da Informação e da Ciência da Computação. Vivenciar essa interdisciplinaridade era um dos interesses do projeto desenvolvido no doutorado, permitindo que a aproximação de campos distintos do saber na solução de problemas a elas pertinentes levasse os envolvidos no processo a compartilhar não só conhecimento, mas também metodologias de trabalho que atendam às áreas envolvidas na solução.

* Eleição de tesauros já existentes na área: Esta atividade foi orientada para os objetivos de criação do tesauro e para o público que dele fará uso. Estabeleceu-se, previamente, que os tesauros eleitos deveriam ser ferramentas consolidadas pela comunidade da área de Ciência da Informação, possuir filosofia e estruturação próximas às desejadas, e que deveriam estar alinhados ao suporte teórico deste trabalho: as garantias literária, de uso e estrutural. No caso do TCI, a legitimidade na comunidade, o grau de utilização e a disponibilidade dos tesauros foram os norteadores, resultando na escolha dos tesauros da ASIS, DOCUTES, CINDOC e o do IBICT.

* Coleta dos dados: Os dados disponíveis em meio eletrônico foram colhidos diretamente da Web. Os provenientes dos tesauros ASIS e IBICT foram digitados e conferidos a partir das respectivas edições impressas. Foram criados arquivos diferentes para cada um dos tesauros, respeitando suas facetas, hierarquias e os relacionamentos entre os termos. O tesauro ASIS foi escolhido como base para o novo tesauro e assim utilizado como ponto fundamental de partida para comparações e efetivação de seus próprios termos e dos termos e relacionamentos dos demais tesauros.
A Tabela 1 mostra o número inicial de termos coletados de cada tesauro. Observa-se que alguns tesauros possuíam número maior de termos do que aqueles relacionados neste trabalho, uma vez que alguns termos foram descartados durante o processo de tradução, por não pertencerem ao universo da língua portuguesa ou serem termos específicos dos países e das culturas do tesauro original. Os termos foram separados mantendo suas hierarquias originais, conservadas à parte para a redistribuição dos mesmos.

Tabela 1 - Total de termos retirados dos tesauros

Tesauro de origem Total de termos retirados
IBICT 947
CINDOC 1145
DOCUTES 1515
ASIS 1623
Total de termos 5230
 
* Estabelecimento de políticas: Nesta etapa foram previstas as regras e normas a serem seguidas na elaboração do tesauro. Estabeleceu-se como padronização para os termos o uso da forma singular; evitou-se a utilização de termos emprestados de outras línguas com exceção daqueles que, de acordo com o senso comum, são utilizados no Brasil; foram evitados nomes próprios e de organizações; nos casos em que as siglas foram incluídas, optou-se por criar novo termo como não-descritor com o nome completo; parênteses foram utilizados para incorporar um qualificador ao descritor, mas de forma geral esta prática foi evitada.

* Tradução dos tesauros de origem: Essa tradução procurou avançar além da tradução de palavras, buscando sempre termos empregados na cultura do tesauro a ser construído e eliminando termos e relacionamentos que não agregavam valor para indexação na língua portuguesa.   Optou-se pela tradução ser feita por um autor e revisada por outro. Observou-se que a tarefa de tradução realizada por apenas uma pessoa colabora para conduzir à utilização de termos semelhantes. Sendo feita por uma só pessoa, e diferente do tradutor, a revisão favorece a escolha de um termo entre os sinônimos e facilita o encontro de termos incongruentes ao propósito da área. É interessante que a revisão da tradução seja feita por profissional que conheça a área temática do tesauro. Os termos precisam retratar a cultura da língua para a qual estão sendo levados e, principalmente, o emprego e uso dos mesmos pela comunidade científica e de usuários, respectivamente. A tradução também facilitou a verificação de termos com a mesma grafia, resultando na possibilidade de sua eliminação e de alocação dos termos nas facetas.

* Escolha das facetas do futuro tesauro: Nesta fase, a partir das facetas encontradas nos tesauros existentes e em conformidade com os objetivos do tesauro proposto, elegeram-se as facetas que iriam compor o futuro tesauro. Foi observado que esta não é uma etapa definitiva e durante as operações de junção dos termos e de estruturação do tesauro, descritas nos itens seguintes, foi necessário retomar este passo e rever as facetas eleitas. As revisões realizadas proporcionaram novos arranjos dos termos nas facetas escolhidas.

Para o novo tesauro, foram selecionadas facetas dos quatro tesauros que dele foram fontes. Em alguns casos a faceta herdou o nome original da fonte utilizada. A Tabela 2 mostra as facetas criadas no TCI e a fonte dos termos e relacionamentos para cada uma delas.

* Junção e comparação entre os termos: A atividade prevê a reunião dos termos existentes nos tesauros organizados nas facetas escolhidas anteriormente. Utilizou-se de recursos de computação, como planilhas e gerenciadores de bancos de dados, para efetivação da comparação do emprego dos termos e geração do novo tesauro. A atividade englobou os passos de reunião dos termos dos tesauros existentes nas facetas escolhidas conservando a relação hierárquica previamente existente; de análise, remanejamento e/ou eliminação de termos coincidentes e arranjo da estrutura hierárquica; de transformação de descritores em não-descritores, e vice-versa, conforme os objetivos do tesauro e de revisão da nova estrutura hierárquica.

A utilização de softwares para auxílio à estruturação de tesauros facilita este processo.  No caso do TCI, os termos foram dispostos em sua relação hierárquica em documentos textos antes de serem transpostos para outros softwares. Planilhas eletrônicas e gerenciadores de bancos de dados foram utilizados para verificação de termos coincidentes e de semelhanças de grafias.

Tabela 2 - Fontes das facetas  criadas

Faceta
Tesauro fonte
Arquivologia
CINDOC
Campos e disciplinas
ASIS, CINDOC, DOCUTES
Ciência da Informação
IBICT
Conhecimento e informação
ASIS
Documentação
ASIS, CINDOC, DOCUTES, IBICT
Fontes de Informação
DOCUTES
Informação e operações em bibliotecas
ASIS, CINDOC, DOCUTES, IBICT
Mídia Física e de comunicação
ASIS
Museologia
CINDOC
Organizações
ASIS
Pesquisa e métodos analíticos
ASIS
Pessoas, profissionais, grupos informais
ASIS, CINDOC, DOCUTES, IBICT
Tecnologia da Informação
ASIS, CINDOC, DOCUTES
Unidades de Informação
ASIS, CINDOC, IBICT
 
O emprego destes instrumentos foi fundamental para o auxílio no tratamento das palavras traduzidas, principalmente na eliminação de termos que não fazem parte da cultura brasileira, da sinonímia e da homonímia. Os termos foram inicialmente introduzidos nas facetas escolhidas e, através da utilização de listagens, os termos receberam os devidos tratamentos.

A versão acadêmica do Thesaurus Construction System version 8 (TCS-8) (WEBCHOIR, 2005) foi utilizada para a construção do tesauro a partir dos termos e das relações hierárquicas já estabelecidas. O emprego de softwares de construção de tesauros foi importante nesta etapa pela facilidade de visualização das estruturas hierárquicas, para a construção de notas de escopo e demais itens de documentação, além de agilizar o estabelecimento de relações entre os termos e sua categorização.

Na versão inicial do TCI, os 5230 termos originários dos tesauros escolhidos resultaram em 2230 termos, sendo que 292 destes eram não-descritores. Sua base maior permaneceu com o tesauro ASIS, sendo que também deste alguns termos foram eliminados tendo em vista sua pouca utilização no Brasil. Outros foram acrescentados, e novos relacionamentos foram criados. Dos tesauros DOCUTES e CINDOC foram selecionados, principalmente, os termos e os relacionamentos representativos da área de documentação e arquivologia.

Os termos foram introduzidos no software TCS-8 a partir das facetas escolhidas. A primeira análise do produto revelou que o mesmo possuía termos que necessitavam de uma redistribuição, assim como muitos outros deveriam ser utilizados como não-descritores. Seguiram-se atividades de documentação dos termos (notas de escopo) e estabelecimento dos relacionamentos, assim como eliminação de termos e reorganização destes como descritores e não-descritores.

* Estruturação do novo tesauro: As garantias literária, de uso e estrutural tornaram-se também o norte do TCI. Cada termo era revisto tendo em vista sua utilização na área. Alguns termos não conhecidos pela equipe passaram por processo de consultas a bibliografias ou informações na Web. Embora já estivesse estabelecida pelos tesauros de origem, a garantia literária precisava ser preservada, justificando estas consultas.

A organização dos conceitos foi conduzida pelo processo de indução/dedução. À medida que as relações foram sendo estruturadas, novos conceitos foram acrescentados, complementando a organização de cada faceta do futuro tesauro. De forma genérica, três tipos de relacionamentos direcionam a elaboração de tesauros: relacionamento de equivalência, hierárquico e associativo.

Cada um deles possui sua propriedade de reciprocidade. O relacionamento associativo e o de equivalência são simétricos enquanto o hierárquico é assimétrico; o que equivale a dizer que, dados dois termos A e B, se A está relacionado a B por uma associação qualquer, B também está relacionado a A pela mesma associação.  Por sua vez, se A e B são termos equivalentes, um destes termos deverá ser escolhido como descritor. O outro termo fará parte do tesauro como não-descritor através da orientação USE. Observa-se que se trata de um relacionamento simétrico com o correspondente inverso USADO PARA.  Nem sempre a relação de equivalência diz respeito à sinonímia em um tesauro, como pode ser observado no emprego de políticas como a adotada para o uso de siglas para as quais os nomes completos correspondem a elas. Muitas vezes termos não sinônimos são empregados por usuários distintos com o mesmo significante e representados no tesauro a partir destas relações.

No TCI, quando a inclusão de siglas foi necessária, foram também incluídos os termos não-descritores com seu significado. Para termos não sinônimos utilizados com o mesmo significante ou associados de alguma forma foram introduzidos relacionamentos no TCI.

O relacionamento hierárquico é uma característica básica dos tesauros distinguindo-os das demais listas de termos, glossários ou outro tipo de vocabulário controlado. Segue as regras gerais de uma hierarquia, onde um termo pode ter diversos termos a ele subordinados, mas subordina-se apenas a um único termo. Contudo, podem ocorrer casos de polihierarquia nos quais um termo poderá pertencer a facetas distintas, o que não é permitido pelo TCS-8. Quando ocorreram estes casos, utilizou-se do artifício de adicionar ao termo um asterisco (*) diferenciando-o do termo originalmente incluído. Em alguns casos, relações associativas entre esses termos foram criadas, no TCI, por exemplo, o termo 'Almanaque', pertencente ao termo genérico 'Obra de referência' da faceta 'Documentação' e o termo 'Almanaque*', pertencente ao termo genérico 'Fonte primária' da faceta 'Fontes de informação'. Um relacionamento associativo foi criado entre esses termos.

Alguns autores, entre eles BITI (2005), classificam as relações como lógicas e ontológicas. No primeiro grupo encontram-se as relações hierárquicas, sendo que as de equivalência e as partitivas (é parte de) compõem as do segundo grupo. Para esses autores, uma relação partitiva não pode ser considerada hierárquica, pois em muitos casos as partes de um objeto possuem cada qual sua própria classe (ex: biela, pistão, eixo de manivela, como partes de um motor) e em alguns outros o objeto pode ser visto como parte e também como objeto independente (ex: a Terra enquanto planeta é parte do Sistema solar, mas pode ser vista independentemente do sistema, por suas características próprias como coloração, dimensão, etc ...).  Citam também casos em que o todo não se configura como um objeto mais importante ou determinante da existência da parte, como no caso, por exemplo, de carro (todo) em relação ao motor (parte/componente) em que existe uma necessidade da parte para funcionamento do todo (BITI, 2005). No caso do TCI estes pontos não foram considerados embora haja concordância com esses autores.

* Revisão e atualização: Esta etapa garante a longevidade de um tesauro. Nela estão contidas as atividades de manutenção e atualização dos termos e de suas relações. No caso do TCI, previa-se um experimento para atualização automática a partir de palavras-chave de periódicos em língua portuguesa na área de Ciência da Informação. Além disso, o tesauro encontra-se disponível na Web, no endereço <http://www.inf.pucminas.br/ci/tci>, onde prevê-se uma interação com a comunidade usuária, objeto de estudo para futuros trabalhos na manutenção de tesauros atualizados. As atualizações deverão ser trimestrais e os termos oriundos de Moreira (2005c) farão parte de sua primeira atualização.  O TCI também será utilizado em práticas docentes de seus autores que possibilitarão sua atualização, permitindo futuros trabalhos.

O TCI foi concluído em outubro de 2005 (TCI, 2006). Possuí 1891 termos, sendo que 1694 são descritores e 197 não-descritores, e encontra-se disponibilizado na Web. A Tabela 3 apresenta o número de descritores de cada faceta.

No que se refere às garantias, preocupação inicial de todo o processo, a literária e a de uso foram herdadas dos tesauros que serviram de base ao trabalho, tendo em vista o cuidado na tradução nesse sentido. O grande desafio foi a garantia estrutural já que aspectos ligados à cultura ficaram visíveis na relação de termos. Além disso, foram reunidos tesauros criados com objetivos distintos.

Tabela 3 - Número de descritores do TCI em cada faceta

Faceta
Número de descritores
Arquivologia
85
Informação e operações em biblioteca
330
Campos e disciplinas
205
Ciência da Informação
65
Conhecimento e informação
23
Documentação
158
Fontes de Informação
123
Mídia física e de comunicação
26
Museologia
43
Organizações
17
Pesquisa e métodos analíticos
80
Pessoas, profissionais e grupos formais
64
Tecnologia da Informação
358
Unidades de Informação
117
 
6. Conclusões

Este artigo apresentou a criação de um tesauro em Ciência da Informação a partir de tesauros existentes. As facetas e os termos herdados passaram por procedimentos de análise e adaptação em diálogo com o contexto da área de Ciência da Informação no Brasil para uma melhor representação desta realidade. Nestes instantes, algumas facetas foram reunidas, outras expurgadas e de outras apenas alguns termos foram aproveitados. A condução desse processo foi sustentada pelos princípios norteadores da garantia literária, da garantia de usuário e da garantia estrutural.

A criação de tesauros não é uma tarefa fácil e nem rápida de ser executada. A metodologia empregada pode trazer ganhos de produtividade em processos semelhantes.

Nos experimentos realizados durante o trabalho de doutorado (MOREIRA, 2005), o TCI apresentou-se defasado em relação a alguns ternos. Optou-se por divulgá-lo na Web (TCI, 2006) sem os termos indicados nestes experimentos para que fosse possível à comunidade usuária avalia-lo a partir de termos e facetas extraídos unicamente de outros tesauros, criando esperas para futuros trabalhos sobre a forma de manutenção da atualidade de um tesauro.
 

Referências Bibliográficas

AITCHISON, Jean; GILCHRIST, Alan. Manual para construção de tesauros. Rio de Janeiro: BNG, 1979.

BITI - Biblioteconomia, Informação e Tecnologia da Informação. Elaboração de tesauros documentários: tutorial. Disponível em: <http://www.conexaorio.com/biti >. Acesso em: 06 mar. 2005.

BRUSCHINI, Cristina; ARDAILLON, Danielle; UNBEHAUM, Sandra G. Tesauro para estudos de gênero e sobre mulheres. 34. ed. São Paulo: Fundação Carlos Chagas, 1998.

BUSH, V. As we may think. The Atlantic Monthly, v.176, n.1, p.101-108, June 1945.

CAMPOS, Maria Luiza de Almeida. Linguagem documentária: teorias que fundamentam sua elaboração. Niterói: Ed UFF, 2001.

CHAUMIER, Jacques. Les langages documentaires: le traitement linguistique de l'information documentaire. Paris: Entreprise Moderne, 1978.

CINDOC. Tesauro en Biblioteconomía y Documentación. Disponível em: <http://www.cindoc.csic.es>. Acesso em: 01 jun. 2005.

CINTRA, A. M. M.; TÁLAMO, M. F. G. M.; LARA, M. L. G.; KOBASHI, N. Y. Para entender as linguagens documentárias. 2. ed. rev. e ampl. São Paulo: Polis, 2002.

CURRÁS, Emilia. Tesauros, linguagens terminológicas. Brasília: IBICT, 1995.

DOCUTES. Tesauro de Ciencias de la Documentación. Disponível em: <http://www3.unileon.es/dp/abd/tesauro/pagina/tesdocumentacion/docutes.htm>, Acesso em: 01 jun. 2005.

DODEBEI, Vera Lúcia Doyle. Tesauro: linguagem de representação da memória documentária. Niterói: Intertexto, 2002.

GILCHRIST, Alan. The thesaurus in retrieval. London: Aslib, 1971.

GOMES, Hagar Espanha (Org.). Manual de elaboração de tesauros monolíngues. Brasília: Programa Nacional de Bibliotecas de Instituições de Ensino Superior, 1990.

GOMES, Hagar Espanha; CAMPOS; Maria Luiza de Almeida. Tesauro e normalização terminológica: o termo como base para intercâmbio de informações. DataGramaZero - Revista de Ciência da Informação, Rio de Janeiro, v.5, n.6,  dez. 2004. Disponível em: <http://www.dgzero.org/dez04/Art_02.htm >. Acesso em: 01 jul. 2005.

GUIMARÃES, Reinaldo F. N. Pesquisa no Brasil: a reforma tardia. São Paulo Perspectiva, v.16, n.4, p.41-47, out./dez. 2002.

INSTITUTO BRASILEIRO DE INFORMAÇÃO EM CIÊNCIA E TECNOLOGIA - IBICT. Tesauro de Ciência da Informação: versão preliminar. Brasília: IBICT, 1989.

MARQUES DE JESUS, Jerocir Botelho. Tesauro: um instrumento de representação do conhecimento em sistemas de recuperação da informação. In: SEMINÁRIO NACIONAL DE BIBLIOTECAS UNIVERSITÁRIAS, 12., 2002, Recife. Disponível em: <http://www.ndc.uff.br/textostecnicos.asp> . Acesso em: 03 jul. 2004.

MIKHAILOV, A.I. Nociones generales acerca del tesauro. In: ___________, Fundamentos de la informática. Moscú, La Habana, Nauka, Academia de Ciencias de Cuba. Inst. Document. E Inf. Cientifica y Técnica, 1973, v.2, p. 397-496.

MILSTEAD, Jéssica L. ASIS thesaurus of information science and librarianship. 2. ed. New Jersey: Information Today, 1998.

MOREIRA, Manoel Palhares. Ambiente para geração e manutenção semi-automática de tesauros.  Tese (Doutorado em Ciência da Informação) - Escola de Ciência da Informação, Universidade Federal de Minas Gerais, Belo Horizonte, 2005.

MOREIRA, Manoel Palhares. MOURA, Maria Aparecida. Geração automática de tesauros: abordagem conceitual e viabilidade tecnológica.  In: ENCONTRO NACIONAL DE PESQUISA EM CIÊNCIA DA INFORMAÇÃO, 6., 2005, Florianópolis. Anais eletrônicos. Florianópolis, 2005.  1 cd-rom.

MOTTA, Dilza Fonseca. Modelo relacional como nova abordagem para a construção de tesauros. Disponível em <http://www.conexaorio.com/biti/>. Acesso em: 18 jan. 2005.

SARACEVIC, T. Evaluation of evaluation in information retrieval. In: ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL, 18., 1995. Seattle. Actas... Seattle: ACM Press, 1995. p.138-146.

SVENONIUS, Elaine. The intellectual foundation of information organization. Cambridge, MA: MIT Press, 2000.

TCI. Tesauro em Ciência da Informação. Disponível em <http://www.inf.pucminas.br/ci/tci>, Acesso em: 01 jul. 2006

VICKERY, Brian Campbell. Classification and indexing in science. 3.ed. London: Butterworths, 1975.

WEBCHOIR. The Thesaurus Construction System (TCS). Disponível em:  <http://www.webchoir.com>. Acesso em: 01 jun. 2005.
 


Sobre os autores / About the Authors:

Manoel Palhares Moreira
palhares@pucminas.br

Doutor em Ciência da Informação ECI UFMG
Professor Adjunto do Departamento Ciência da Computação - PUC/Minas
Endereço: Av. Dom José Gaspar 500 - Prédio 34 - 30353-901 - Belo Horizonte - Brasil


Maria Aparecida Moura
mamoura@eci.ufmg.br

Doutora em Comunicação e Semiótica pela PUC/SP
Professora Adjunta da Escola de Ciência da Informação - UFMG
Endereço: Av. Antonio Carlos 6627 - Belo Horizonte - 31270-010