TEXTract

TEXTract

24/10/2017 Ferramentas 0

O TEXTract é uma ferramenta criada para auxiliar a extração de uma série de palavras dentro de arquivos de texto e exportar os resultados para uma planilha do Excel.

Breve história

Ao ver que minha esposa, que cursa doutorado em linguística, precisaria ler vários textos ou fazer várias buscas com um editor para procurar algumas palavras de seu interesse, notei que ela tinha um grande problema nas mãos. A série de palavras é: se, o, a, os, as, me, lo, la, los, las, no, na, nos, nas, lhe, lhes, te e vos. Além desta insana busca por palavras, muitas deveriam ser descartadas de acordo com sua classificação sintática. Daí, como sei que:

  • Mesmo com atenção, algumas destas palavras passariam despercebidas;
  • No caso de utilizar um editor de textos para as buscas, estas palavras seriam encontradas como partículas de outras palavras;
  • Seria necessário extrair cada trecho contendo a palavra e enviar para o Excel.

Resolvi criar um aplicativo para ajudar a automatizar este processo de busca. Já para o caso da classificação sintática, criei um mecanismo de checkboxes que poderão ser marcados ou desmarcados para constarem ou não na exportação.

Como baixar

Existe um link no final deste post. Clique sobre ele para fazer o download do arquivo. Caso o navegador pergunte se deseja manter o arquivo, escolha manter.

Agora abra o arquivo e copie seu conteúdo para uma nova pasta. O resultado será semelhante a este:

Utilizando o TEXTract

Para utilizá-lo, será necessário:

  1. copiar os textos a serem analisados na pasta corpus. Para exemplificar, coloquei um poema de Gonçalves Dias:

    Não há limite para a quantidade de arquivos, apenas é bom lembrar que a quantidade e tamanho dos arquivos afeta a performance do aplicativo. Recomendo que só deixe nesta pasta os arquivos com extensão .txt (tipo Documento de Texto);
  2. Depois que os textos estiverem na pasta, abra o aplicativo, clicando duas vezes sobre ele. A seguinte tela será exibida:
  3. No campo “Procurar pelos tokens“, digite as palavras que deverão ser extraídas. Para o nosso exemplo, suponhamos que minha necessidade seja encontrar as palavras: de, da, das, do e dos. Então deveremos digitar tais palavras separadas por vírgula e sem espaçamentos, dessa forma: “de,da,das,do,dos“. Neste estágio, o aplicativo não está identificando se há repetições de tokens no campo, então evite que isso ocorra para não gerar resultados adversos;
    Neste aplicativo, um token é uma cadeia de caracteres alfabéticos, delimitados por quaisquer outros tipos de caracteres.
  4. Com o arquivo de texto dentro da pasta corpus e com o campo contendo os tokens a serem buscados preenchido, clique no botão Processar Arquivos;
    Após a busca, é exibida uma tabela com as seguintes informações:

    1. Arquivo: nome do arquivo processado, contido na pasta corpus;
    2. # Token: número do token dentro do texto;
    3. # Linha: posição da linha dentro do texto;
    4. # Palavra: posição do token dentro da linha;
    5. Palavra: o token que foi localizado;
    6. Linha: a linha de texto, com o token localizado destacado entre chaves.
  5. Após a extração, deixe marcados somente as linhas das tabelas que deverão ser exportadas. Após realizar as alterações, clique sobre o botão Salvar Alterações para gravar as informações. Para exemplificar, foram selecionadas somente as palavras que não continham letras maiúsculas:
  6. Pronto! Suas alterações foram salvas.

Arquivo “projeto.ini”

Toda vez que o projeto é salvo, o arquivo projeto.ini é atualizado com os números dos tokens (# Token) que estão marcados na tabela.

Importante: caso um arquivo seja editado após salvar as alterações, provavelmente a marcação feita no aplicativo será afetada. Caso queira acrescentar novos textos, crie novos arquivos na pasta corpus. Se um arquivo realmente precisar ser editado, recomendo que abra o arquivo projeto.ini e apague a linha referente ao nome daquele arquivo.

Download

Clique no link abaixo para fazer o download do arquivo:

 

Leave a Reply

Your email address will not be published. Required fields are marked *