Função de limpeza padrão

Essa função denominamos de padrão em NLP, algumas funções estabelecidas são:

  1. Transformação para caracter minúsculos

    Antes: Tiver problemas ao acessar o gov.br no dia 14/05/2016.

    Depôs: tiver problemas ao acessar o gov.br no dia 14/05/2016.

  2. Remoção de pontuação.

    Antes: Tiver problemas ao acessar o gov.br no dia 14/05/2016.

    Depôs: tiver problemas ao acessar o gov.br no dia 14/05/2016

  3. Remoção de stopword.

    Antes: Tiver problemas ao acessar o gov.br no dia 14/05/2016

    Depôs: problemas acessar o gov.br dia 14/05/2016

Essas funções padrão são aplicadas com o intuito de reduzir algumas informações que não seriam necessária para o modelo.

Após esse processo retomando o que sabemos em relação aos dados estava muito comum a presença de URL e Data nos pedidos, uma alternativa é padronizar no texto substituindo um URL pela tag SITE e uma data pela tag DATA isso ajuda ao modelo considerando que ambas as informações podem assumir infinitos valores, mas antes de definir essa atividade iremos observar a presenta dessas informações nos dados.

Presença de URL nos pedidos e resposta

Observamos ser pouco o número de pedidos que possuem alguma (URL) de site para a solicitação.

Já para as respostas observamos que temos um aumento significativo de URL presentes.

Presença de Data nos pedidos e resposta

Datas está mais presente nos pedidos que as (URL).

Observamos um aumento significativo de presença de Data nas respostas dos órgãos.

Refinamento da função de limpeza de texto

Considerando as análises acima podemos considerar como uma tentativa a substituição de data e url por suas respectivas tags, portanto teríamos algo como:

  1. Substituição de determinada URL pela tag SITE.

    Antes: Tiver problemas ao acessar o gov.br no dia 14/05/2016

    Depôs: problemas acessar o site dia 14/05/2016

  2. Substituição de determinada data pela tag DATA.

    Antes: Tiver problemas ao acessar o gov.br no dia 14/05/2016

    Depôs: problemas acessar o site dia data

Portanto, nossa função de limpeza de texto preliminar fica sendo:

Consideramos como função preliminar porque iremos analisar o comportamento dela em relação aos modelos gerados, portanto, podo ocorrer substituição.