Notas | 30 JUL 2020

Ceweb.br integra projeto para desenvolvimento de código para classificação de discursos na Internet

Convite é para que a comunidade técnica examine o código e contribua com seu desenvolvimento. Projeto foi desenvolvido em parceria com a PUC/SP e a Queen Mary University of London

O Centro de Estudos sobre Tecnologias Web (Ceweb.br) do Núcleo de Informação e Coordenação do Ponto BR (NIC.br), em parceria com a Pontifícia Universidade de São Paulo (PUC) e Queen Mary University of London, está desenvolvendo um projeto de pesquisa para a categorização de discursos de ódio na Internet. Ainda em fase de inicial, o código está disponível para domínio público e alocado na plataforma GitHub (https://github.com/cewebbr/Bert_HateSpeech_Classification). Qualquer participante da comunidade técnica e científica pode acessar o conteúdo e contribuir para o seu desenvolvimento.

Segundo Diogo Cortiz, especialista do Ceweb.br e um dos desenvolvedores do código, o projeto utilizou como base um modelo de processamento de linguagem natural, no qual o código foi parametrizado com um conjunto de sentenças para a detecção do discurso de ódio na Internet. “Com isso, o algoritmo consegue identificar possíveis sentenças que possam conter algum tipo de violação ou ofensas, como racismo, intolerância religiosa ou xenofobia. Entendemos que essa é uma área extremamente sensível e temos clareza que devemos acima de tudo defender princípios democráticos como liberdade de expressão, diversidade, privacidade, universalidade e neutralidade na rede. Esta pesquisa não tem como como objetivo gerar mecanismos de retirada automática de conteúdo ou para investigações, mas apenas explorar as potencialidades da Inteligência Artificial no uso da linguagem natural nas redes sociais como dados para categorizar diferentes tipos de discursos”, diz Cortiz.

“Acreditamos que, em um momento em que a Web é uma das principais plataformas de veiculação de informação, expressão e comunicação e que, por meio das redes sociais, milhões de pessoas expõem suas opiniões a respeito de diversos assuntos, o código será um importante aliado para melhor compreender as informações que fluem na grande rede mundial de computadores. Ainda não sabemos se esse algoritmo em que estamos trabalhando compartilha de características como equidade, confiabilidade e segurança, obrigatórias em quaisquer algoritmos de Inteligência Artificial. É por isso que convocamos a comunidade de pesquisadores e desenvolvedores a se juntar a nós no desenvolvimento desse código. Garantiremos assim que o algoritmo seja aberto e transparente o suficiente para informar como ele chega a conclusões. Assim também esperamos poder dizer que ele é seguro e respeita a privacidade”, acrescenta Vagner Diniz, Gerente do Ceweb.br.

Interessados em acessar e/ou contribuir com o aprimoramento do código, devem acessá-lo no endereço: https://github.com/cewebbr/Bert_HateSpeech_Classification. É importante enfatizar que o código não é uma ferramenta pronta para utilização. Ainda estão previstas atividades de validação do modelo, implementação de ferramentas adicionais na explicação do modelo e na geração de um novo corpus de dados.