Notas |
15 JUL 2020
Modelo de Machine Learning que auxilia na detecção de potenciais discursos de ódio nas redes sociais
O Ceweb.br torna público o código de implementação de um modelo de Machine Learning que auxilia na detecção de potenciais discursos de ódio nas redes sociais. Este projeto está sendo realizado em parceira com o laboratório de ciências cognitivas da Queen Mary University of London e implementa as técnicas consideradas estado da arte na área de processamento de linguagem natural. Este código implementa um modelo, da arquitetura BERT, pré-treinado em PT-BR e um treinamento para o ajuste fino (fine-tuning) para a tarefa específica de classificação de sentenças de discurso de ódio. Foi utilizado, como base de treinamento, o corpus publicado por Fortuna, P., Rocha Da Silva, J., Soler-Company, J., Wanner, L., & Nunes, S. (2019). A Hierarchically-Labeled Portuguese Hate Speech Dataset.
Destacamos que este projeto de natureza científica está em sua fase inicial de execução. O código não deve ser considerado uma ferramenta pronta para utilização. Optamos pela sua liberação com o objetivo de compartilhar conhecimento com a comunidade técnica e científica interessada na área de processamento de linguagem natural. Ainda estão previstas atividades de validação do modelo, implementação de ferramentas de explicação do modelo e geração de um novo corpus de dados.
https://github.com/cewebbr/Bert_HateSpeech_Classification