Notícias
Educação aberta: avaliação de qualidade de recursos ajudará alunos
Graduado em ciências da computação pela Universidade Estadual de Maringá (UEM), Murilo Gazzola é mestre pelo Instituto de Ciências Matemáticas e de Computação (ICMC) da Universidade de São Paulo (USP), doutorando pela mesma instituição e integrante do Núcleo Interinstitucional de Linguística Computacional (NILC).
Fale um pouco sobre o seu trabalho.
Minha pesquisa de doutorado trata da avaliação automática da qualidade de recursos educacionais, de acesso aberto, usando técnicas de processamento de línguas naturais. Um tema transversal entre diversas áreas das ciências, incluindo educação, processamento de linguagem natural (PLN) e ciência da computação.
Nosso trabalho possibilitará trazer uma outra visão para alunos, professores e pesquisadores dos textos/resumos divulgados na internet, com licenças abertas. Vamos avaliar a complexidade textual desses produtos educacionais (ou sua dificuldade de leitura) para permitir a escolha mais adequada para um público-alvo, seja em sala de aula ou em uma pesquisa.
Como se deu seu interesse em trabalhar com o assunto?
O interesse em trabalhar com avaliação da complexidade de textos se deu pelo grande impacto que essa pesquisa pode ter na sociedade brasileira. Como pode ser visto no Relatório de 2018 do Indicador de Alfabetismo Funcional (INAF), a porcentagem de pessoas com nível de alfabetismo rudimentar e elementar era de 22% e 34%, respectivamente. Isso mostra que o Brasil possui um grande número de pessoas com baixo letramento.
Qual o objetivo da sua pesquisa?
Avaliar a complexidade de textos do Português do Brasil, usando técnicas de PLN, aprendizado de máquina tradicional e até mesmo aprendizado de máquina profundo (
Deep Learning
).
Qual diferença entre o aprendizado de máquina tradicional e profunda?
No aprendizado de máquina tradicional, para a tarefa de avaliação da complexidade de textos, por exemplo, precisamos extrair as features (ou métricas) como tamanho de sentenças, número de orações relativas, número de orações na voz passiva, frequência das palavras em grandes corpus de uma língua, dentre outras que impactam na complexidade de um texto. Já no aprendizado de máquina profundo, para cada palavra de uma oração podemos usar
word embeddings
(representação de palavras) previamente treinados em grandes corpus, trazendo implicitamente várias características das palavras de um texto; eles são vetores numéricos.
Qual a importância do seu trabalho para a realidade brasileira?
Nesta área de pesquisa, o Brasil está muito atrás de pesquisas em países como os EUA, dada a carência de grandes corpus de textos públicos para avaliar este tema. Essa pesquisa poderá ajudar diversas áreas na realidade brasileira, como a educação nas plataformas abertas do MEC-RED, o que possibilitaria, futuramente, uma avaliação automática de materiais e sua complexidade textual, antes de serem reutilizados em seus contextos ou até mesmo nas próximas republicações.
O que ele traz de diferente daquilo que já é visto na literatura?
Nenhum trabalho correlato trouxe uma abordagem similar e objetiva na avaliação de textos de licenças abertas e que trabalhassem com um grande conjunto de features. Também, nenhum dos trabalhos, até então, criaram corpus para o Português do Brasil, para trabalhar a complexidade textual. O trabalho com as transcrições também é inovador, pois trata de fala espontânea, que é diferente de textos escritos da Plataforma MEC-RED, trazendo interpretações automáticas para a fala de adolescentes. Isso vai agilizar as pesquisas dos estudantes e professores da Unifesp.
Qual a importância do apoio da CAPES?
O papel da CAPES foi fundamental, pois dessa forma consegui aprofundar meus conhecimentos em PLN e aplicá-los em outros contextos que pudessem auxiliar as pessoas, como Checkcorona, um robô virtual que está ajudando muitas pessoas nessa pandemia, sendo reconhecido, inclusive, por plataforma da ONU.
(Brasília – Redação CCS/CAPES)
A reprodução das notícias é autorizada desde que contenha a assinatura CCS/CAPES