COGROO - UM CORRETOR GRAMATICAL PARA A LÍNGUA PORTUGUESA ACOPLÁVEL AO OPENOFFICE
Objetivo Geral:
Desenvolvimento de um protótipo de um corretor gramatical para o português do Brasil, acoplável ao pacote livre de escritório OpenOffice, o qual será disponibilizado como software livre. A tarefa principal deste corretor é detectar desvios gramaticais cometidos pelo usuário, tais como erros de concordância nominal ou verbal, regência verbal ou nominal, pontuação, etc.
Justificativa:
A ferramenta OpenOffice vem sendo amplamente adotada por um número crescente de usuários individuais e corporativos. Trata-se de um pacote para escritório, composto de: processador de texto, planilha de cálculos, editor HTML, editor vetorial e editor de apresentação. O OpenOffice é um projeto de código aberto e multi-plataforma, ou seja, pode ser executado em diferentes sistemas operacionais, como Windows, Linux, Solaris, etc. Analisando suas funcionalidades, observa-se que elas são comparáveis às de alguns pacotes não livres (proprietários) de escritório bem conhecidos, como o Microsoft Office. A popularização do uso da ferramenta deve-se a dois fatores principais: custo, quase zero pois é um software livre e a sua qualidade. Apesar da boa aceitação do OO, seus usuários reclamam da falta de um módulo de correção gramatical para a língua Portuguesa acoplado à ferramenta. Este recurso já existe nos equivalentes proprietários, sendo de grande valia na construção de textos das mais diversas áreas de conhecimento. Como exemplo de abrangência no uso desta ferramenta, pode-se citar a forte adoção pela máquina pública nacional. O administrador de TI de um dos tribunais de contas citou, na recente "Semana de Software Livre do Legislativo" (agosto/2003, Brasília), que um corretor gramatical associado ao OpenOffice era uma das mais importantes necessidades deles, relacionada à migração para software livre de seu parque computacional. Com base numa análise do contexto político-econômico, esta será a realidade em muitas outras empresas públicas, visto que o atual governo federal está incentivando fortemente a adoção de software livre onde este vier a oferecer solução compatível com suas necessidades. Com este panorama de incentivo à migração para software livre, o objeto desta proposta - um corretor gramatical acoplável ao OpenOffice - é de muita valia para o uso efetivo deste pacote, especialmente na produção de textos em português do Brasil.
Resultados Esperados:
Com a implementação deste projeto espera-se obter um corretor gramatical para a língua Portuguesa que atenda aos seguintes requisitos:
Identificação de erros de concordância nominal (gênero e número)
Identificação de erros de concordância verbal (número e pessoa).
Identificação de erros de pontuação.
Suporte ao tratamento de crase
Taxa de erros (falsos negativos e falsos positivos) aceitável. Será considerado aceitável até trinta por cento de divergência com um corretor gramatical proprietário (Microsoft Office).
Objetivos Específicos (Metas Físicas) do Projeto:
Obter um etiquetador para Português Moderno
Construir um sistema de regras gramaticais
Integração do etiquetador e sistema de regras no módulo de correção gramatical
Acoplamento do corretor gramatical à ferramenta OpenOffice
Testes do produto
Construção e manutenção do site do projeto
Participantes do Projeto:
Dr. JORGE KINOSHITA (Coordenador)
PROCESSAMENTO DE LINGUAGENS NATURAIS
Dra. LAÍS DO NASCIMENTO SALVADOR (Pesquisadora)
LINGUAGENS FORMAIS E AUTÔMATOS - PROGRAMAÇÃO PARALELA
Msc. CARLOS EDUARDO DANTAS DE MENEZES (Pesquisador)
PROCESSAMENTO DE LINGUAGENS NATURAIS
Msc. JOSÉ FONTEBASSO NETO (Consultor)
PROCESSAMENTO DE LINGUAGENS NATURAIS
Participantes ainda não designados:
1 Consultor na área de Lingüística
4 Estagiários
3 Consultores na área de Desenvolvimento de software
1 Consultor na área de Processamento de Linguagens Naturais
2 Beta-testers
Atividades a serem desenvolvidas pelos estagiários
As atividades designadas aos estagiários, supervisionadas pelos pesquisadores /consultores, estão relacionadas ao desenvolvimento de páginas Web e de programas. Estas tarefas foram planejadas para o cumprimento das metas físicas 4 e 6:Acoplamento do corretor gramatical ao OpenOffice e Construção e Manutenção do site do projeto.
Segue uma lista com as principais atividades a serem desenvolvidas pela equipe de estagiários:
Construção de scripts CGI para upload de documentos e gerenciamento de versão
Manutenção do site do projeto
Estudo de como construir módulos para OpenOffice
Criação de um simples módulo do OpenOffice que recebe um texto, etiqueta e grifa apenas os substantivos.
Estudo de como converter scripts Perl para programas C++ com o objetivo de incorporar o protótipo no módulo OpenOffice
Conversão de scripts Perl para um módulo em C++ e incorporação do mesmo no pacote OpenOffice