quinta-feira, 3 de julho de 2008

lídeu?

"bóeu, géiseu, cadáveu, hambúrgueu, lídeu, repórteu e por último revólveu" são algumas das palavras que o Myspell/Ispell/Aspell6 têm, sugerem, e dão como certas, mas estão erradas. Existe um pequeno programa do Ispell (munchlist) com o intuito de reduzir o tamanho do dicionário, juntando lemas duplicados, e aplicando novas regras de afixação.

Não parece muito fiável, pelo que vai ser sair, e por enquanto é substituído por nada. Tenho fé que o Myspell aceite lemas duplicados. As entradas estão duplicadas porque estes são gerados dicionários que possuiem classificação morfológica.

As regras P (-lo's) e L (-lhe's) vão desaparecer do ispell/aspell6 já que não as usam. O Myspell também não, mas o dicionário pode ser usado pelo Hunspell, pelo que não é alterado.

sábado, 14 de junho de 2008

As saquetas ou saquetes do arroz

Trazendo à baila um tópico que lia sobre o uso de saquet[ea]s de arroz na Polónia, reparei que "saqueta" não está definida dicionário, nem nos dicionários de definições à mão. A palavra correcta é "saquete", contudo a palavra "saquete" é extremamente mais rara que o uso de "saqueta" ou "saquetas", que ortograficamente está incorrecta, mas que pronunciada soa melhor que a primeira. (saquete = saco pequeno).

sexta-feira, 6 de junho de 2008

Acordo Ortográfico

"Eliminação de cês e pês não pronunciados em palavras como director, acção, protecção, baptismo, adoptar e excepção, as quais passam a escrever-se diretor, ação, proteção, batismo, adotar e exceção."

Li algo semelhante naquele livro pequenino que resume as alterações do acordo. O problema é que só refere que desaparece as que não são pronunciados. Não diz que fazer com as palavras que as pessoas ainda pronunciam. E se pronunciar? Permanecem?

A infopédia lançou ontem o dicionário de definições para português já com o acordo. Diz que concepção passa a conceção. Daqui surge uma nova confusão com concessão. Suponho que todos o s cês e pês desaparecem. As palavras anteriores passam a "deprecated"?

domingo, 30 de março de 2008

Os tentáculos dos *spell Natura

É complicado saber até onde chega todo o tipo de recursos dicionarísticos do projecto Natura. Por vezes tenho de googlar para descobrir surpresas.

O projecto tem listas de palavras morfologicamente anotados, para o português (de Portugal), latim, espanhol, inglês, alguns estão divididos semanticamente. Outros possuem relações hierárquicas e todo o tipo de classificações que se acha útil para algum outro projecto. O objectivo do projecto não é propriamente distribuir dicionários para correcção ortográfica.

Alguns formatos do dicionário para correcção ortográfica e aplicações que os usam.
  • Jspell (1994) - Usado no analisador morfológico Jspell, e o WebJspell (via Lingua::Jspell (perl)). Isto é uma ferramenta desenvolvida na casa. (JJ e Ulisses).
  • Ispell - Usado pelo Ispell, VIM, Emacs.
  • Aspell - Usado pelo Ispell, VIM, Emacs, algumas aplicação de IM. Temos 3 versões (versão 0.5 (pt_PT), versão 0.5 (PT-BR), versão 0.6 (pt_PT).
  • Hunspell - Usado pelo Hunspell, e o analisador morfológico hunmorph, Openoffice 2.X, Firefox 3, Thunderbird 3... Falta mapear o conteúdo morfológico (jspell style) para o estilo do hunmorph.
  • Myspell - Usado por versões antigas dos programas anteriores.
Outros recursos são produzidos para além dos *spell, mas oportunamente posso referi-los. Se conhecerem outras aplicações, refiram nos comentários.

Em questão de licenças, está-se a tentar ultimamente que todos tenham as licenças GPL/LGPL/MPL. As ferramentas, e dicionários estão disponíveis no SVN.

Vindo do sem fim

Algumas coisas estão ultrapassadas, mas está do dentro do tema:

Opinião sobre os dicionários OOBR (10/2006) - link
2ª Opinião sobre os dicionários OOBR (3/2007) - link
Tabelas de conjugação verbal a partir do Jspell (5/2007) - link
WebJspell (7/2007) - link
Aula de português na Polónia (10/2007) - link
Opinião sobre o Acordo Ortográfico (10/2007) - link
2ª Opinião sobre o Acordo Ortográfico (3/2008) - link

Não quero dar ideia que este blog que se enquadra nos tópicos acima, mas queria focar-me mais nos permenores do desenvolvimento e anúncios.

A começar !

Assim se dá início a um blogue só sobre este tema. Sugestões para este espaço precisam-se.