Vocabulário Ortográfico Comum da Língua Portuguesa

Página Inicial

O Vocabulário Ortográfico Comum da Língua Portuguesa (VOC) é o recurso oficial de referência para a escrita do português. Permite conhecer a grafia, a divisão silábica, a flexão e outras propriedades formais de cada palavra do português nos diferentes países da Comunidade dos Países de Língua Portuguesa (CPLP), que o integrou formalmente no seu património em 2014, durante a X Cimeira dos Chefes de Estado e de Governo, em Díli, após apresentação na sede da Comunidade (2012) e na II Conferência Internacional sobre o Futuro da Língua Portuguesa no Plano Mundial, em Lisboa (2013).

O VOC é gerido pelo Instituto Internacional da Língua Portuguesa (IILP), a instituição da CPLP para a política linguística, e conta com a colaboração de um vasto corpo de especialistas de diferentes países. Ao longo da sua execução, iniciada em 2010 por recomendação do Plano de Ação de Brasília, o VOC foi organizado e desenhado a nível metodológico por uma Equipa Central com que se articularam diferentes grupos de especialistas: equipas nacionais nomeadas pelos seus governos construíram e validaram os dados de cada país, ao mesmo tempo que um Corpo Internacional de Consultores discutia os critérios ortográficos e lexicográficos comuns a seguir na obra, consubstanciado na Sistematização das Regras de Escrita do Português aprovada pelos representantes políticos dos diferentes países no Conselho Científico do IILP em 2016. As informações foram conferidas e validadas centralmente por equipas de apoio à Equipa Central que, em áreas específicas, contaram com o parecer de consultores temáticos.

O trabalho simultâneo por equipas em diferentes países foi possibilitado pelo uso de um sistema colaborativo virtual em nuvem alojado em diferentes servidores, criado a partir do modelo de representação lexical OSLIN e de uma adaptação do código-fonte e das ferramentas lexicográficas de gestão do Portal da Língua Portuguesa, da Universidade de Coimbra, que alberga os instrumentos oficiais para a ortografia em Portugal.

Apesar de ser um instrumento uno, um único vocabulário, o VOC procura representar o léxico em uso em cada país e as suas especificidades. Seguindo uma metodologia comum e princípios compatíveis, uma instituição nomeada em cada país cria e gere o vocabulário nacional (VON) representativo da sua variedade, que quando inserido na base de dados do VOC permite gerar um todo único (o VOC) que consolida tanto o léxico comum quanto as especificidades de cada país. O inventário de formas validadas para cada país pode ser consultado clicando na sua bandeira; o todo pode ser obtido através do logo do IILP.

O VOC tem diferentes partes constituintes:

  • a Memória Lexicográfica do Português é um conjunto comparável de entradas das tradições lexicográficas portuguesa e brasileira, cada um com mais de 180 000 entradas obtidas a partir dos vocabulários ortográficos de referência nos dois países;
  • os VON foram construídos a partir de corpora equilibrados comparáveis com um objetivo de 30 milhões de átomos / tokens para cada país, permitindo validar um mínimo de 35 000 entradas do léxico comum para cada VON e identificar, também com recurso a fontes de consulta identificadas na página de cada recurso, formas específicas ainda não registadas lexicograficamente em uso na escrita; em cada caso, as entradas representativas de cada país foram validadas manualmente pelos especialistas nacionais usando a mesma plataforma e critérios lexicográficos e ortográficos comuns;
  • o Vocabulário Toponímico contém mais de 70 000 topónimos (nomes de lugar), incluindo todos aqueles que possuem relevância administrativa nos países participantes; os topónimos mais relevantes fora do espaço da CPLP, como os nomes de países e suas capitais, estão igualmente atestados; este vocabulário de especialidade foi elaborado com recurso a fontes oficiais de cada país ou de organizações internacionais, cujos dados foram posteriormente inseridos numa estrutura de dados relacional e harmonizados segundo critérios comuns;
  • o Dicionário de Formas não Adaptadas contém uma extensa relação de formas provindas de outras línguas que são usadas na escrita do português na sua forma original, com relações grafema-fonema ou sequências inconformes com a fonologia de base do português; para cada uma, sempre que existentes, são indicadas as formas adaptadas atestadas, equivalentes e o seu domínio de especialidade, segundo a taxonomia de áreas do conhecimento do CNPq;

A primeira edição dos dados do VOC, lançada em maio de 2017 na sede do Instituto Internacional da Língua Portuguesa, na Cidade da Praia, capital de Cabo Verde, contempla mais de 300 000 entradas com indicação de classe gramatical, divisão silábica, sílaba tónica e formas flexionadas, cada uma adequada aos mesmos critérios ortográficos e lexicográficos. Nos casos em que uma dada forma esteja atestada diretamente nos dados de um país, aparece no vocabulário correspondente com um quadrado azul cheio; nos casos em que não esteja atestada para esse país mas nada desaconselhe ao seu uso, é mostrada sem esse símbolo; nos casos em que uma palavra não seja representativa do léxico em uso de um país, não será mostrada nesse VON específico. A versão disponível sob o logo do IILP contém todas as entradas do VOC.

Os dados do VOC estão em constante revisão pelas equipas nacionais e pela Equipa do Projeto VOC, que trabalha na Sede da CPLP, em Lisboa, sob coordenação de um Conselho de Especialistas nomeados pelos governos dos diferentes países. O VOC incluirá a possibilidade de enviar comentários e sugestões e de transferir os dados em diferentes formatos, bem como a marcação de formas alteradas.

Para uma descrição mais detalhada dos princípios orientadores do projeto, da metodologia seguida e das fases de desenvolvimento do VOC, podem ser consultados, entre outros, os seguintes textos:

  • Ferreira, J. P.; Janssen, M; Almeida, G. B; Correia, M.; Oliveira, G. M. (2012). "The Common Orthographic Vocabulary of the Portuguese Language: a set of open lexical resources for a pluricentric language". In Calzolari, N. et al. (Orgs.). Proceedings of the Eight International Conference on Language Resources and Evaluation. Istanbul: European Language Resources Association.
  • Almeida, G. B; Ferreira, J. P.; Correia, M.; Oliveira, G. M. (2013). "Vocabulário Ortográfico Comum (VOC): constituição de uma base lexical para a língua portuguesa". Revista de Estudos Linguísticos, 42 (1), p. 204-215.
  • Ferreira, J. P.; Almeida, G. B.; Correia, M. (2012). "O uso de corpora para a constituição de recursos lexicográficos de referência: o caso do VOC". Platô, Revista do Instituto Internacional da Língua Portuguesa, 2 (3), pp 38-55.
  • Ferreira, J. P.; Correia, M.; Almeida, G. B. (2011). "The Common Orthographic Vocabulary of the Portuguese Language: web-based lexicography as a solution to an old problem". Resumo em Proceedings of ELex 2011.

Como citar esta obra:
Ferreira, José Pedro; Correia, Margarita; Almeida, Gladis de Barcellos (orgs.) Vocabulário Ortográfico Comum da Língua Portuguesa. Praia: Instituto Internacional da Língua Portuguesa / Comunidade dos Países de Língua Portuguesa.