Frequenza, lunghezza e omonimia. Un’analisi degli omonimi nel vocabolario di base italiano


Abstract - My aim in this paper is to explore the relationship between word frequency, word length, and homonymy, through an analysis of the about 7,000 highest frequency lexemes that constitute the basic vocabulary in Italian (Vocabolario di Base, VDB). Data confirm that the development of homonymy is strongly related to word length: both in the overall lexicon and within VDB, word forms that are involved in homonymy are shorter than those that are not. At the same time, a strong correlation arises between word frequency and homonymy, since VDB lexemes are involved in homonymy to a greater extent than others: the percentage of lexemes whose forms have homonyms is much higher for the VDB (55%) than for less frequent lexemes (in the range of 10%-24%). Word length and word frequency seem to behave as two independent variables in favoring homonymy: the frequency being equal, shorter words have more homonyms; and the length being equal, more frequent words have more homonyms. This finding seems to support the hypothesis that the richness of homonymy in high frequency lexicon is not only due to the shortness of these words (i.e., the fact that the shorter the word, the more likely it is to find another word of accidentally the same form), but to an organization principle of language – that is, given the disambiguating power of context, language might assign a greater amount of ambiguity to words that are easiest to process, i.e. shorter and more frequent words.

Abstract - In questo lavoro mi propongo di indagare la relazione tra lunghezza e frequenza delle parole da un lato e sviluppo di omonimie dall’altro, tramite un’analisi del vocabolario di base (VDB) italiano. I dati confermano che la lunghezza è cruciale per lo sviluppo di omonimie: sia nel lessico complessivo che all’interno del VDB, le forme coinvolte in omonimie sono più brevi di quelle che non hanno omonimi. Allo stesso tempo emerge una forte relazione tra frequenza e omonimia, poiché i lessemi del VDB risultano coinvolti in omonimie in misura molto maggiore rispetto a quelli di tutte le altre fasce d’uso: la percentuale di lessemi le cui forme hanno omonimi è del 55% nel VDB, mentre nelle altre fasce d’uso oscilla tra il 10% e il 24%. Frequenza e lunghezza sembrano agire come variabili indipendenti nel favorire l’omonimia: a parità di frequenza le parole più brevi hanno più omonimi e a parità di lunghezza le parole più frequenti hanno più omonimi. Questo risultato è coerente con l’ipotesi secondo cui la ricchezza di omonimie nel lessico di alta frequenza delle lingue si spiega non solo con la brevità delle forme in questione (cioè con il fatto, del tutto accidentale, che queste trovano più facilmente degli omonimi), ma con un principio di organizzazione del codice linguistico; cioè con il fatto che, data la capacità disambiguante del contesto, le lingue sfruttino la possibilità di assegnare un maggior carico di ambiguità alle forme lessicali le cui caratteristiche ne facilitano l’elaborazione, ovvero quelle più brevi e di maggior frequenza.

DOI Code: 10.1285/i22390359v19p61

Keywords: Homonymy; Word frequency; Word length; Lexical semantics; Statistical linguistics


