Storia dei territori amministrativi
Classi di equivalenza delle denominazioni

La normalizzazione delle denominazioni

1. Introduzione

I cambi di denominazione sono un fenomeno interessante dal punto di vista storico informatico in quanto da una parte rispecchiano variazioni nel linguaggio e nell'uso, e dall'altra aprono il problema del riconoscimento (semi)automatico dei nomi da repertori d'epoca.

Ovviamente il cambio di denominazione vero e proprio dovuto a eventi storicamente significativi è un problema squisitamente storico: individuare che Bononia evolve in Bologna è di interesse storico-linguistico, ricostruire che Piandicastello diventa Mercatino Conca richiede un'analisi documentale di tipo storico.

Esistono infine quasi-sinonimi dovuti semplicemente a un uso non standardizzato. Si scrive Sant'Arcangelo o Santarcangelo? Il termine preferito è Reggio, Reggio Emilia o Reggio nell'Emilia? Queste domande e altre analoghe ci indicano che sarebbe utile sviluppare metodi per risolvere senza interventi manuali piccole modifiche di questo tipo.

Nei prossimi paragrafi cercheremo di proporre alcuni principi per facilitare l'individuazione automatica di toponimi sulla base di scritture alternative. In particolare distingueremo tre situazioni principali:

  1. Omografie
  2. Equivalenze
  3. Cambi di denominazione

2. Aspetti preliminari

Lo scopo di questo documento è quello di proporre sistemi di denominazioni che ne permettano il confronto automatico o semiautomatico con un minimo intervento manuale. L'individuazione del fatto che due denominazioni siano nella stessa classe dovrebbe implicare una maggiore probabilità che entrambe facciano riferimento allo stesso toponimo. Ovviamente rimane sempre un margine di dubbio che sarebbe bene individuare in maniera precisa, utilizzando per esempio criteri statistici.

2.1 Limitazioni applicate a questo documento

Un aspetto da evidenziare subito è che i criteri di equivalenza possono essere dipendenti o indipendenti dalla lingua di uso. Infatti, come vedremo, alcuni criteri sono fortemente legati alla lingua, altri dipendono solo dalle convenzioni del sistema di scrittura in uso. Nel seguito ipotizzeremo che il sistema di scrittura sia il latino moderno, mentre per le lingue faremo riferimento principalmente a caratteristiche dell'italiano con qualche esempio tedesco e francese per evidenziare i diversi comportamenti nei vari sistemi.

2.2 Caratteri considerati nelle denominazioni

Dal punto di vista tecnico informatico, verranno prese in considerazione tutte le possibili denominazioni espresse in Unicode attraverso l'utilizzo dello script Latin:

mentre non sono stati considerati i caratteri latini presenti nelle Presentation forms e in alcuni contesti di script non latini:

(anche se, come vedremo, le regole di seguito descritte permetterebbero di includere anche questi script).

Non verranno considerate tutte le tipologie di caratteri Unicode, in quanto alcune di queste tipologie non sono significative nelle denominazioni toponomastiche. Le tipologie considerate sono le seguenti:

Categorie unicode Trasformazioni iniziali Trasformazioni successive
C Other Cc Control
Cf Format
Cn Unassigned
Co Private_Use
Cs Surrogate
L Letter LC Cased_Letter Ll Lowercase_Letter Ll Ll
Lt Titlecase_Letter Lt Ll
Lu Uppercase_Letter Lu Ll
Lm Modifier_Letter Lm
Lo Other_Letter Lo
M Mark Mc Spacing_Mark Mc
Me Enclosing_Mark
Mn Nonspacing_Mark Mn
N Number Nd Decimal_Number
Nl Letter_Number
No Other_Number
P Punctuation Pc Connector_Punctuation _
Pd Dash_Punctuation -
Pe Close_Punctuation )
Pf Final_Punctuation »
Pi Initial_Punctuation «
Po Other_Punctuation . .
Ps Open_Punctuation (
S Symbol Sc Currency_Symbol
Sk Modifier_Symbol Sk
Sm Math_Symbol
So Other_Symbol
Z Separator Zl Line_Separator
Zp Paragraph_Separator
Zs Space_Separator  

2.2 Utilità della normalizzazione

Come già osservato, il problema affrontato riguarda la creazione di classi di equivalenza per il confronto (semi)automatico di denominazioni. Quando possibile verranno definiti dei criteri di normalizzazione per individuare un rappresentante per gni classe di equivalenza, scelto in modo da minimizzare le cnversioni da fare per il confronto di due denominazioni qualunque.

3. Omografia

Con omografia si intendono le scritture in cui si usano caratteri diversi che hanno però la stessa forma o sono comunque considerati analoghi nella cultura di riferimento.

4. Equivalenza

Con omografia si intendono le scritture in cui si usano caratteri diversi che hanno però la stessa forma

5. Cambi di denominazione

Con omografia si intendono le scritture in cui si usano caratteri diversi che hanno però la stessa forma o sono comunque considerati analoghi nella cultura di riferimento.