I cambi di denominazione sono un fenomeno interessante dal punto di vista storico informatico in quanto da una parte rispecchiano variazioni nel linguaggio e nell'uso, e dall'altra aprono il problema del riconoscimento (semi)automatico dei nomi da repertori d'epoca.
Ovviamente il cambio di denominazione vero e proprio dovuto a eventi storicamente significativi è un problema squisitamente storico: individuare che Bononia evolve in Bologna è di interesse storico-linguistico, ricostruire che Piandicastello diventa Mercatino Conca richiede un'analisi documentale di tipo storico.
Esistono infine quasi-sinonimi dovuti semplicemente a un uso non standardizzato. Si scrive Sant'Arcangelo o Santarcangelo? Il termine preferito è Reggio, Reggio Emilia o Reggio nell'Emilia? Queste domande e altre analoghe ci indicano che sarebbe utile sviluppare metodi per risolvere senza interventi manuali piccole modifiche di questo tipo.
Nei prossimi paragrafi cercheremo di proporre alcuni principi per facilitare l'individuazione automatica di toponimi sulla base di scritture alternative. In particolare distingueremo tre situazioni principali:
Lo scopo di questo documento è quello di proporre sistemi di denominazioni che ne permettano il confronto automatico o semiautomatico con un minimo intervento manuale. L'individuazione del fatto che due denominazioni siano nella stessa classe dovrebbe implicare una maggiore probabilità che entrambe facciano riferimento allo stesso toponimo. Ovviamente rimane sempre un margine di dubbio che sarebbe bene individuare in maniera precisa, utilizzando per esempio criteri statistici.
Un aspetto da evidenziare subito è che i criteri di equivalenza possono essere dipendenti o indipendenti dalla lingua di uso. Infatti, come vedremo, alcuni criteri sono fortemente legati alla lingua, altri dipendono solo dalle convenzioni del sistema di scrittura in uso. Nel seguito ipotizzeremo che il sistema di scrittura sia il latino moderno, mentre per le lingue faremo riferimento principalmente a caratteristiche dell'italiano con qualche esempio tedesco e francese per evidenziare i diversi comportamenti nei vari sistemi.
Dal punto di vista tecnico informatico, verranno prese in considerazione tutte le possibili denominazioni espresse in Unicode attraverso l'utilizzo dello script Latin:
mentre non sono stati considerati i caratteri latini presenti nelle Presentation forms e in alcuni contesti di script non latini:
(anche se, come vedremo, le regole di seguito descritte permetterebbero di includere anche questi script).
Non verranno considerate tutte le tipologie di caratteri Unicode, in quanto alcune di queste tipologie non sono significative nelle denominazioni toponomastiche. Le tipologie considerate sono le seguenti:
Categorie unicode | Trasformazioni iniziali | Trasformazioni successive | ||
---|---|---|---|---|
C Other |
Cc Control | |||
Cf Format | ||||
Cn Unassigned | ||||
Co Private_Use | ||||
Cs Surrogate | ||||
L Letter |
LC Cased_Letter |
Ll Lowercase_Letter | Ll | Ll |
Lt Titlecase_Letter | Lt | Ll | ||
Lu Uppercase_Letter | Lu | Ll | ||
– |
Lm Modifier_Letter | Lm | ||
Lo Other_Letter | Lo | |||
M Mark |
Mc Spacing_Mark | Mc | ||
Me Enclosing_Mark | ||||
Mn Nonspacing_Mark | Mn | |||
N Number |
Nd Decimal_Number | |||
Nl Letter_Number | ||||
No Other_Number | ||||
P Punctuation |
Pc Connector_Punctuation | _ | ||
Pd Dash_Punctuation | - | |||
Pe Close_Punctuation | ) | |||
Pf Final_Punctuation | » | |||
Pi Initial_Punctuation | « | |||
Po Other_Punctuation | . | . | ||
Ps Open_Punctuation | ( | |||
S Symbol |
Sc Currency_Symbol | |||
Sk Modifier_Symbol | Sk | |||
Sm Math_Symbol | ||||
So Other_Symbol | ||||
Z Separator |
Zl Line_Separator | |||
Zp Paragraph_Separator | ||||
Zs Space_Separator | |
Come già osservato, il problema affrontato riguarda la creazione di classi di equivalenza per il confronto (semi)automatico di denominazioni. Quando possibile verranno definiti dei criteri di normalizzazione per individuare un rappresentante per gni classe di equivalenza, scelto in modo da minimizzare le cnversioni da fare per il confronto di due denominazioni qualunque.
Con omografia si intendono le scritture in cui si usano caratteri diversi che hanno però la stessa forma o sono comunque considerati analoghi nella cultura di riferimento.
Con omografia si intendono le scritture in cui si usano caratteri diversi che hanno però la stessa forma
Con omografia si intendono le scritture in cui si usano caratteri diversi che hanno però la stessa forma o sono comunque considerati analoghi nella cultura di riferimento.