bta.it Frontespizio Indice Rapido Cerca nel sito www.bta.it Ufficio Stampa Sali di un livello english
Inquinamento e Tutela dei Beni Culturali Informatici  
Stefano Colonna
ISSN 1127-4883     BTA - Bollettino Telematico dell'Arte, 20 agosto 2001, n. 277
http://www.bta.it/txt/a0/02/bta00277.html
Precedente
Successivo
Tutti
Area Tutela

La Storia dell'Arte si è avvalsa degli strumenti informatici con un certo ritardo rispetto alle discipline scientifiche. Le prime applicazioni significative di trattamento automatico dei dati storico-artistici sono state sperimentate con la realizzazione di prototipi di schede elettroniche di catalogo dei Beni Culturali e l'analisi automatica dei testi d'arte, per esempio le Vite del Vasari 1. Con un ritardo ancora maggiore sono state sviluppate le applicazioni telematiche, alle quali viene assegnato il compito di rendere possibile lo scambio delle informazioni via rete in tempo reale.
Secondo questa linea di sviluppo, il primo passo dell'evoluzione informatica nel dominio di nostro interesse, cioè a dire della Storia dell'Arte, consiste nella digitalizzazione, ovvero nel cambiamento del formato fisico dell'informazione, dal cartaceo all'elettronico. Il secondo passo consiste nella pubblicazione dei dati all'interno di una rete di telecomunicazioni privata Intranet; o nella rete pubblica Internet.
Ma nessuno dei due passi, cioè la digitalizzazione, o la telepubblicazione, possono essere compiuti senza un'adeguata codifica delle informazioni.
Il ritardo della Storia dell'Arte non è stato casuale, ma dovuto al fatto che la codifica dei dati storico-artistici è più complessa di quella dei dati esclusivamente testuali e il relativo trattamento molto più costoso a causa della grandezza delle immagini e dei file multimediali.
Inoltre gli storici dell'Arte sono generalmente refrattari all'adozione di codifiche informatiche per gli studi di natura storica, essendo l'applicazione della codifica un'attività essenzialmente automatica, quindi ripetitiva, quindi essenzialmente tecnica e generalmente ritenuta non direttamente pertinente gli studi universitari umanistici.
Vogliamo qui dimostrare come invece l'empirica attuazione della codifica genera delle situazioni reali molto particolari che ricadono sotto la sfera del dominio del bene culturale propriamente inteso; evidenziare inoltre i danni derivanti dalle situazioni reali di mancata comunicazione derivanti da quello che in questa sede definiamo "inquinamento informatico" ed infine prospettare una soluzione generale di tutela del Bene Culturale Informatico.



IL CONCETTO DI CODIFICA

La codifica consiste nella creazione di una struttura logico-simbolica di riferimento, grazie alla quale sia possibile effettuare conversioni biunivoche delle informazioni senza perdita dei dati. Nel vasto processo dell'elaborazione automatica dei dati esistono svariati livelli di codifica 2.
Solo per portare qualche esempio che non ha pretesa di esaustività, è possibile citare: il codice binario, che è l'elemento logico-matematico più piccolo dell'informatica; i set di caratteri ASCII che comprendono rispettivamente tutte le lettere dei vari alfabeti mondiali e molti dei relativi segni di interpunzione e speciali; Il linguaggio macchina (Assembler) che permette la comunicazione tra l'hardware e il software; il sistema operativo, che gestisce la comunicazione tra i diversi software e l'hardware; i software applicativi, che eseguono particolari procedure e calcoli.

La codifica dei testi e delle immagini è una delle operazioni più complesse eseguibili dal computer ed è quella che riveste il carattere maggiormente "umanistico" e consiste nell'analisi e dichiarazione della struttura del testo e della sua formattazione demandata allo standard SGML e ai suoi sottoderivati HTML, DHTML, XML, etc., sia ancora, a livelli sempre più complessi e sofisticati, alla META-informazione, che si occupa di gestire informazioni sovrastrutturate, come i METADATA presenti per esempio all'interno di file HTML.
Va ribadito a proposito che, in ambito di codifica SGML, con la parola "testo" non si deve intendere esclusivamente il testo propriamente detto, ma l'insieme di tutti i dati provenienti dalla vecchia editoria cartacea, comprese quindi anche le immagini, e, per estensione alla moderna editoria multimediale, anche i video, i suoni o la musica e l'esecuzione stessa di programmi Java o di operazioni logiche o di rete.

Tutte le differenti codifiche sopra citate sono ben documentate, rigidamente costituite, ampiamente pubblicizzate e commentate e costituiscono pertanto degli standard di fatto, e direi anche "di diritto", a livello internazionale. L'autore di un nuovo modello di hardware, di software, ma anche l'editore di una qualsiasi pubblicazione elettronica, sia esso un singolo, o una struttura pubblica o privata, è tenuto comunque a rispettare le codifiche esistenti e, nel caso in cui intenda proporne di nuove, a sottoporle alla discussione pubblica ed approvazione preventiva tramite la creazione di gruppi di lavoro composti da rappresentanti di istituzioni e società diverse dalla propria, nella forma della pubblicazione del draft, con la relativa aspettativa di commento, le successive revisioni e infine la pubblicazione del documento finale. Questo processo essenzialmente cooperativo di gestione dell'informazione e dell'innovazione basato sulla costruzione e rispetto di codifiche standard universali, ha permesso la comunicazione globale a livello mondiale 3.

Anche sul versante dell'hardware l'iniziale restrizione dell'architettura proprietaria di IBM cosiddetta microchannel è stata superata dal mercato globale col risultato di rendere possibile la diffusione dell'elaboratore elettronico anche in ambito privato all'interno delle famiglie e predisporre dunque la successiva affermazione mondiale della rete Internet.

La pura e semplice codifica ASCII dei testi, teoricamente perfetta ed universale, non permette l'associazione di testi ed immagini. Invece il linguaggio HTML, che deriva da SGML ed è una delle possibili codifiche dei dati, utilizzando il set di caratteri ASCII a due livelli composti e strutturati, cioè sia per alimentare il testo, sia per generare informazioni aggiuntive e strutturate relative al testo stesso, ha di fatto generato la moderna ed universalmente diffusa editoria elettronica e multimediale basata su codifica universale. I file multimediali prodotti secondo lo standard HTML possono infatti essere letti e riprodotti uniformemente all'interno di differenti sistemi operativi, come Microsoft Windows, Apple Macintosh, Unix, Linux, BSD, etc. e superano quindi l'ostica barriera costituita dalla incompatibilità nativa dei formati dei file e dei supporti (floppy-disk), etc.



CONCETTO DI "INQUINAMENTO" DEI DATI INFORMATICI

La proliferazione di energie intellettuali determinata dalla condivisione delle risorse e della libera concorrenza mondiale in ordine alla creazione del software e delle codifiche di vario livello ora citate, e il relativo determinarsi nel tempo e nello spazio virtuale ma reale dell'informatica delle applicazioni empiriche di tali standard, non ha impedito il formarsi di una serie di vincoli e ostacoli molto pericolosi che i questa sede definiamo "inquinamenti" per analogia con altri dominî di applicazione delle scienze.

Ogni Word Processor di una certa potenza dovrebbe garantire il salvataggio dei file creati in un formato universale. In pratica per i testi complessi e strutturati che prevedono per esempio l'uso di tabelle e formattazioni numerose e millimetriche, quindi di fatto per tutta l'editoria elettronica, anche quella più semplice, si registra la difficoltà di comunicazione anche all'interno delle differenti versioni del medesimo programma informatico, per cui la versione successiva non sempre riesce a leggere propriamente i file prodotti con quella precedente. Ancora maggiormente difficile risulta mettere in comunicazione i file generati da programmi di sotware house differenti.

Nonostante l'esistenza e la mondiale affermazione dello standard HTML, codesta codifica universale dei dati viene utilizzata ancora esclusivamente per la pubblicazione in rete Internet o la creazione di CD-ROM. Difficilmente l'HTML viene utilizzato come formato di scambio dei file, soprattutto perchè risulta critica per un utente medio la gestione dei potenzialmente numerosi allegati, come le immagini, che in un file di Word Processor sono comodamente contenuti all'interno di un unico file.

Esiste quindi una quantità sempre crescente di dati destinati a risultare presto obsoleti e non comunicanti. Alcuni pacchetti software garantiscono la compatibilità retroattiva solo per un determinato periodo. Molti file risultano incompatibili fra loro. La conversione dei formati dei file è un'operazione informatica molto complessa e non garantisce un'assoluta fedeltà e deve generalmente essere eseguita e sorvegliata in modalità manuale per evitare la perdita involontaria delle informazioni durante il processo di conversione.
L'attuale situazione prevede invece una sostanziale prevalenza di standard proprietari per lo scambio personale delle informazioni. Per esempio nè l'HTML, nè il Microsoft RTF - Rich Text Format preservano la numerazione progressiva ed automatica delle note di un testo a seguito di una conversione di formato.

Una novità consiste nella creazione e adozione di una serie di filtri proprietari demandati a gestire l'input e l'output dei file prodotti dai più noti Word Processor all'interno di un prodotto che risulta essere "free" quale Star Office, originariamente ideato e scritto da tedeschi per il sistema operativo open e free Linux, è stato acquistato dalla Sun e messo a disposizione anche degli utenti del sistema operativo Microsoft Windows, creando un caso essenzialmente atipico. Infatti tale prodotto, pur rimanendo "free", cioè gratuito per l'utente singolo, permette l'acquisizione e il trattamento di file di molti formati e il loro relativo salvataggio senza violare il diritto d'autore dei rispettivi produttori di Word Processor. La conversione presenta però dei limiti e non garantisce sempre una piena compatibilità.

Ancora più delicata è la gestione dei dati complessi e strutturati, come gli archivi elettronici originariamente creati all'interno di tabelle di un Word Processor che nel tempo raggiungono dimensioni elevate e non possono quindi essere convertiti in modalità automatica in altrettanti file di database relazionali, come il caso richiede. In pratica un database creato con tabelle di Word Processor equivale di fatto ad un testo libero, perchè ha solo l'apparenza grafica di suddivisione logica delle informazioni, ma non la loro reale codifica secondo i principî dell'algebra relazionale.

La creazione di un database storico-artistico in cui i nomi degli autori sono catalogati senza fare riferimento ad un thesaurus apposito, o authority-file, sono destinati a generare duplicazione, dispersione o perdita di informazioni. Per esempio potrebbero essere create delle schede di catalogo di opera d'arte con un nome autore "Michelangelo Merisi" differenti da altre con nome autore "Il Caravaggio" quando in realtà si tratta, come noto, della medesima persona. Se poi l'authority-file venisse creato, ma esistesse già nel pubblico dominio, si correrebbe il rischio di duplicare un'informazione esistente e di impedire di fatto il collegamento automatico via rete del proprio archivio elettronico con gli altri esistenti. Deficienza tanto più grave quanto maggiore è l'importanza dell'archivio al quale ci si deve collegare.

La comunità scientifica e la società civile stessa richiedono la libera accessibilità delle informazioni di interesse pubblico. Concetti sottesi alla costituzione delle biblioteche nazionali. Tendenzialmente tutti gli OPAC, cioè a dire i cataloghi elettronici delle biblioteche, sono liberamente accessibili sulla rete internet.
Anche le risorse della Storia dell'Arte relative a opere d'arte di pubblico dominio dovrebbero essere liberamente accessibili, con restrizioni, quando necessarie, limitate ai contesti specifici.

Ancora più grave appare l'inquinamento prodotto non tanto da interessi dei singoli, ma dall'incapacità o mancanza di programmazione dei produttori delle informazioni.
Molte informazioni pubblicate sul Web, anche con costi elevati, una volta diventate obsolete, vengono "cestinate" o cancellate definitivamente, invece di essere opportunamente e razionalmente archiviate. Il danno è statisticamente enorme. Non solo viene vanificato completamente l'investimento fatto, ma anche distrutta la memoria storica relativa. E il danno maggiore è ovviamente il secondo. Bisognerenne approntare un sistema di rilettura delle unità di backup esistenti prima che vengano cancellate definitivamente, in modo da creare uno o più archivi nazionali e internazionali delle informazioni.
Viceversa molti dei fruitori delle risorse Web prelevano dei file, ma non avendo ancora a disposizione un sistema di identificazione oggettivo e universale, attualmente ancora in fase di discussione, citano le fonti tramite un indirizzo Web, quando è noto che le URL possono cambiare per le varie ordinarie esigenze tecniche dei server e dei webmaster. È come se si citasse l'articolo di un periodico indicandone solo il titolo.
Il problema dell'inquinamento dell'informazione si fa maggiormente sensibile quando risulta assolutamente indispensabile assicurare l'esatta identificazione di un preciso e singolo dato. Se per esempio si desidera citare una data immagine, che si è vista in un determinato sito Internet con un determinato formato, risoluzione, numero di colori, DPI, etc. risulta assolutamente auspicabile che, citando tale immagine in un articolo scientifico, il lettore possa rivedere la stessa immagine per comprendere il testo dell'articolo. Lo spostamento della risorsa in altra directory del sito Web, o il cambiamento del dominio del sito stesso, o ancora la modifica della struttura delle directory o del sistema di numerazione, non permettono certamente l'individuazione dell'oggetto e generano quello che definirei una sorta di "inquinamento informatico". Certamente non si tratta di "inquinamento doloso", in quanto attualmente inconsapevole, ma pur sempre di inquinamento si tratta.

A dispetto delle innovazioni della tecnica, la sostanziale ed intrinseca fragilità dei supporti informatici, sia magnetici, sia opto-magnetici, sia ottici, non ha confronti con la durata della carta, che ha dimostrato di poter resistere per svariati secoli all'usura del tempo. A favore delle nuove tecnologie si pone la duplicabilità e riproduzione assolutamente fedele all'originale, di contro all'impossibilità di riproduzione fedele dell'opera cartacea. Anche questo concetto si rivela però archivisticamente fallace.
Infatti ogni documento risulta essere costituito non solo dal contenuto veicolato, ma anche dalla natura e composizione e datazione del veicolo stesso. Così come un'epistola del Rinascimento è costituita non solo dal suo testo e data, ma anche dalla filigrana della cartiera di produzione, così il nuovo contesto informatico è costituito non solo dai dati, ma anche dal tipo di mezzo informatico utilizzato per la trasmissione dei dati stessi, dal nome e tipo del server e dal tipo e versione del file-system su cui risiedono le informazioni se la trasmissione avviene tramite rete; dalla descrizione del "pacchetto" di informazioni che contiene il singolo dato se le informazioni sono state prodotte o trasmesse in gruppo secondo una qualche logica predefinita. Tutti elementi, insomma, che a prima vista risultano apparentemente superflui, ma a lungo periodo e in un contesto scientifico, si rivelano assolutamente indispensabili per comprendere il significato delle informazioni "inquinate". Per esempio relativamente ai dati privi di cronologia o autore.

Per inquinamento dei dati informatici si intende dunque l'alterazione dei dati stessi o del loro supporto, rispetto alla codifica adottata al momento della loro creazione; ma anche la mancata adozione delle cosiddette best practices, metodologie di eccellenza, con la conseguente parziale o completa perdita di significato o capacità di comunicazione.



UN'ESTENSIONE INFORMATICA DELLA LEGGE 1089/1939

Dal momento che sia le banche dati, sia i prodotti multimediali, dei quali possono teoricamente far parte tutti gli ipertesti pubblicati nel World Wide Web, sono entrambi assoggettabili al diritto d'autore quali opere dell'ingegno, risulta necessario prendere conoscenza della novità del fenomeno e prevedere strumenti normativi adeguati.

Per limitare l'inquinamento dei dati informatici e la dispersione o distruzione della memoria storica collegata, si dovrebbe dunque provvedere a due differenti livelli:

    1) promuovere le best pratices, metodologie di eccellenza, in particolare nella ricerca universitaria, secondo le esperienze maturate nei progetti europei alla luce del contesto internazionale

    2) progettare un ampliamento dell'applicabilità della Legge di tutela italiana 1089 del 1939 alla tutela dei beni culturali informatici.

Pensiamo ad uno strumento che non si limiti a creare una mediateca che organizzi più efficacemente del materiale esistente presso una sola istituzione pubblica, come la Rai con le sue Teche, o l'Istituto Luce con la sua mediateca; quanto piuttosto uno strumento giuridico onnicomprensivo che consenta alle Regioni e alle Soprintendenze di tutelare, quando necessario, o valorizzare, vincolare ed acquisire in copia qualsiasi risorsa informatica di interesse nazionale ed internazionale alla stregua dei beni culturali correntemente intesi.






NOTE

Tutti i marchi citati sono dei rispettivi proprietari.

1 In Italia il " CRIBECU - Centro di Ricerche Informatiche per i Beni Culturali " della Scuola Normale Superiore di Pisa ha svolto attità pionieristica in tal senso. Ma si veda il nostro articolo 249 Strumenti della ricerca storico-artistica dalla tradizione all'innovazione per un'analisi complessiva del fenomeno.

2 Giuseppe Gigliozzi, Studi di codifica e trattamento automatico di testi, Roma, Bulzoni, 1987. Collana Informatica e Discipline Umanistiche diretta da Tito Orlandi, vol. 1.

3 Solo per fare un esempio, il primo Request for Comments risale al 7 aprile 1969 ed è firmato da Steve Crocker della UCLA e riguarda l'implementazione dei protocolli della neonata rete. Ora tutti i consorzi che si occupano di gestire standard, primo fra tutti il W3 Consortium, che gestisce HTML e XML, pubblicano draft pubblici dei vari stati di avanzamento degli standard.




 
 

Risali





BTA copyright MECENATI Mail to www@bta.it