Pouco a pouco as pessoas começam a se dar conta que um documento eletrônico não é em absoluto um documento digitalizado. O último caso é, por exemplo, o magistral trabalho da Hemeroteca de nossa Biblioteca Nacional. Trata-se da digitalização do acervo jornalístico do país. Ou seja: trata-se de um legado outrora gerado em papel e que agora o geramos em forma digital, — o que é infinitamente melhor para o pesquisador-usuário e para a conservação deste patrimônio histórico-cultural, evitando o seu acesso direto. Ressalte-se a aplicação da técnica de OCR (Optical Character Recognition)1 a este acervo ele possibilita um acesso mais qualificado ao acervo e pesquisas acuradas. De forma muito objetiva: pode-se procurar por uma palavra qualquer, uma expressão, em todos os jornais da Corte no século XIX.
Um documento eletrônico nasce digitalmente e realiza todo seu ciclo de vida desta forma, se impresso, por algum razão, o impresso a bem da verdade é cópia, o original é o digital. O legado que a sociedade produziu nasceu com suporte em papel, a digitalização é cópia deste documento físico., e seu descarte — ainda que todas as técnicas possam ajudar neste processo — ainda é um "tabu", e de difícil superação a curto prazo. Todas mudanças são difíceis, não tenhamos ilusão, e o uso do papel é milenar. A escrita em si é uma "tecnologia da inteligência", para usar uma expressão de Pierre Lévy, a impressão de Gutemberg e também a máquina de escrever igualmente, e nenhuma delas desumanizou o homem. Como disse sutilmente Richard Sennett: "technique has a bad name; it can seem soulless"2.
Fato irrecusável que nossa sociedade já produz gicantesca quantidade de documentos que nascem digitalmente. Fiquemos por hora com exemplo da Nota Fiscal Eletrônica (NFe), já validamos e autorizamos 7.5 Bilhões de NFes. Passados digamos uns 100 anos, será parcela da memória econômica de nosso país nestes documentos eletrônicos, assinados digitalmente. O mesmo se passa com o sistema para recolhimento e declaração do FGTS, o chamado "Conectividade Social", que também se insere em nossa memória econômico-social. As escolhas tecnológicas de hoje decidirão no futuro as condições de legibilidade e acesso a este acervo. O XML como padrão e formato tem sido a decisão mais adequada (que é uma tendência global e não somente local). Além de ser um documento em "texto-puro", como qualquer linguagem de "marcação", e é tremendamente interoperável, aderente a Web. Igualmente poderosa ferramenta de intercâmbio de dados. Por isso o Governo Federal, em seus padrões de interoperabilidade assevera:

"Serão considerados preferenciais aqueles tipos de arquivo que têm como padrão de representação o formato XML, de forma a facilitar a interoperabilidade entre os serviços de governo eletrônico."3

Assim, é o formato de nossas NFes e também a comunicação eletrônica do Fundo de garantia brasileiro segue o padrão XML Manifest. Ele descreve o conteúdo do pacote ".zip" enviado, especificando como o conteúdo é mapeado numa estrutura de diretório e de informação. Outro aspecto importante é que ele deve ser agnóstico ao estabelecer os metadados do pacote, isto é, neutro quanto a linguagem e o sistema operacional, o que garantirá longevidade ao documento e sua informação. O esquema XML manifest é largamente utilizado pelos SOs atuais4, como o MS Windows. Também no mundo da mobilidade, como o Android, aí toda a aplicação do SO Android deve ter na sua raiz um arquivo "manifest.xml".
Aqui abaixo um exemplo do "manifest.xml" usado numa comunicação do "Conectividade Social" ICP-Brasil. O pacote é composto pela listagem de informações, protocolo e mais o arquivo manifest citado5.

  1. <?xml version="1.0" encoding="ISO-8859-1"?>
  2. <manifest>
  3. <envelope>
  4. <from>RE</from>
  5. <to>SF3.BR00.B001.M.D112345.</to>
  6. <version>01</version>
  7. <reply>104012345000193</reply>
  8. <who>8C7BBFADB46852D6F24E1234543D519A859ECD80</who>
  9. <filter>CNS</filter>
  10. <subject>Abril2013</subject>
  11. <details>Versão : W08.40|Competência : 04/2013|Cod. Recolhimento : 123|Mun. Recol. : Brasilia-DF|</details>
  12. </envelope>
  13. <body>
  14. <file>
  15. <name>0000000000000SEFIPCR</name>
  16. <CNPJ>104039512340193</CNPJ>
  17. </file>
  18. </body>
  19. <sign> 30820A5106092A864886F70D010702A0820A4230820A3E020101310B300906052B0E03021A0500305F06092A864886F70D010701A052045064006100330039006100330065006500350065003600620034006200300064003300320035003500620066006500660039003500360030003100380039003000610066006400380030B70D79703D6668668AB5A4BDD4B4DCB5DB9832E5B3367F3875F5CE6C359EBBD2A555F044E3FCE66ADBE07ADA8D56E855E3295BFDB88958B7ECAB75C72BCAA2AAD03C601699FF62084557BA4FC6FA87574BBD45E69C4EAA34539526CECE138DF6F8CD61A964DA615CCC7E20902B5EA9DDF9E9ACD2F32F05DD060CCC41CC883A2F8B3C850141EDCFC80D5F1C753E7A560C5EE066325F9016E4ADABAAD15496E3F8A6626D6938CC20864D614C887F7594E2D553C58AD9D4D55709DD3E3318201A4308201A0020101307D3071310B300906035504061302425231133011060355040A130A4943502D42726173696C31363034060355040B132D536563726574617269612064612052656365697461204665646572616C20646F2042726173696C202D20524642311530130603550403130C41432056414C4944205246420208184A854A53C39D53300906052B0E03021A0500300D06092A864886F70D0101010500048201002377D210DE68DFC81737F6D3B32C445F07277F915595A2BEB31ABB35F7A36D3C75CB5921023D9D28D33D7F16BEF5AC06C0682479178E7C8A79BB40C15DD4520305438FA6C0F92813FEBB532CE4F909248D9E23236C9E60F8754F3195997F0FA05B73979ADE00B3DCA356BC3CD9B4308E172B7EA6AF86C133B1C11E02C73F9925096AFFF50F60A7A340764490CA74D3388520F22B28FC3D8CCD371726083DF3743EBF1611FDF2A72D825E7731FF9D88A021842CEE6B8AA4FB356120B3921376B8298457144C59ABAC486183C6EA2CF986FB5F29FC19087C7498F32C5B07D9021A0AD85EB71CEF2EE0AA4AE551B5192D18C7FD871BECB85BBA62EBE343F3F75CB1
  20. </sign>
  21. </manifest>

 
Revisão v. 1.0
 
  1. Consulte-se: "Optical Character Recognition (OCR) – How it works" e "How Good Can It Get? Analysing and Improving OCR Accuracy in Large Scale Historic Newspaper Digitisation Programs" []
  2. The Craftsman. New York: Allen Lane, 2008, p. 149. []
  3. Cf.: http://www.governoeletronico.gov.br/biblioteca/arquivos/documento-da-e-ping-versao-2013/ []
  4. Ver para o Android: http://developer.android.com/guide/topics/manifest/manifest-intro.html; e para o Windows: http://msdn.microsoft.com/en-us/library/windowsazure/jj151525.aspx; por fim, para o Google: https://developers.google.com/google-apps/marketplace/manifest []
  5. Um site interessante para visualizar de forma amigável esses XMLs é http://www.leitorxml.com.br/ []