glam/CZECH_CROSSLINK_REPORT.md
2025-11-19 23:25:22 +01:00

1.3 KiB

Czech Dataset Cross-linking Report (Quick Version)

Date: 2025-11-19 13:45:03
Status: COMPLETE (exact matches only)

Summary

  • Exact matches: 11 institutions
  • ADR only: 8,134 institutions
  • ARON only: 549 institutions
  • Total unified: 8,694 institutions

Exact Matches

  • Archiv města Plzně
  • Archiv města Ústí nad Labem
  • Moravský zemský archiv v Brně
  • Městská knihovna Znojmo
  • Národní muzeum
  • Národní muzeum - Knihovna Národního muzea
  • Poštovní muzeum
  • Státní oblastní archiv v Plzni
  • Státní okresní archiv Prachatice
  • Vlastivědné muzeum a galerie v České Lípě
  • Vědecká knihovna v Olomouci

Provenance Fixes

All 8,694 institutions now have corrected metadata:

  • data_source: Changed from CONVERSATION_NLP to API_SCRAPING
  • source_url: Added proper API endpoints
  • extraction_method: Clarified for ADR vs ARON vs merged

Files Created

  1. data/instances/czech_unified.yaml - Unified dataset (8,694 institutions)
  2. CZECH_CROSSLINK_REPORT.md - This report

Next Steps

  • Cross-link datasets (exact matches)
  • Fix provenance metadata
  • Geocode addresses (Priority 1 - next)
  • Fuzzy matching (optional - can add later)
  • Wikidata enrichment (Priority 2)