46 lines
1.3 KiB
Markdown
46 lines
1.3 KiB
Markdown
# Czech Dataset Cross-linking Report (Quick Version)
|
|
|
|
**Date**: 2025-11-19 13:45:03
|
|
**Status**: ✅ COMPLETE (exact matches only)
|
|
|
|
## Summary
|
|
|
|
- **Exact matches**: 11 institutions
|
|
- **ADR only**: 8,134 institutions
|
|
- **ARON only**: 549 institutions
|
|
- **Total unified**: 8,694 institutions
|
|
|
|
## Exact Matches
|
|
|
|
- Archiv města Plzně
|
|
- Archiv města Ústí nad Labem
|
|
- Moravský zemský archiv v Brně
|
|
- Městská knihovna Znojmo
|
|
- Národní muzeum
|
|
- Národní muzeum - Knihovna Národního muzea
|
|
- Poštovní muzeum
|
|
- Státní oblastní archiv v Plzni
|
|
- Státní okresní archiv Prachatice
|
|
- Vlastivědné muzeum a galerie v České Lípě
|
|
- Vědecká knihovna v Olomouci
|
|
|
|
|
|
## Provenance Fixes ✅
|
|
|
|
All 8,694 institutions now have corrected metadata:
|
|
- **data_source**: Changed from `CONVERSATION_NLP` to `API_SCRAPING`
|
|
- **source_url**: Added proper API endpoints
|
|
- **extraction_method**: Clarified for ADR vs ARON vs merged
|
|
|
|
## Files Created
|
|
|
|
1. **`data/instances/czech_unified.yaml`** - Unified dataset (8,694 institutions)
|
|
2. **`CZECH_CROSSLINK_REPORT.md`** - This report
|
|
|
|
## Next Steps
|
|
|
|
- [x] Cross-link datasets (exact matches)
|
|
- [x] Fix provenance metadata
|
|
- [ ] Geocode addresses (Priority 1 - next)
|
|
- [ ] Fuzzy matching (optional - can add later)
|
|
- [ ] Wikidata enrichment (Priority 2)
|