glam/data/instances/chile/BATCH9_COMPLETE_SUMMARY.md
2025-11-19 23:25:22 +01:00

3.2 KiB

Batch 9 Complete - Chilean Archives Enrichment

Execution Date

2025-11-09

Results Summary

Target: 10 archives without Wikidata
Wikidata Query: 11 Chilean archives found
Fuzzy Matching: 0 automatic matches
Manual Verification: 0 valid matches
Enrichments Applied: 0

Coverage Impact

Before Batch 9: 60.0% (54/90 institutions)
After Batch 9: 60.0% (54/90 institutions) - No change

Key Findings

1. Data Quality Issue Discovered

  • "USACH's Archivo Patrimonial" is actually Archivo Nacional de Chile
  • OSM way/187712689 confirms this with Wikidata Q6970429
  • This is a CSV error - duplicate entry with wrong name
  • Recommendation: Flag for data cleanup

2. Archives Coverage Analysis

Current State:

  • 12 total archives in dataset
  • 2 have Wikidata (16.7% coverage)
  • 10 need enrichment BUT:
    • 1 is a duplicate (USACH → Archivo Nacional)
    • 9 are genuinely without Wikidata matches

Why No Matches:

  1. Generic names without location data (6 institutions)

    • Archivo Histórico
    • Archivo Histórico SERVEL
    • Diócesis archives
    • ENACAR archives
    • Biblioteca Municipal's Archivo Sonoro
    • Archivo de la Gobernación
  2. Specialized/Regional archives not in Wikidata (3 institutions)

    • Archivo Histórico de Concepción
    • Arzobispado's Archivo Histórico
    • Archivo General de Asuntos Indígenas (CONADI)

3. Wikidata Chilean Archives

Found 11 archives in Wikidata, but they are DIFFERENT institutions:

  • Q6970429 - Archivo Nacional de Chile (we have this)
  • Q109560585 - Archivo Central Andrés Bello (Universidad de Chile)
  • Q112843848 - Archivo Histórico Patrimonial de Viña del Mar
  • Q114193047 - Archivo Judío de Chile
  • Q112828791 - Archivo y Biblioteca Histórica de la Armada
  • Q18563194 - CENFOTO (photography center)
  • Q54572178 - Cineteca Nacional de Chile
  • Q5769705 - Cineteca Universidad de Chile
  • Q108381608 - Chile Open Data Portal
  • Q97001450 - Chile's Public Data Portal
  • [Plus 1 more]

Next Steps Recommendation

Option A: Focus on Remaining Types (Batch 10)

Query Wikidata for:

  • MIXED (3 institutions, 0% coverage)

    • Centro de Interpretación Histórica
    • Instituto Alemán Puerto Montt
    • Centro Cultural Sofia Hott
  • RESEARCH_CENTER (2 institutions, 0% coverage)

    • Fundación Buen Pastor
    • Fundación Iglesias Patrimoniales
  • OFFICIAL_INSTITUTION (1 institution, 0% coverage)

    • Servicio Nacional del Patrimonio Cultural (major agency!)

Option B: Improve Museum Coverage

  • Currently 38/51 museums (74.5%)
  • 13 museums still need Wikidata
  • Could reach 80%+ coverage

Option C: Manual Web Searches

  • For institutions with websites/specific locations
  • Time-intensive but higher success rate for obscure institutions

Recommendation: Proceed with Option A

Target "Servicio Nacional del Patrimonio Cultural" specifically - this is Chile's National Heritage Service and should be prioritized even if it requires manual Wikidata research or creation.

Files Generated

  • data/instances/chile/wikidata_matches_batch9_archives.json (empty array)
  • data/instances/chile/BATCH9_ARCHIVES_ANALYSIS.md
  • data/instances/chile/BATCH9_COMPLETE_SUMMARY.md (this file)

Script Used

  • scripts/query_wikidata_chilean_archives.py