#!/usr/bin/env python3 import re def corregir_texto_gallego(input_file, output_file): """Aplica correcciones de gallego a español al archivo de transcripción""" # Correcciones más comunes de gallego a español correcciones = { "xeo": "yo", "non": "no", "hai": "hay", "entóns": "entonces", "máis": "más", "tamén": "también", "sempre": "siempre", "verdade": "verdad", "cousa": "cosa", "xente": "gente", "tempo": "tiempo", "lingua": "lengua", "pode": "puede", "xamón": "shogun", "xomón": "shogun", "unha": "una", "dunha": "de una", "nunha": "en una", "xeral": "general", "xeraria": "jerarquía", "ximéas": "temas", "ximeas": "temas", "ronquera": "reunión", "xocalizar": "juntar", "oanxacular": "juntar", "xocal": "junto", "lúmulo": "grupo", "lúmido": "grupo", "lúmada": "grupos", "nulunxación": "reunificación", "xotalipa": "capitalista", "crente": "gente", "enxucar": "juntar", "agora": "ahora", "cando": "cuando", "temos": "tenemos", "habíamos": "habíamos", "era": "era", "había": "había", "existía": "existía", "también": "también", "vamos": "vamos", "teníamos": "teníamos", "vimos": "vimos", "estaba": "estaba", "estaban": "estaban", "podía": "podía", "podemos": "podemos", "somos": "somos" } with open(input_file, 'r', encoding='utf-8') as f: lines = f.readlines() corrected_lines = [] for line in lines: corrected_line = line # Aplicar correcciones for gallego, espanol in correcciones.items(): corrected_line = corrected_line.replace(gallego, espanol) # Normalizar espacios múltiples corrected_line = re.sub(r'\s+', ' ', corrected_line) # Eliminar líneas que son solo repeticiones de "e" o "¿no?" if corrected_line.strip() and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+(e\s+)+\s*$', corrected_line) and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+¿no\?\s*$', corrected_line): corrected_lines.append(corrected_line) with open(output_file, 'w', encoding='utf-8') as f: f.writelines(corrected_lines) print(f"Archivo corregido guardado en: {output_file}") print(f"Líneas procesadas: {len(lines)}") print(f"Líneas finales: {len(corrected_lines)}") if __name__ == "__main__": input_file = "downloads/1_5134218813469886295.txt" output_file = "downloads/1_5134218813469886295_corregido.txt" corregir_texto_gallego(input_file, output_file)