Files
cbc2027/corregir_gallego.py
2025-12-16 22:32:27 +00:00

87 lines
2.7 KiB
Python

#!/usr/bin/env python3
import re
def corregir_texto_gallego(input_file, output_file):
"""Aplica correcciones de gallego a español al archivo de transcripción"""
# Correcciones más comunes de gallego a español
correcciones = {
"xeo": "yo",
"non": "no",
"hai": "hay",
"entóns": "entonces",
"máis": "más",
"tamén": "también",
"sempre": "siempre",
"verdade": "verdad",
"cousa": "cosa",
"xente": "gente",
"tempo": "tiempo",
"lingua": "lengua",
"pode": "puede",
"xamón": "shogun",
"xomón": "shogun",
"unha": "una",
"dunha": "de una",
"nunha": "en una",
"xeral": "general",
"xeraria": "jerarquía",
"ximéas": "temas",
"ximeas": "temas",
"ronquera": "reunión",
"xocalizar": "juntar",
"oanxacular": "juntar",
"xocal": "junto",
"lúmulo": "grupo",
"lúmido": "grupo",
"lúmada": "grupos",
"nulunxación": "reunificación",
"xotalipa": "capitalista",
"crente": "gente",
"enxucar": "juntar",
"agora": "ahora",
"cando": "cuando",
"temos": "tenemos",
"habíamos": "habíamos",
"era": "era",
"había": "había",
"existía": "existía",
"también": "también",
"vamos": "vamos",
"teníamos": "teníamos",
"vimos": "vimos",
"estaba": "estaba",
"estaban": "estaban",
"podía": "podía",
"podemos": "podemos",
"somos": "somos"
}
with open(input_file, 'r', encoding='utf-8') as f:
lines = f.readlines()
corrected_lines = []
for line in lines:
corrected_line = line
# Aplicar correcciones
for gallego, espanol in correcciones.items():
corrected_line = corrected_line.replace(gallego, espanol)
# Normalizar espacios múltiples
corrected_line = re.sub(r'\s+', ' ', corrected_line)
# Eliminar líneas que son solo repeticiones de "e" o "¿no?"
if corrected_line.strip() and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+(e\s+)+\s*$', corrected_line) and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+¿no\?\s*$', corrected_line):
corrected_lines.append(corrected_line)
with open(output_file, 'w', encoding='utf-8') as f:
f.writelines(corrected_lines)
print(f"Archivo corregido guardado en: {output_file}")
print(f"Líneas procesadas: {len(lines)}")
print(f"Líneas finales: {len(corrected_lines)}")
if __name__ == "__main__":
input_file = "downloads/1_5134218813469886295.txt"
output_file = "downloads/1_5134218813469886295_corregido.txt"
corregir_texto_gallego(input_file, output_file)