cbc2027/corregir_gallego.py

#!/usr/bin/env python3
import re

def corregir_texto_gallego(input_file, output_file):
    """Aplica correcciones de gallego a español al archivo de transcripción"""

    # Correcciones más comunes de gallego a español
    correcciones = {
        "xeo": "yo",
        "non": "no",
        "hai": "hay",
        "entóns": "entonces",
        "máis": "más",
        "tamén": "también",
        "sempre": "siempre",
        "verdade": "verdad",
        "cousa": "cosa",
        "xente": "gente",
        "tempo": "tiempo",
        "lingua": "lengua",
        "pode": "puede",
        "xamón": "shogun",
        "xomón": "shogun",
        "unha": "una",
        "dunha": "de una",
        "nunha": "en una",
        "xeral": "general",
        "xeraria": "jerarquía",
        "ximéas": "temas",
        "ximeas": "temas",
        "ronquera": "reunión",
        "xocalizar": "juntar",
        "oanxacular": "juntar",
        "xocal": "junto",
        "lúmulo": "grupo",
        "lúmido": "grupo",
        "lúmada": "grupos",
        "nulunxación": "reunificación",
        "xotalipa": "capitalista",
        "crente": "gente",
        "enxucar": "juntar",
        "agora": "ahora",
        "cando": "cuando",
        "temos": "tenemos",
        "habíamos": "habíamos",
        "era": "era",
        "había": "había",
        "existía": "existía",
        "también": "también",
        "vamos": "vamos",
        "teníamos": "teníamos",
        "vimos": "vimos",
        "estaba": "estaba",
        "estaban": "estaban",
        "podía": "podía",
        "podemos": "podemos",
        "somos": "somos"
    }

    with open(input_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()

    corrected_lines = []
    for line in lines:
        corrected_line = line
        # Aplicar correcciones
        for gallego, espanol in correcciones.items():
            corrected_line = corrected_line.replace(gallego, espanol)

        # Normalizar espacios múltiples
        corrected_line = re.sub(r'\s+', ' ', corrected_line)

        # Eliminar líneas que son solo repeticiones de "e" o "¿no?"
        if corrected_line.strip() and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+(e\s+)+\s*$', corrected_line) and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+¿no\?\s*$', corrected_line):
            corrected_lines.append(corrected_line)

    with open(output_file, 'w', encoding='utf-8') as f:
        f.writelines(corrected_lines)

    print(f"Archivo corregido guardado en: {output_file}")
    print(f"Líneas procesadas: {len(lines)}")
    print(f"Líneas finales: {len(corrected_lines)}")

if __name__ == "__main__":
    input_file = "downloads/1_5134218813469886295.txt"
    output_file = "downloads/1_5134218813469886295_corregido.txt"
    corregir_texto_gallego(input_file, output_file)