Initial commit

2025-12-16 22:32:27 +00:00
commit 9fb01d5c22
20 changed files with 6952 additions and 0 deletions
--- a/corregir_gallego.py
+++ b/corregir_gallego.py
@@ -0,0 +1,87 @@
+#!/usr/bin/env python3
+import re
+
+def corregir_texto_gallego(input_file, output_file):
+    """Aplica correcciones de gallego a español al archivo de transcripción"""
+
+    # Correcciones más comunes de gallego a español
+    correcciones = {
+        "xeo": "yo",
+        "non": "no",
+        "hai": "hay",
+        "entóns": "entonces",
+        "máis": "más",
+        "tamén": "también",
+        "sempre": "siempre",
+        "verdade": "verdad",
+        "cousa": "cosa",
+        "xente": "gente",
+        "tempo": "tiempo",
+        "lingua": "lengua",
+        "pode": "puede",
+        "xamón": "shogun",
+        "xomón": "shogun",
+        "unha": "una",
+        "dunha": "de una",
+        "nunha": "en una",
+        "xeral": "general",
+        "xeraria": "jerarquía",
+        "ximéas": "temas",
+        "ximeas": "temas",
+        "ronquera": "reunión",
+        "xocalizar": "juntar",
+        "oanxacular": "juntar",
+        "xocal": "junto",
+        "lúmulo": "grupo",
+        "lúmido": "grupo",
+        "lúmada": "grupos",
+        "nulunxación": "reunificación",
+        "xotalipa": "capitalista",
+        "crente": "gente",
+        "enxucar": "juntar",
+        "agora": "ahora",
+        "cando": "cuando",
+        "temos": "tenemos",
+        "habíamos": "habíamos",
+        "era": "era",
+        "había": "había",
+        "existía": "existía",
+        "también": "también",
+        "vamos": "vamos",
+        "teníamos": "teníamos",
+        "vimos": "vimos",
+        "estaba": "estaba",
+        "estaban": "estaban",
+        "podía": "podía",
+        "podemos": "podemos",
+        "somos": "somos"
+    }
+
+    with open(input_file, 'r', encoding='utf-8') as f:
+        lines = f.readlines()
+
+    corrected_lines = []
+    for line in lines:
+        corrected_line = line
+        # Aplicar correcciones
+        for gallego, espanol in correcciones.items():
+            corrected_line = corrected_line.replace(gallego, espanol)
+
+        # Normalizar espacios múltiples
+        corrected_line = re.sub(r'\s+', ' ', corrected_line)
+
+        # Eliminar líneas que son solo repeticiones de "e" o "¿no?"
+        if corrected_line.strip() and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+(e\s+)+\s*$', corrected_line) and not re.match(r'^\s*\[?\d+:\d+:\d+\]\s+¿no\?\s*$', corrected_line):
+            corrected_lines.append(corrected_line)
+
+    with open(output_file, 'w', encoding='utf-8') as f:
+        f.writelines(corrected_lines)
+
+    print(f"Archivo corregido guardado en: {output_file}")
+    print(f"Líneas procesadas: {len(lines)}")
+    print(f"Líneas finales: {len(corrected_lines)}")
+
+if __name__ == "__main__":
+    input_file = "downloads/1_5134218813469886295.txt"
+    output_file = "downloads/1_5134218813469886295_corregido.txt"
+    corregir_texto_gallego(input_file, output_file)