-- Chupa las URLs de páginas de subtitulos de la lista de subtitulos. Requiere de lynx. -- Ejemplo: -- for i in index-*.htm; do lua scrap-subtitle-urls.lua $i; done > urls local file = arg[1] local handle = io.popen("lynx -dump -width=1000 "..file) local result = handle:read("*a") handle:close() -- local pattern = "href=\"(https://www.subdivx.com/X6[%wñ-]+%.html)\">" -- local pattern = "(https://www.subdivx.com/X6[%w%%-`%[%]%{%}%(%)%+']+%.html)" -- Me rendí intentando conseguir patrones específicos, mejor separo por línea y matcheo todo lo parecido a una URL de subtitulos local pattern = "%. (https://www.subdivx.com/X6.+%.html)" local count = 0 for line in result:gmatch("([^\n]*)\n?") do for url in line:gmatch(pattern) do print(url) count = count + 1 end end -- Para verificar que estemos tomando todos los enlaces; ya no es necesario -- if not (count == 100) then -- print(file.." tiene "..count.." subtitulos") -- end