25 lines
948 B
Lua
25 lines
948 B
Lua
-- Chupa las URLs de páginas de subtitulos de la lista de subtitulos. Requiere de lynx.
|
|
-- Ejemplo:
|
|
-- for i in index-*.htm; do lua scrap-subtitle-urls.lua $i; done > urls
|
|
|
|
local file = arg[1]
|
|
local handle = io.popen("lynx -dump -width=1000 "..file)
|
|
local result = handle:read("*a")
|
|
handle:close()
|
|
-- local pattern = "href=\"(https://www.subdivx.com/X6[%wñ-]+%.html)\">"
|
|
-- local pattern = "(https://www.subdivx.com/X6[%w%%-`%[%]%{%}%(%)%+']+%.html)"
|
|
-- Me rendí intentando conseguir patrones específicos, mejor separo por línea y matcheo todo lo parecido a una URL de subtitulos
|
|
local pattern = "%. (https://www.subdivx.com/X6.+%.html)"
|
|
local count = 0
|
|
for line in result:gmatch("([^\n]*)\n?") do
|
|
for url in line:gmatch(pattern) do
|
|
print(url)
|
|
count = count + 1
|
|
end
|
|
end
|
|
|
|
-- Para verificar que estemos tomando todos los enlaces; ya no es necesario
|
|
-- if not (count == 100) then
|
|
-- print(file.." tiene "..count.." subtitulos")
|
|
-- end
|