transicion-desordenada-diablo/download_json.js

// @ts-check
import { mkdir, open, writeFile } from "node:fs/promises";
import { Agent, fetch, request, setGlobalDispatcher } from "undici";
import { join, normalize } from "node:path";
import { pipeline } from "node:stream/promises";

// FYI: al menos los siguientes dominios no tienen la cadena completa de certificados en HTTPS. tenemos que usar un hack (node_extra_ca_certs_mozilla_bundle) para conectarnos a estos sitios. (se puede ver con ssllabs.com) ojalá lxs administradorxs de estos servidores lo arreglen.
// www.enargas.gov.ar, transparencia.enargas.gov.ar, www.energia.gob.ar, www.economia.gob.ar, datos.yvera.gob.ar

// TODO: revisar por qué falla http://www.ign.gob.ar/descargas/geodatos/CSV/ign_municipio.csv

setGlobalDispatcher(
  new Agent({
    pipelining: 0,
  })
);

class StatusCodeError extends Error {
  /**
   * @param {number} code
   */
  constructor(code) {
    super(`Status code: ${code}`);
    this.code = code;
  }
}
class TooManyRedirectsError extends Error {}

let jsonUrlString = process.argv[2];
if (!jsonUrlString) {
  console.error("Especificamente el url al json porfa");
  process.exit(1);
}
const jsonUrl = new URL(jsonUrlString);
const outputPath = jsonUrl.host;
await mkdir(outputPath, { recursive: true });
const errorFile = await open(join(outputPath, "errors.jsonl"), "w");

const jsonRes = await fetch(jsonUrl);
// prettier-ignore
const parsed = /** @type {{ dataset: Dataset[] }} */(await jsonRes.json())
await writeFile(join(outputPath, "data.json"), JSON.stringify(parsed));

const jobs = parsed.dataset.flatMap((dataset) =>
  dataset.distribution.map((dist) => ({
    dataset,
    dist,
    url: new URL(dist.downloadURL),
  }))
);
const totalJobs = jobs.length;
let nFinished = 0;
let nErrors = 0;

// por las dudas verificar que no hayan archivos duplicados
chequearIdsDuplicados();

/** @type {Map< string, DownloadJob[] >} */
let jobsPerHost = new Map();
for (const job of jobs) {
  jobsPerHost.set(job.url.host, [
    ...(jobsPerHost.get(job.url.host) || []),
    job,
  ]);
}

const greens = [...jobsPerHost.entries()].flatMap(([host, jobs]) => {
  const nThreads = 8;
  return Array(nThreads)
    .fill(0)
    .map(() =>
      (async () => {
        let job;
        while ((job = jobs.pop())) {
          try {
            await downloadDistWithRetries(job);
          } catch (error) {
            await errorFile.write(
              JSON.stringify({
                url: job.url.toString(),
                ...encodeError(error),
              }) + "\n"
            );
            nErrors++;
          } finally {
            nFinished++;
          }
        }
      })()
    );
});
process.stderr.write(`greens: ${greens.length}\n`);

const interval = setInterval(() => {
  process.stderr.write(`info: ${nFinished}/${totalJobs} done\n`);
}, 30000);
await Promise.all(greens);
clearInterval(interval);
if (nErrors > 0) console.error(`Finished with ${nErrors} errors`);

/**
 * @argument {DownloadJob} job
 * @argument {number} tries
 */
async function downloadDistWithRetries(job, tries = 0) {
  const { url } = job;
  try {
    await downloadDist(job);
  } catch (error) {
    // algunos servidores usan 403 como coso para decir "calmate"
    // intentar hasta 15 veces con 15 segundos de por medio
    if (
      error instanceof StatusCodeError &&
      error.code === 403 &&
      url.host === "minsegar-my.sharepoint.com" &&
      tries < 15
    ) {
      await wait(15000);
      return await downloadDistWithRetries(job, tries + 1);
    }
    // si no fue un error de http, reintentar hasta 5 veces con 5 segundos de por medio
    else if (
      !(error instanceof StatusCodeError) &&
      !(error instanceof TooManyRedirectsError) &&
      tries < 5
    ) {
      await wait(5000);
      return await downloadDistWithRetries(job, tries + 1);
    } else throw error;
  }
}

/**
 * @argument {DownloadJob} job
 */
async function downloadDist({ dist, dataset }) {
  const url = new URL(dist.downloadURL);

  const res = await request(url.toString(), {
    maxRedirections: 20,
  });
  if (res.statusCode >= 300 && res.statusCode <= 399)
    throw new TooManyRedirectsError();
  if (res.statusCode < 200 || res.statusCode > 299) {
    throw new StatusCodeError(res.statusCode);
  }

  const fileDirPath = join(
    outputPath,
    sanitizeSuffix(dataset.identifier),
    sanitizeSuffix(dist.identifier)
  );
  await mkdir(fileDirPath, { recursive: true });
  const filePath = join(
    fileDirPath,
    sanitizeSuffix(dist.fileName || dist.identifier)
  );
  const outputFile = await open(filePath, "w");

  if (!res.body) throw new Error("no body");
  await pipeline(res.body, outputFile.createWriteStream());
}

/** @typedef DownloadJob
 * @prop {Dataset} dataset
 * @prop {Distribution} dist
 * @prop {URL} url
 */
/** @typedef Dataset
 * @prop {string} identifier
 * @prop {Distribution[]} distribution
 */
/** @typedef Distribution
 * @prop {string} identifier
 * @prop {string} fileName
 * @prop {string} downloadURL
 */

// https://security.stackexchange.com/a/123723
/**
 * @argument {string} path
 */
function sanitizeSuffix(path) {
  return normalize(path).replace(/^(\.\.(\/|\\|$))+/, "");
}

function chequearIdsDuplicados() {
  const duplicated = hasDuplicates(
    jobs.map((j) => `${j.dataset.identifier}/${j.dist.identifier}`)
  );
  if (duplicated) {
    console.error(
      "ADVERTENCIA: ¡encontré duplicados! es posible que se pisen archivos entre si"
    );
  }
}
// https://stackoverflow.com/a/7376645
/** @argument {any[]} array */
function hasDuplicates(array) {
  return new Set(array).size !== array.length;
}

/** @argument {number} ms */
function wait(ms) {
  if (ms < 0) return Promise.resolve();
  return new Promise((resolve) => setTimeout(resolve, ms));
}

function encodeError(error) {
  if (error instanceof StatusCodeError)
    return { kind: "http_error", status_code: error.code };
  else if (error instanceof TooManyRedirectsError)
    return { kind: "infinite_redirect" };
  else {
    return { kind: "generic_error", error: error.code || error.message };
  }
}
init 2023-11-27 20:01:56 +00:00			`// @ts-check`
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`import { mkdir, open, writeFile } from "node:fs/promises";`
			`import { Agent, fetch, request, setGlobalDispatcher } from "undici";`
init 2023-11-27 20:01:56 +00:00			`import { join, normalize } from "node:path";`
			`import { pipeline } from "node:stream/promises";`

			`// FYI: al menos los siguientes dominios no tienen la cadena completa de certificados en HTTPS. tenemos que usar un hack (node_extra_ca_certs_mozilla_bundle) para conectarnos a estos sitios. (se puede ver con ssllabs.com) ojalá lxs administradorxs de estos servidores lo arreglen.`
			`// www.enargas.gov.ar, transparencia.enargas.gov.ar, www.energia.gob.ar, www.economia.gob.ar, datos.yvera.gob.ar`

arreglar chequeo redireccion con undici.request 2023-11-28 02:19:09 +00:00			`// TODO: revisar por qué falla http://www.ign.gob.ar/descargas/geodatos/CSV/ign_municipio.csv`

traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`setGlobalDispatcher(`
			`new Agent({`
			`pipelining: 0,`
			`})`
			`);`
init 2023-11-27 20:01:56 +00:00
			`class StatusCodeError extends Error {`
			`/**`
			`* @param {number} code`
			`*/`
			`constructor(code) {`
			super(`Status code: ${code}`);
			`this.code = code;`
			`}`
			`}`
arreglar chequeo redireccion con undici.request 2023-11-28 02:19:09 +00:00			`class TooManyRedirectsError extends Error {}`
init 2023-11-27 20:01:56 +00:00
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`let jsonUrlString = process.argv[2];`
			`if (!jsonUrlString) {`
			`console.error("Especificamente el url al json porfa");`
init 2023-11-27 20:01:56 +00:00			`process.exit(1);`
			`}`
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`const jsonUrl = new URL(jsonUrlString);`
			`const outputPath = jsonUrl.host;`
init 2023-11-27 20:01:56 +00:00			`await mkdir(outputPath, { recursive: true });`
cambios varios 2023-11-28 01:43:58 +00:00			`const errorFile = await open(join(outputPath, "errors.jsonl"), "w");`
init 2023-11-27 20:01:56 +00:00
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`const jsonRes = await fetch(jsonUrl);`
			`// prettier-ignore`
			`const parsed = /** @type {{ dataset: Dataset[] }} */(await jsonRes.json())`
			`await writeFile(join(outputPath, "data.json"), JSON.stringify(parsed));`
init 2023-11-27 20:01:56 +00:00
			`const jobs = parsed.dataset.flatMap((dataset) =>`
testear y documentar check duplicados 2023-11-27 23:13:14 +00:00			`dataset.distribution.map((dist) => ({`
			`dataset,`
			`dist,`
			`url: new URL(dist.downloadURL),`
			`}))`
init 2023-11-27 20:01:56 +00:00			`);`
			`const totalJobs = jobs.length;`
			`let nFinished = 0;`
cambios varios 2023-11-28 01:43:58 +00:00			`let nErrors = 0;`
init 2023-11-27 20:01:56 +00:00
testear y documentar check duplicados 2023-11-27 23:13:14 +00:00			`// por las dudas verificar que no hayan archivos duplicados`
cambios varios 2023-11-28 01:43:58 +00:00			`chequearIdsDuplicados();`

			`/** @type {Map< string, DownloadJob[] >} */`
			`let jobsPerHost = new Map();`
			`for (const job of jobs) {`
			`jobsPerHost.set(job.url.host, [`
			`...(jobsPerHost.get(job.url.host) \|\| []),`
			`job,`
			`]);`
init 2023-11-27 20:01:56 +00:00			`}`

cambios varios 2023-11-28 01:43:58 +00:00			`const greens = [...jobsPerHost.entries()].flatMap(([host, jobs]) => {`
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`const nThreads = 8;`
cambios varios 2023-11-28 01:43:58 +00:00			`return Array(nThreads)`
			`.fill(0)`
			`.map(() =>`
			`(async () => {`
			`let job;`
			`while ((job = jobs.pop())) {`
init 2023-11-27 20:01:56 +00:00			`try {`
cambios varios 2023-11-28 01:43:58 +00:00			`await downloadDistWithRetries(job);`
init 2023-11-27 20:01:56 +00:00			`} catch (error) {`
cambios varios 2023-11-28 01:43:58 +00:00			`await errorFile.write(`
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`JSON.stringify({`
			`url: job.url.toString(),`
			`...encodeError(error),`
			`}) + "\n"`
init 2023-11-27 20:01:56 +00:00			`);`
cambios varios 2023-11-28 01:43:58 +00:00			`nErrors++;`
init 2023-11-27 20:01:56 +00:00			`} finally {`
			`nFinished++;`
			`}`
cambios varios 2023-11-28 01:43:58 +00:00			`}`
			`})()`
			`);`
			`});`
			process.stderr.write(`greens: ${greens.length}\n`);
init 2023-11-27 20:01:56 +00:00
			`const interval = setInterval(() => {`
cambios varios 2023-11-28 01:43:58 +00:00			process.stderr.write(`info: ${nFinished}/${totalJobs} done\n`);
			`}, 30000);`
init 2023-11-27 20:01:56 +00:00			`await Promise.all(greens);`
			`clearInterval(interval);`
cambios varios 2023-11-28 01:43:58 +00:00			if (nErrors > 0) console.error(`Finished with ${nErrors} errors`);
init 2023-11-27 20:01:56 +00:00
			`/**`
cambios varios 2023-11-28 01:43:58 +00:00			`* @argument {DownloadJob} job`
			`* @argument {number} tries`
init 2023-11-27 20:01:56 +00:00			`*/`
cambios varios 2023-11-28 01:43:58 +00:00			`async function downloadDistWithRetries(job, tries = 0) {`
			`const { url } = job;`
			`try {`
			`await downloadDist(job);`
			`} catch (error) {`
			`// algunos servidores usan 403 como coso para decir "calmate"`
			`// intentar hasta 15 veces con 15 segundos de por medio`
			`if (`
			`error instanceof StatusCodeError &&`
			`error.code === 403 &&`
			`url.host === "minsegar-my.sharepoint.com" &&`
			`tries < 15`
			`) {`
			`await wait(15000);`
			`return await downloadDistWithRetries(job, tries + 1);`
			`}`
			`// si no fue un error de http, reintentar hasta 5 veces con 5 segundos de por medio`
			`else if (`
			`!(error instanceof StatusCodeError) &&`
arreglar chequeo redireccion con undici.request 2023-11-28 02:19:09 +00:00			`!(error instanceof TooManyRedirectsError) &&`
cambios varios 2023-11-28 01:43:58 +00:00			`tries < 5`
			`) {`
			`await wait(5000);`
			`return await downloadDistWithRetries(job, tries + 1);`
			`} else throw error;`
			`}`
			`}`

			`/**`
			`* @argument {DownloadJob} job`
			`*/`
			`async function downloadDist({ dist, dataset }) {`
init 2023-11-27 20:01:56 +00:00			`const url = new URL(dist.downloadURL);`

arreglar chequeo redireccion con undici.request 2023-11-28 02:19:09 +00:00			`const res = await request(url.toString(), {`
			`maxRedirections: 20,`
			`});`
			`if (res.statusCode >= 300 && res.statusCode <= 399)`
			`throw new TooManyRedirectsError();`
traer json, usar undici.request, otras cosas 2023-11-28 02:10:24 +00:00			`if (res.statusCode < 200 \|\| res.statusCode > 299) {`
			`throw new StatusCodeError(res.statusCode);`
init 2023-11-27 20:01:56 +00:00			`}`

			`const fileDirPath = join(`
			`outputPath,`
			`sanitizeSuffix(dataset.identifier),`
no forzar HTTPS por defecto 2023-11-27 23:10:57 +00:00			`sanitizeSuffix(dist.identifier)`
init 2023-11-27 20:01:56 +00:00			`);`
			`await mkdir(fileDirPath, { recursive: true });`
			`const filePath = join(`
			`fileDirPath,`
no forzar HTTPS por defecto 2023-11-27 23:10:57 +00:00			`sanitizeSuffix(dist.fileName \|\| dist.identifier)`
init 2023-11-27 20:01:56 +00:00			`);`
			`const outputFile = await open(filePath, "w");`

			`if (!res.body) throw new Error("no body");`
			`await pipeline(res.body, outputFile.createWriteStream());`
			`}`

cambios varios 2023-11-28 01:43:58 +00:00			`/** @typedef DownloadJob`
			`* @prop {Dataset} dataset`
			`* @prop {Distribution} dist`
			`* @prop {URL} url`
			`*/`
			`/** @typedef Dataset`
init 2023-11-27 20:01:56 +00:00			`* @prop {string} identifier`
			`* @prop {Distribution[]} distribution`
			`*/`
cambios varios 2023-11-28 01:43:58 +00:00			`/** @typedef Distribution`
init 2023-11-27 20:01:56 +00:00			`* @prop {string} identifier`
			`* @prop {string} fileName`
			`* @prop {string} downloadURL`
			`*/`

			`// https://security.stackexchange.com/a/123723`
			`/**`
			`* @argument {string} path`
			`*/`
			`function sanitizeSuffix(path) {`
			`return normalize(path).replace(/^(\.\.(\/\|\\\|$))+/, "");`
			`}`

cambios varios 2023-11-28 01:43:58 +00:00			`function chequearIdsDuplicados() {`
			`const duplicated = hasDuplicates(`
			jobs.map((j) => `${j.dataset.identifier}/${j.dist.identifier}`)
			`);`
			`if (duplicated) {`
			`console.error(`
			`"ADVERTENCIA: ¡encontré duplicados! es posible que se pisen archivos entre si"`
			`);`
			`}`
			`}`
init 2023-11-27 20:01:56 +00:00			`// https://stackoverflow.com/a/7376645`
cambios varios 2023-11-28 01:43:58 +00:00			`/** @argument {any[]} array */`
init 2023-11-27 20:01:56 +00:00			`function hasDuplicates(array) {`
			`return new Set(array).size !== array.length;`
			`}`

cambios varios 2023-11-28 01:43:58 +00:00			`/** @argument {number} ms */`
init 2023-11-27 20:01:56 +00:00			`function wait(ms) {`
			`if (ms < 0) return Promise.resolve();`
			`return new Promise((resolve) => setTimeout(resolve, ms));`
			`}`
cambios varios 2023-11-28 01:43:58 +00:00
			`function encodeError(error) {`
			`if (error instanceof StatusCodeError)`
			`return { kind: "http_error", status_code: error.code };`
arreglar chequeo redireccion con undici.request 2023-11-28 02:19:09 +00:00			`else if (error instanceof TooManyRedirectsError)`
			`return { kind: "infinite_redirect" };`
cambios varios 2023-11-28 01:43:58 +00:00			`else {`
arreglar chequeo redireccion con undici.request 2023-11-28 02:19:09 +00:00			`return { kind: "generic_error", error: error.code \|\| error.message };`
cambios varios 2023-11-28 01:43:58 +00:00			`}`
			`}`