NodeJSでsitemapをパースしてURLを抽出する。

NodeJSでsitemapをパースしてURLを抽出する。

2018-09-2513 min read

目次

  1. 概要
  2. 環境--利用したもの
  3. 実装

概要

NodeJSでsitemap.xmlからURLを抽出する方法のメモ。 ちょっとググるとsitemap-stream-parserなんてものがありましたが、正直イケてませんでした。

PythonならBeautifulSoupという強力なライブラリがありますが、 せっかくなのでNodeJS自作しました。

環境 + 利用したもの

macOS NodeJS v10.10.0 sync-request ※同期処理でリクエストを投げる xml2json *XMLをJSONに変換するモジュール

実装

実装で気をつけたポイント

sitemap.xmlはURLがそのまま記述されているパターンのものと、 子のxmlのパスが記述されているパターンがあります。

ちょっとググるとこの点を考慮していないものも見受けられますが、 紹介する実装はこの点を考慮しました。

シンプルに配列を返すパターン

const request = require('sync-request');
const parser = require('xml2json');

const url = 'https://tech-blog.s-yoshiki.com/sitemap.xml';
console.log(JSON.stringify(getSitemap(url)));

function getSitemap(sitemap_url) {
  var result = [];
  var response = request(
    'GET',
    sitemap_url,
  );

  if (response.statusCode !== 200) {
    console.log('Status Code (function) : ' + response.statusCode);
    return;
  }

  var data = JSON.parse(
    parser.toJson(
      response.getBody('utf8'),
    ),
  );
  if (data['urlset']) {
    if (data['urlset']['url'].length > 0) {
      data['urlset']['url'].forEach((v) => {
        result.push(v);
      });
    } else if (data['urlset']['url']) {
      result.push(data['urlset']['url']);
    }
  }

  if (!data['sitemapindex'] || !data['sitemapindex']['sitemap']) {
    return result;
  }

  if (data['sitemapindex']['sitemap'].length > 0) {
    data['sitemapindex']['sitemap'].forEach((v) => {
      Array.prototype.push.apply(result, getSitemap(v.loc));
    });
  } else if (data['sitemapindex']['sitemap']['loc']) {
    result.push(getSitemap(v.loc));
  }
  return result;
}

非同期実行にする場合

getSitemap(url, (v) => {
  console.log(v);
}, (err) => {
  console.log(err);
});

function getSitemap(sitemap_url, success_callback, err_callback) {
  var response = request(
    'GET',
    sitemap_url,
  );

  if (response.statusCode !== 200) {
    err_callback(response);
    return;
  }

  var data = JSON.parse(
    parser.toJson(
      response.getBody('utf8'),
    ),
  );
  if (data['urlset']) {
    if (data['urlset']['url'].length > 0) {
      data['urlset']['url'].forEach((v) => {
        success_callback(v);
      });
    } else if (data['urlset']['url']) {
      success_callback(data['urlset']['url']);
    }
  }

  if (!data['sitemapindex'] || !data['sitemapindex']['sitemap']) {
    return;
  }

  if (data['sitemapindex']['sitemap'].length > 0) {
    data['sitemapindex']['sitemap'].forEach((v) => {
      getSitemap(v.loc, success_callback, err_callback);
    });
  } else if (data['sitemapindex']['sitemap']['loc']) {
    getSitemap(v.loc, success_callback, err_callback);
  }
}

出力

出力例として、下記のような出力がされます。

{ loc: 'https://tech-blog.s-yoshiki.com/2018/01/13/',
  lastmod: '2018-05-03T05:45:57+00:00',
  changefreq: 'monthly',
  priority: '1.0' }
{ loc: 'https://tech-blog.s-yoshiki.com/2018/01/10/',
  lastmod: '2018-09-09T07:59:35+00:00',
  changefreq: 'monthly',
  priority: '1.0' }
{ loc: 'https://tech-blog.s-yoshiki.com/2018/01/5/',
  lastmod: '2018-01-22T12:15:57+00:00',
  changefreq: 'monthly',
  priority: '1.0' }
{ loc: 'https://tech-blog.s-yoshiki.com/blog_history/',
  lastmod: '2018-09-24T15:38:10+00:00',
  changefreq: 'weekly',
  priority: '0.3' }
{ loc: 'https://tech-blog.s-yoshiki.com/contents/',
  lastmod: '2018-06-16T14:48:38+00:00',
  changefreq: 'weekly',
  priority: '0.3' }
{ loc: 'https://tech-blog.s-yoshiki.com/about-me/',
  lastmod: '2018-07-28T13:28:55+00:00',
  changefreq: 'weekly',
  priority: '0.3' }
Tags
javascript(109)
linux(54)
node.js(53)
amazon%20aws(47)
typescript(44)
%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0(36)
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86(30)
html5(29)
php(24)
centos(24)
python(22)
%E7%AB%B6%E6%8A%80%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0(21)
mac(21)
mysql(20)
canvas(19)
opencv(17)
%E9%9B%91%E8%AB%87(16)
docker(16)
wordpress(15)
atcoder(14)
apache(12)
%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92(12)
%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9(12)
amazon%20s3(12)
red%20hat(12)
prisma(12)
ubuntu(11)
github(10)
git(10)
vue.js(10)
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86100%E6%9C%AC%E3%83%8E%E3%83%83%E3%82%AF(10)
mariadb(10)
react(9)
aws%20cdk(9)
css3(8)
%E5%8F%AF%E8%A6%96%E5%8C%96(8)
%E5%B0%8F%E3%83%8D%E3%82%BF(8)
nestjs(8)
amazon%20lightsail(7)
next.js(7)
%E3%83%96%E3%83%AD%E3%82%B0(6)
cms(6)
oracle(6)
perl(6)
gitlab(6)
iam(5)
amazon%20ec2(5)
%E8%B3%87%E6%A0%BC%E8%A9%A6%E9%A8%93(5)
aws%20amplify(5)
curl(4)
Author
githubzennqiita
ただの備忘録です。

※外部送信に関する公表事項