NodeJSでsitemapをパースしてURLを抽出する。

2018-09-25
javascript%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0node.jssitemap
    

目次

概要

NodeJSでsitemap.xmlからURLを抽出する方法のメモ。 ちょっとググるとsitemap-stream-parserなんてものがありましたが、正直イケてませんでした。

PythonならBeautifulSoupという強力なライブラリがありますが、 せっかくなのでNodeJS自作しました。

環境 + 利用したもの

macOS NodeJS v10.10.0 sync-request ※同期処理でリクエストを投げる xml2json *XMLをJSONに変換するモジュール

実装

実装で気をつけたポイント

sitemap.xmlはURLがそのまま記述されているパターンのものと、 子のxmlのパスが記述されているパターンがあります。

ちょっとググるとこの点を考慮していないものも見受けられますが、 紹介する実装はこの点を考慮しました。

シンプルに配列を返すパターン

const request = require('sync-request');
const parser = require('xml2json');

const url = "https://tech-blog.s-yoshiki.com/sitemap.xml"
console.log(JSON.stringify(getSitemap(url)))

function getSitemap(sitemap_url) {
    var result = []
    var response = request(
        'GET',
        sitemap_url
    );

    if (response.statusCode !== 200) {
        console.log("Status Code (function) : " + response.statusCode);
        return;
    }

    var data = JSON.parse(
        parser.toJson(
            response.getBody('utf8')
        )
    )
    if (data["urlset"]) {
        if (data["urlset"]["url"].length > 0) {
            data["urlset"]["url"].forEach((v) => {
                result.push(v)
            })
        } else if (data["urlset"]["url"]) {
            result.push(data["urlset"]["url"])
        }
    }

    if (!data["sitemapindex"] || !data["sitemapindex"]["sitemap"]) {
        return result
    }

    if (data["sitemapindex"]["sitemap"].length > 0) {
        data["sitemapindex"]["sitemap"].forEach((v) => {
            Array.prototype.push.apply(result, getSitemap(v.loc));
        })
    } else if (data["sitemapindex"]["sitemap"]["loc"]) {
        result.push(getSitemap(v.loc))
    }
    return result
}

非同期実行にする場合

getSitemap(url, (v)=> {
    console.log(v)
}, (err) => {
    console.log(err)
})

function getSitemap(sitemap_url, success_callback, err_callback) {
    var response = request(
        'GET',
        sitemap_url
    );

    if (response.statusCode !== 200) {
        err_callback(response)
        return;
    }

    var data = JSON.parse(
        parser.toJson(
            response.getBody('utf8')
        )
    )
    if (data["urlset"]) {
        if (data["urlset"]["url"].length > 0) {
            data["urlset"]["url"].forEach((v) => {
                success_callback(v)
            })
        } else if (data["urlset"]["url"]) {
            success_callback(data["urlset"]["url"])
        }
    }

    if (!data["sitemapindex"] || !data["sitemapindex"]["sitemap"]) {
        return;
    }

    if (data["sitemapindex"]["sitemap"].length > 0) {
        data["sitemapindex"]["sitemap"].forEach((v) => {
            getSitemap(v.loc, success_callback, err_callback)
        })
    } else if (data["sitemapindex"]["sitemap"]["loc"]) {
        getSitemap(v.loc, success_callback, err_callback)
    }
}

出力

出力例として、下記のような出力がされます。

{ loc: 'https://tech-blog.s-yoshiki.com/2018/01/13/',
  lastmod: '2018-05-03T05:45:57+00:00',
  changefreq: 'monthly',
  priority: '1.0' }
{ loc: 'https://tech-blog.s-yoshiki.com/2018/01/10/',
  lastmod: '2018-09-09T07:59:35+00:00',
  changefreq: 'monthly',
  priority: '1.0' }
{ loc: 'https://tech-blog.s-yoshiki.com/2018/01/5/',
  lastmod: '2018-01-22T12:15:57+00:00',
  changefreq: 'monthly',
  priority: '1.0' }
{ loc: 'https://tech-blog.s-yoshiki.com/blog_history/',
  lastmod: '2018-09-24T15:38:10+00:00',
  changefreq: 'weekly',
  priority: '0.3' }
{ loc: 'https://tech-blog.s-yoshiki.com/contents/',
  lastmod: '2018-06-16T14:48:38+00:00',
  changefreq: 'weekly',
  priority: '0.3' }
{ loc: 'https://tech-blog.s-yoshiki.com/about-me/',
  lastmod: '2018-07-28T13:28:55+00:00',
  changefreq: 'weekly',
  priority: '0.3' }
    
s-yoshiki
s-yoshiki
githubtwitterqiita
Web作ってますが、インタラクティブなプログラミングも好きです。
JavaScript / Vue / node.js / PHP / AWS / OpenCV

関連記事

JSで32ビット符号付き整数に対してのビット演算でハマった
具体例 参考にしたサイト JSでサブネットマスクの計算を行おうとしたとき、ビット演算でハマりました。その時のメモです。 JSでサブネットマスクの計算 JSでビット演算子を利用する場合 3…

JSでIPアドレスがサブネットマスクで指定した範囲内にあるか判定する
IPアドレスが指定した範囲内にあるかどうか判定 参考にしたサイト JSでIPアドレス(IPv4)が指定したサブネットの範囲に含まれるか判定するロジックを作った時の記録です。 IPアドレスが指定した範囲内にあるかどうか判定 処理としては、IP…

プログラムの数値計算で発生する誤差の種類 丸め誤差・打ち切り誤差・桁落ち
はじめに 誤差の種類 丸め誤差 打ち切り誤差 桁落ち 情報落ち 桁溢れ誤差 参考にしたサイト コンピュータで出てくる誤差はいくつかありますが、 それらをコードに落として整理しました。 はじめに 例えば の計算の答えは 0.6666666666…

JSでサブネットマスクの計算
JSによるサブネットマスク関連の計算 IPv4アドレス文字列をNumber型に変換する CIDR と サブネットの相互変換 ネットワークアドレス と ブロードキャストアドレス クラス 改めて計算方法を整理する 参考にさせていただいたサイト JSでIPv…

AWS Amplify に Next.js (SSG) で作ったアプリをデプロイする
はじめに 操作 Next.js (React) アプリの作成、Gitへのプッシュ AWS Amplifyでプロジェクト作成 参考にしたサイト この記事では、React / Next.js アプリケーションを作成し、AWS Amplify…

Typescriptに入門した
初期作業 とりあえずHello World 初期作業 typescript環境を作っていきます。 とりあえずHello World まず、次のサンプルコードを作成します。 typescriptファイルをビルドします。

Vue/Nuxt.js 触ってた人が Next.js に入門する
はじめに 実施環境 学習ガイド Create a Next.js App Navigate Between Pages ページの作成 リンク Assets, Metadata, and CSS Assets メタデータ CSS…

10進数から2進数 2進数から10進数への変換 JavaScript
10進数から2進数 2進数から10進数 テスト 10進数から2進数、2進数から10進数への変換を行うJavaScriptのコードの紹介。 JSの場合、10進数から2進数への変換はメソッド。2進数から1…

JavaScriptの配列ショートハンド (AtCoder用)

JavaScriptでワーシャルフロイド法を実装
AtCoder ABC012 D問題 D - バスと避けられない運命 解説 実装 AtCoder ABC012 の D問題でワーシャルフロイド法が利用できる問題が出てきたので、 JavaScriptで実装しました。 AtCoder ABC012 D問題 D…

最新の投稿

Python poetryでパッケージ開発 PyPIで公開 Pytestでテスト CIをGitHub Actionsで回す
Poetry でパッケージ開発 pytest でユニットテストを実施しカバレッジを算出する パッケージをビルドし PyPI で公開する 検証環境にデプロイする 本番環境にデプロイする GitHub Actions で CI を回す codecovの設定 GitHub…

Perlでconstant(定数)をhashのキーに使う
ハマった事象 解決方法 1 括弧をつける 2 & をつける 参考にしたサイト Perlでconstant(定数)をhash…

php-fpmのステータスページを表示 Apache & htaccess
試した環境 php-fpm の pm.status_path について php-fpmのconfの設定 .htaccess の設定 アクセスしてみる 参考にしたサイト Apache環境で php-fpm のステータスページを htaccess…

DBクライアントツールはDBeaverをおすすめしたい
DBeaver について 特徴 対応DB 対応OS 利用環境 アーカイブ インストール windows mac Linux コネクションの作成 SQLを実行する その他 CloudBeaverについて 今までいくつかのDB…

CentOS8 に Oracle12.2 clientをインストールする
実施した環境 セットアップ clientツールの 準備 インストール 環境変数にパスを通す 実行 libnsl.so.1: cannot open shared object file と表示される場合 CentOS8 に Oracle12.2 client…

フェールセーフやフェールソフト・フールプルーフ 障害対策用語の整理

JSで32ビット符号付き整数に対してのビット演算でハマった
具体例 参考にしたサイト JSでサブネットマスクの計算を行おうとしたとき、ビット演算でハマりました。その時のメモです。 JSでサブネットマスクの計算 JSでビット演算子を利用する場合 3…

Gitにプロキシを設定する
プロキシを設定する 確認 Gitでプロキシを通しておくメモです。 プロキシを設定する 以下のコマンドでproxyを通します。 ※ がプロキシのURL…

JSでIPアドレスがサブネットマスクで指定した範囲内にあるか判定する
IPアドレスが指定した範囲内にあるかどうか判定 参考にしたサイト JSでIPアドレス(IPv4)が指定したサブネットの範囲に含まれるか判定するロジックを作った時の記録です。 IPアドレスが指定した範囲内にあるかどうか判定 処理としては、IP…

プログラムの数値計算で発生する誤差の種類 丸め誤差・打ち切り誤差・桁落ち
はじめに 誤差の種類 丸め誤差 打ち切り誤差 桁落ち 情報落ち 桁溢れ誤差 参考にしたサイト コンピュータで出てくる誤差はいくつかありますが、 それらをコードに落として整理しました。 はじめに 例えば の計算の答えは 0.6666666666…

Tags

Dates

© 2021   404 motivation not found