スポンサーリンク

HTMLの中からaタグ・imgタグのリンクだけを抽出するツールを作った【JS】

スポンサーリンク
HTML
スポンサーリンク

概要

HTMLの中からaタグ・imgタグのリンクを抽出するツールを作りました。
a href抽出
2018080418_domparse1.png
img src抽出
2018080418_domparse2.png
HTMLテキストをコピペするとaタグ・imgタグのリンクを抽出します。
pythonのスクレイピング関連ツール(bs4)とかを使えば、
簡単にパースをすることができると思いますが、
フロントの機能だけで(JSのみで)成り立つのがメリットかと思います。


デモ


https://jsfiddle.net/s_yoshiki/m3uboag5/


DomParserの紹介

DOMParser – Web API インターフェイス | MDN
xml html svgなどをパースします。

DOMParser の生成

parser.parseFromString()を使うことでdocumentオブジェクトを返り血として受け取ることができます。
つまり、 getElementById()などが使えるということです。
document – Web API インターフェイス | MDN

var parser = new DOMParser();
var doc = parser.parseFromString(stringContainingXMLSource, "application/xml");
// SVGDocument でも HTMLDocument でもなく、Document が返る

parser = new DOMParser();
doc = parser.parseFromString(stringContainingXMLSource, "image/svg+xml");
// SVGDocument (Document) が返る

parser = new DOMParser();
doc = parser.parseFromString(stringContainingHTMLSource, "text/html");
// HTMLDocument (Document) が返る

以下の方法でリンクを取得できます。

Array.from(doc.links, (e) => {
return e.getAttribute("href").toString()
})

document.links – Web API インターフェイス | MDN

Array.from(doc.images, (e) => {
return e.getAttribute("src").toString()
})

document.images – Web API インターフェイス | MDN


ソース

HTML



html Parser

htmlをパースします




html Parser
hmtlをパースします

JS

(() => {
"use stricts"

document.getElementById("run").addEventListener("click", () => {
try {
let src = document.getElementById("text").value
let parsed_obj = getParsedObject(src)

let type_csv = document.getElementById("type:csv").checked
let dst = {}
let mode = document.getElementById("select").value

if (mode === '1') {
dst = getHrefs(parsed_obj)
} else if (mode === '2') {
dst = getImgSrcs(parsed_obj)
}

if (type_csv) {
document.getElementById("result").value = putList(dst)
} else {
document.getElementById("result").value = JSON.stringify(dst)
}

} catch (e) {
alert(e)
}
})

function getParsedObject(str_html) {
let parser = new DOMParser()
let doc = parser.parseFromString(str_html, "text/html")
return doc
}

function getHrefs(doc) {
return Array.from(
doc.links,
(e) => {
return e.getAttribute("href").toString()
}
)
}

function getImgSrcs(doc) {
return Array.from(
doc.images,
(e) => {
return e.getAttribute("src").toString()
}
)
}

function putList(src) {
var result = ""
src.forEach((e) => {
result += e + "\n"
})
return result
}
})()

何かしら役に立つ場面はあると思います。

参考

HTML JavaScript フロントエンド
スポンサーリンク
スポンサーリンク
スポンサーリンク
404 Motivation Not Found
タイトルとURLをコピーしました