
HTMLの中からaタグ・imgタグのリンクだけを抽出するツールを作った【JS】
2018-08-0416 min read
目次
概要
HTMLの中からaタグ・imgタグのリンクを抽出するツールを作りました。
a href抽出
img src抽出
HTMLテキストをコピペするとaタグ・imgタグのリンクを抽出します。
pythonのスクレイピング関連ツール(bs4)とかを使えば、
簡単にパースをすることができると思いますが、
フロントの機能だけで(JSのみで)成り立つのがメリットかと思います。
デモ
https://jsfiddle.net/s_yoshiki/m3uboag5/
DomParserの紹介
DOMParser - Web API インターフェイス | MDN xml html svgなどをパースします。
DOMParser の生成
parser.parseFromString()を使うことでdocumentオブジェクトを返り血として受け取ることができます。 つまり、 getElementById()などが使えるということです。 document - Web API インターフェイス | MDN
var parser = new DOMParser();
var doc = parser.parseFromString(stringContainingXMLSource, "application/xml");
// SVGDocument でも HTMLDocument でもなく、Document が返る
parser = new DOMParser();
doc = parser.parseFromString(stringContainingXMLSource, "image/svg+xml");
// SVGDocument (Document) が返る
parser = new DOMParser();
doc = parser.parseFromString(stringContainingHTMLSource, "text/html");
// HTMLDocument (Document) が返る
aタグLinkの取得
以下の方法でリンクを取得できます。
Array.from(doc.links, (e) => {
return e.getAttribute("href").toString()
})
document.links - Web API インターフェイス | MDN
Array.from(doc.images, (e) => {
return e.getAttribute("src").toString()
})
document.images - Web API インターフェイス | MDN
ソース
HTML
<!--
<link type="text/css" rel="stylesheet" href="//unpkg.com/bootstrap/dist/css/bootstrap.min.css"/>
<link type="text/css" rel="stylesheet" href="//unpkg.com/bootstrap-vue@latest/dist/bootstrap-vue.css"/>
<script src="//unpkg.com/babel-polyfill@latest/dist/polyfill.min.js"></script>
<script src="//unpkg.com/bootstrap-vue@latest/dist/bootstrap-vue.js"></script> -->
<header>
<div class="container">
## html Parser
<span>htmlをパースします</span>
</div>
</header>
<main>
<div class="container">
<div>
<textarea class="form-control" id="text"><html>
<body>
<div>
<p id="hello">
Hello World!
<a href="http://hoge.co.jp"></a>
</div>
</body>
</html>
</textarea>
</div>
<div>
<div>
<select name="horoscope" class="form-control" id="select">
<option value="1">a - href</option>
<option value="2">img - src</option>
</select>
</div>
<div>
<label class="radio-inline"><input type="radio" name="format" id="type:json" checked> JSON </label>
<label class="radio-inline"><input type="radio" name="format" id="type:csv"> CSV </label>
</div>
</div>
<div align="right">
<button class="btn btn-primary mb-2" id="run">
run
</button>
</div>
<div>
<textarea class="form-control" id="result"></textarea>
</div>
</div>
</main>
<footer>
<div class="container">
<div style="font-family: Impact;">html Parser</div>hmtlをパースします
</div>
</footer>
JS
(() => {
"use stricts"
document.getElementById("run").addEventListener("click", () => {
try {
let src = document.getElementById("text").value
let parsed_obj = getParsedObject(src)
let type_csv = document.getElementById("type:csv").checked
let dst = {}
let mode = document.getElementById("select").value
if (mode === '1') {
dst = getHrefs(parsed_obj)
} else if (mode === '2') {
dst = getImgSrcs(parsed_obj)
}
if (type_csv) {
document.getElementById("result").value = putList(dst)
} else {
document.getElementById("result").value = JSON.stringify(dst)
}
} catch (e) {
alert(e)
}
})
function getParsedObject(str_html) {
let parser = new DOMParser()
let doc = parser.parseFromString(str_html, "text/html")
return doc
}
function getHrefs(doc) {
return Array.from(
doc.links,
(e) => {
return e.getAttribute("href").toString()
}
)
}
function getImgSrcs(doc) {
return Array.from(
doc.images,
(e) => {
return e.getAttribute("src").toString()
}
)
}
function putList(src) {
var result = ""
src.forEach((e) => {
result += e + "\n"
})
return result
}
})()
何かしら役に立つ場面はあると思います。
参考
Recommends
HTMLの中からaタグ・imgタグのリンクだけを抽出するツールを作った【JS】
2018-08-04
Firebase + Nuxt で認証付きページを作るときに参考にしたいところ
2020-03-23
MonacoEditor + Vue を使ってエディタを実装
2019-06-23
async awaitで画像を読み込み canvasに描画 JavaScript
2019-06-23
JavaScriptで画像のヒストグラムの正規化
2019-06-10
画像のヒストグラムを表示する Chart.js JavaScript canvas
2019-05-26
画像のプーリング処理 canvas + JavaScript
2019-05-19
JSで画像をまとめて読み込む(プリロードする)
2019-05-06
画像にモザイクをかける JavaScript canvas デモあり
2019-01-24
回転ルーレットを作る JavaScript + canvas
2019-01-17
文字列のAAを自動生成 デモ + サンプルコード JavaScript
2019-01-03
全角かな or カナを半角カナに変換する【JS】
2018-12-28
canvas上のマウス座標を取得する。【JS】
2018-12-26
JavaScript + canvasで砂嵐を描画する サンプルコード
2018-12-12
csvをmarkdownのテーブル & HTMLに変換するスクリプト
2018-11-18
New Posts
[CDK]SNS+SQS+DynamoDBでBounceとComplaint情報を収集する...
2022-04-11
[AmazonSES] node.js と ejs を利用してEメールを送信する
2022-04-09
GatsbyからNext.jsへのサイト移行
2022-04-04
[AWS CDK] Lambda で S3 オブジェクトを読み書きするStackの構築
2022-03-18
[AWS CDK] S3 + CloudFrontの構築とOriginAccessIden...
2022-03-09
[AWS CDK] Bastion(踏み台)構築。SSMとEC2InstanceConne...
2022-03-06
[AWS CDK] Cognito を構築
2022-03-04
AWS CDK v2 でVPC上にAPI Gateway + Lambda + RDS +...
2022-02-28
javascriptで累積和を解く
2022-02-27
AWS Amplify で monorepo を導入し 単一リポジトリで複数プロジェクトを...
2022-02-25
AWS CDK v2 で Lambda関数のデプロイ
2022-02-23
NextJSでDevToysのようなものを作成した
2022-02-22
JSで動的計画法を利用して部分和問題を解く
2022-02-20
NestJSアプリケーションをwebpackでBundle
2022-02-20
[Next.js] Warning: Assign arrow function to a...
2022-02-13
Hot posts!
Proxy環境下でcurlを実行する
2019-12-07
OpenCVのMatのタイプ一覧表
2018-11-25
Macでも利用できるDBクライアント MySQL PostgreSQL Oracle など
2019-12-21
TablePlusを使ってみる。シンプルでモダンなSQLクライアントツール
2018-09-30
DBクライアントツールはDBeaverをおすすめしたい
2021-03-08
AWS S3のアクセスキーIDとシークレットアクセスキーの取得 作業用ユーザを作成
2019-06-12
AtCoderで初めて色がつくまでの話(茶色) レートが中々上がらなかった原因
2018-11-25
CentOS8でEPELとPowerToolsリポジトリの有効化
2020-11-30
Macでターミナルからポートスキャンを行う方法。
2018-12-09
Python + OpenCVのfillConvexPolyで複雑なポリゴンを描画する
2018-11-27
Date
▶︎
2022 年 (21)
▶︎
2021 年 (40)
▶︎
2020 年 (30)
▶︎
2019 年 (90)
▶︎
2018 年 (89)
▶︎
2017 年 (1)
Tags
Author