HTMLの中からaタグ・imgタグのリンクだけを抽出するツールを作った【JS】

HTMLの中からaタグ・imgタグのリンクだけを抽出するツールを作った【JS】

2018-08-0416 min read

目次

  1. 概要
  2. デモ
  3. domparserの紹介
  4. ソース
  5. 参考

概要

HTMLの中からaタグ・imgタグのリンクを抽出するツールを作りました。 a href抽出 2018080418_domparse1.png img src抽出 2018080418_domparse2.png HTMLテキストをコピペするとaタグ・imgタグのリンクを抽出します。 pythonのスクレイピング関連ツール(bs4)とかを使えば、 簡単にパースをすることができると思いますが、 フロントの機能だけで(JSのみで)成り立つのがメリットかと思います。

デモ

https://jsfiddle.net/s_yoshiki/m3uboag5/

DomParserの紹介

DOMParser - Web API インターフェイス | MDN xml html svgなどをパースします。

DOMParser の生成

parser.parseFromString()を使うことでdocumentオブジェクトを返り血として受け取ることができます。 つまり、 getElementById()などが使えるということです。 document - Web API インターフェイス | MDN

var parser = new DOMParser();
var doc = parser.parseFromString(stringContainingXMLSource, "application/xml");
// SVGDocument でも HTMLDocument でもなく、Document が返る

parser = new DOMParser();
doc = parser.parseFromString(stringContainingXMLSource, "image/svg+xml");
// SVGDocument (Document) が返る

parser = new DOMParser();
doc = parser.parseFromString(stringContainingHTMLSource, "text/html");
// HTMLDocument (Document) が返る

aタグLinkの取得

以下の方法でリンクを取得できます。

Array.from(doc.links, (e) => {
    return e.getAttribute("href").toString()
})

document.links - Web API インターフェイス | MDN

Array.from(doc.images, (e) => {
    return e.getAttribute("src").toString()
})

document.images - Web API インターフェイス | MDN

ソース

HTML

<!--
<link type="text/css" rel="stylesheet" href="//unpkg.com/bootstrap/dist/css/bootstrap.min.css"/>
<link type="text/css" rel="stylesheet" href="//unpkg.com/bootstrap-vue@latest/dist/bootstrap-vue.css"/>

<script src="//unpkg.com/babel-polyfill@latest/dist/polyfill.min.js"></script>
<script src="//unpkg.com/bootstrap-vue@latest/dist/bootstrap-vue.js"></script> -->
<header>
  <div class="container">

    ## html Parser

    <span>htmlをパースします</span>
  </div>
</header>

<main>
  <div class="container">
    <div>
      <textarea class="form-control" id="text"><html>
<body>
    <div>
        <p id="hello">
            Hello World!
        

        <a href="http://hoge.co.jp"></a>
    </div>
</body>
</html>
</textarea>
    </div>

    <div>
      <div>
        <select name="horoscope" class="form-control" id="select">
          <option value="1">a - href</option>
          <option value="2">img - src</option>
        </select>
      </div>
      <div>
        <label class="radio-inline"><input type="radio" name="format" id="type:json" checked> JSON </label>
        <label class="radio-inline"><input type="radio" name="format" id="type:csv"> CSV </label>
      </div>
    </div>
    <div align="right">
      <button class="btn btn-primary mb-2" id="run">
        run
      </button>
    </div>

    <div>
      <textarea class="form-control" id="result"></textarea>
    </div>
  </div>
</main>

<footer>
  <div class="container">

    <div style="font-family: Impact;">html Parser</div>hmtlをパースします
  </div>
</footer>

JS

(() => {
  "use stricts"

  document.getElementById("run").addEventListener("click", () => {
    try {
      let src = document.getElementById("text").value
      let parsed_obj = getParsedObject(src)

      let type_csv = document.getElementById("type:csv").checked
      let dst = {}
      let mode = document.getElementById("select").value

      if (mode === '1') {
        dst = getHrefs(parsed_obj)
      } else if (mode === '2') {
        dst = getImgSrcs(parsed_obj)
      }

      if (type_csv) {
        document.getElementById("result").value = putList(dst)
      } else {
        document.getElementById("result").value = JSON.stringify(dst)
      }

    } catch (e) {
      alert(e)
    }
  })

  function getParsedObject(str_html) {
    let parser = new DOMParser()
    let doc = parser.parseFromString(str_html, "text/html")
    return doc
  }

  function getHrefs(doc) {
    return Array.from(
      doc.links,
      (e) => {
        return e.getAttribute("href").toString()
      }
    )
  }

  function getImgSrcs(doc) {
    return Array.from(
      doc.images,
      (e) => {
        return e.getAttribute("src").toString()
      }
    )
  }

  function putList(src) {
    var result = ""
    src.forEach((e) => {
      result += e + "\n"
    })
    return result
  }
})()

何かしら役に立つ場面はあると思います。

参考

Recommends
HTMLの中からaタグ・imgタグのリンクだけを抽出するツールを作った【JS】
2018-08-04
html5
javascript
domparser
Firebase + Nuxt で認証付きページを作るときに参考にしたいところ
2020-03-23
html5
javascript
vue.js
MonacoEditor + Vue を使ってエディタを実装
2019-06-23
html5
javascript
monaco%20editor
async awaitで画像を読み込み canvasに描画 JavaScript
2019-06-23
html5
javascript
canvas
JavaScriptで画像のヒストグラムの正規化
2019-06-10
html5
javascript
canvas
画像のヒストグラムを表示する Chart.js JavaScript canvas
2019-05-26
html5
javascript
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86
画像のプーリング処理 canvas + JavaScript
2019-05-19
html5
javascript
%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92
JSで画像をまとめて読み込む(プリロードする)
2019-05-06
html5
javascript
画像にモザイクをかける JavaScript canvas デモあり
2019-01-24
html5
javascript
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86
回転ルーレットを作る JavaScript + canvas
2019-01-17
html5
javascript
canvas
文字列のAAを自動生成 デモ + サンプルコード JavaScript
2019-01-03
html5
javascript
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86
全角かな or カナを半角カナに変換する【JS】
2018-12-28
html5
javascript
canvas上のマウス座標を取得する。【JS】
2018-12-26
html5
javascript
JavaScript + canvasで砂嵐を描画する サンプルコード
2018-12-12
html5
javascript
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86
csvをmarkdownのテーブル & HTMLに変換するスクリプト
2018-11-18
html5
javascript
New Posts
[CDK]SNS+SQS+DynamoDBでBounceとComplaint情報を収集する...
2022-04-11
amazon%20aws
node.js
typescript
[AmazonSES] node.js と ejs を利用してEメールを送信する
2022-04-09
javascript
node.js
amazon%20aws
GatsbyからNext.jsへのサイト移行
2022-04-04
next.js
gatsby
amazon%20aws
[AWS CDK] Lambda で S3 オブジェクトを読み書きするStackの構築
2022-03-18
aws%20cdk
amazon%20aws
typescript
[AWS CDK] S3 + CloudFrontの構築とOriginAccessIden...
2022-03-09
amazon%20aws
aws%20cdk
typescript
[AWS CDK] Bastion(踏み台)構築。SSMとEC2InstanceConne...
2022-03-06
amazon%20aws
aws%20cdk
node.js
[AWS CDK] Cognito を構築
2022-03-04
amazon%20aws
aws%20cdk
node.js
AWS CDK v2 でVPC上にAPI Gateway + Lambda + RDS +...
2022-02-28
amazon%20aws
aws%20cdk
node.js
javascriptで累積和を解く
2022-02-27
%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
%E7%AB%B6%E6%8A%80%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%A0%E3%83%9F%E3%83%B3%E3%82%B0
atcoder
AWS Amplify で monorepo を導入し 単一リポジトリで複数プロジェクトを...
2022-02-25
git
github
amazon%20aws
AWS CDK v2 で Lambda関数のデプロイ
2022-02-23
typescript
amazon%20aws
aws%20cdk
NextJSでDevToysのようなものを作成した
2022-02-22
javascript
typescript
vercel
JSで動的計画法を利用して部分和問題を解く
2022-02-20
javascript
typescript
%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
NestJSアプリケーションをwebpackでBundle
2022-02-20
javascript
typescript
nestjs
[Next.js] Warning: Assign arrow function to a...
2022-02-13
javascript
typescript
next.js
Hot posts!
Proxy環境下でcurlを実行する
2019-12-07
linux
curl
OpenCVのMatのタイプ一覧表
2018-11-25
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86
opencv
Macでも利用できるDBクライアント MySQL PostgreSQL Oracle など
2019-12-21
linux
%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9
mysql
TablePlusを使ってみる。シンプルでモダンなSQLクライアントツール
2018-09-30
%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9
DBクライアントツールはDBeaverをおすすめしたい
2021-03-08
oracle
mysql
sqlite
AWS S3のアクセスキーIDとシークレットアクセスキーの取得 作業用ユーザを作成
2019-06-12
amazon%20aws
linux
amazon%20s3
AtCoderで初めて色がつくまでの話(茶色) レートが中々上がらなかった原因
2018-11-25
%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
%E7%AB%B6%E6%8A%80%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0
%E9%9B%91%E8%AB%87
CentOS8でEPELとPowerToolsリポジトリの有効化
2020-11-30
centos
red%20hat
EPEL
Macでターミナルからポートスキャンを行う方法。
2018-12-09
linux
mac
apple
Python + OpenCVのfillConvexPolyで複雑なポリゴンを描画する
2018-11-27
python
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86
opencv
Date
▶︎
2022 年 (21)
▶︎
2021 年 (40)
▶︎
2020 年 (30)
▶︎
2019 年 (90)
▶︎
2018 年 (89)
▶︎
2017 年 (1)
Tags
javascript(92)
linux(47)
amazon%20aws(39)
%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0(36)
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86(30)
node.js(30)
html5(29)
centos(24)
php(23)
python(22)
%E7%AB%B6%E6%8A%80%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0(20)
typescript(20)
canvas(18)
mac(18)
opencv(17)
mysql(17)
%E9%9B%91%E8%AB%87(15)
wordpress(15)
docker(14)
atcoder(13)
apache(12)
%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92(12)
%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9(12)
red%20hat(12)
ubuntu(11)
amazon%20s3(11)
github(10)
git(10)
vue.js(10)
%E7%94%BB%E5%83%8F%E5%87%A6%E7%90%86100%E6%9C%AC%E3%83%8E%E3%83%83%E3%82%AF(10)
css3(8)
%E5%8F%AF%E8%A6%96%E5%8C%96(8)
%E5%B0%8F%E3%83%8D%E3%82%BF(8)
mariadb(8)
amazon%20lightsail(7)
react(7)
%E3%83%96%E3%83%AD%E3%82%B0(6)
cms(6)
oracle(6)
perl(6)
gitlab(6)
next.js(6)
aws%20cdk(6)
iam(5)
amazon%20ec2(5)
aws%20amplify(5)
curl(4)
webassembly(4)
ssh(4)
homebrew(4)
Author
s-yoshiki
s-yoshiki
githubzenntwitterqiita
ただの備忘録です。
JavaScript/TypeScript/node.js/React/AWS/OpenCV
※このブログの内容は個人の見解であり、所属する組織等の見解ではありません。