eulaurarien/collect_subdomains.py

#!/usr/bin/env python3
# pylint: disable=C0103

"""
From a list of URLs, output the subdomains
accessed by the websites.
"""

import sys
import typing
import urllib.parse

import progressbar
import selenium.webdriver.firefox.options
import seleniumwire.webdriver


def subdomain_from_url(url: str) -> str:
    """
    Extract the domain part from an url.
    """
    parsed = urllib.parse.urlparse(url)
    return parsed.netloc


def collect_subdomains(url: str) -> typing.Iterable[str]:
    """
    Load an URL into an headless browser and return all the domains
    it tried to access.
    """
    options = selenium.webdriver.firefox.options.Options()
    options.add_argument('-headless')
    driver = seleniumwire.webdriver.Firefox(
        executable_path='geckodriver', options=options)

    driver.get(url)
    for request in driver.requests:
        if request.response:
            yield subdomain_from_url(request.path)
    driver.close()


def collect_subdomains_standalone(url: str) -> None:
    url = url.strip()
    if not url:
        return
    for subdomain in collect_subdomains(url):
        print(subdomain)


if __name__ == '__main__':
    assert len(sys.argv) <= 2
    filename = None
    if len(sys.argv) == 2 and sys.argv[1] != '-':
        filename = sys.argv[1]
        num_lines = sum(1 for line in open(filename))
        iterator = progressbar.progressbar(open(filename), max_value=num_lines)
    else:
        iterator = sys.stdin

    for line in iterator:
        collect_subdomains_standalone(line)

    if filename:
        iterator.close()
Initial commit 2019-11-10 17:14:25 +00:00			`#!/usr/bin/env python3`
Added progressbar and ETA 2019-11-10 20:59:06 +00:00			`# pylint: disable=C0103`
Initial commit 2019-11-10 17:14:25 +00:00
			`"""`
			`From a list of URLs, output the subdomains`
			`accessed by the websites.`
			`"""`

			`import sys`
			`import typing`
			`import urllib.parse`

Added progressbar and ETA 2019-11-10 20:59:06 +00:00			`import progressbar`
Initial commit 2019-11-10 17:14:25 +00:00			`import selenium.webdriver.firefox.options`
			`import seleniumwire.webdriver`


			`def subdomain_from_url(url: str) -> str:`
			`"""`
			`Extract the domain part from an url.`
			`"""`
			`parsed = urllib.parse.urlparse(url)`
			`return parsed.netloc`


			`def collect_subdomains(url: str) -> typing.Iterable[str]:`
			`"""`
			`Load an URL into an headless browser and return all the domains`
			`it tried to access.`
			`"""`
			`options = selenium.webdriver.firefox.options.Options()`
			`options.add_argument('-headless')`
			`driver = seleniumwire.webdriver.Firefox(`
			`executable_path='geckodriver', options=options)`

			`driver.get(url)`
			`for request in driver.requests:`
			`if request.response:`
			`yield subdomain_from_url(request.path)`
			`driver.close()`


Added progressbar and ETA 2019-11-10 20:59:06 +00:00			`def collect_subdomains_standalone(url: str) -> None:`
			`url = url.strip()`
			`if not url:`
			`return`
			`for subdomain in collect_subdomains(url):`
			`print(subdomain)`


Initial commit 2019-11-10 17:14:25 +00:00			`if __name__ == '__main__':`
Added progressbar and ETA 2019-11-10 20:59:06 +00:00			`assert len(sys.argv) <= 2`
			`filename = None`
			`if len(sys.argv) == 2 and sys.argv[1] != '-':`
			`filename = sys.argv[1]`
			`num_lines = sum(1 for line in open(filename))`
			`iterator = progressbar.progressbar(open(filename), max_value=num_lines)`
			`else:`
			`iterator = sys.stdin`

			`for line in iterator:`
			`collect_subdomains_standalone(line)`

			`if filename:`
			`iterator.close()`