如何find网站上的所有链接/页面

是否有可能find所有网页和链接在任何给定的网站？我想input一个URL并产生一个来自该网站的所有链接的目录树？

我看了HTTrack，但下载整个网站，我只需要目录树。

检查linkchecker – 它将抓取该网站（同时遵守robots.txt ）并生成一个报告。从那里，你可以编写一个解决scheme来创build目录树。

或者，您可以使用Google来显示为该网域编制索引的所有网页。例如： site:www.bbc.co.uk

如果您的浏览器中有开发人员控制台（JavaScript），则可以在以下位置键入此代码：

 urls = document.querySelectorAll('a'); for (url in urls) console.log(urls[url].href);

缩短：

 n=$$('a');for(u in n)console.log(n[u].href)

如果这是一个编程问题，那么我build议你编写自己的正则expression式来parsing所有检索到的内容。目标标签是标准HTML的IMG和A. 对于JAVA来说，

 final String openingTags = "(<a [^>]*href=['\"]?|<img[^> ]* src=['\"]?)";

这与Pattern和Matcher类一起应该检测标签的开始。如果您还想要CSS，请添加LINK标记。

但是，这并不像你想象的那么简单。许多网页的格式不正确。如果你需要考虑所有的不规则expression式，通过程序提取所有的链接，人类可以“识别”真的很困难。

祝你好运！

 function getalllinks($url){ $links = array(); if ($fp = fopen($url, 'r')) { $content = ''; while ($line = fread($fp, 1024)) { $content .= $line; } } $textLen = strlen($content); if ( $textLen > 10){ $startPos = 0; $valid = true; while ($valid){ $spos = strpos($content,'<a ',$startPos); if ($spos < $startPos) $valid = false; $spos = strpos($content,'href',$spos); $spos = strpos($content,'"',$spos)+1; $epos = strpos($content,'"',$spos); $startPos = $epos; $link = substr($content,$spos,$epos-$spos); if (strpos($link,'http://') !== false) $links[] = $link; } } return $links; } try this code....

如何find网站上的所有链接/页面

如何在Ruby中重命名文件？

如何查找Python中是否存在目录

查找文件夹中的所有文件

如何获取目录中的目录列表，如list.files（），而是“list.dirs（）”

获取Windows窗体应用程序执行目录的path

如何在Java中创build一个目录？

在Java中将文件从一个目录复制到另一个目录

如何检查一个目录是否可以在PHP中写入？

在C中创build一个新目录

git – 如何删除空文件夹并推送更改？