如何从Perl文件中提取HTML文件的链接？

我有一些链接的input，我想打开该链接。例如，我有一个HTML文件，并希望查找文件中的所有链接，并在Excel电子表格中打开其内容。

这听起来像你想从我的HTML :: SimpleLinkExtor模块linktractor脚本。

您可能也对我的webreaper脚本感兴趣。我很久很久以前就写了这个东西来接近这个相同的任务。我不推荐它，因为其他工具现在好多了，但你至less可以看看代码。

CPAN和Google是你的朋友。 🙂

Mojo :: UserAgent也是相当不错的：

use Mojo::UserAgent print Mojo::UserAgent ->new ->get( $ARGV[0] ) ->res ->dom->find( "a" ) ->map( attr => "href" ) ->join( "\n" );

这听起来像WWW ::机械化的工作。它提供了一个相当高水平的接口来获取和学习网页。

一旦你阅读了文档，我想你会有一个好主意如何去做。

还有Web :: Query ：

 #!/usr/bin/env perl use 5.10.0; use strict; use warnings; use Web::Query; say for wq( shift )->find('a')->attr('href');

或者，从cli：

 $ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \ http://techblog.babyl.ca

我在过去使用了URI :: Find （当文件不是HTML时）。