如何从Perl文件中提取HTML文件的链接?

我有一些链接的input,我想打开该链接。 例如,我有一个HTML文件,并希望查找文件中的所有链接,并在Excel电子表格中打开其内容。

这听起来像你想从我的HTML :: SimpleLinkExtor模块linktractor脚本。

您可能也对我的webreaper脚本感兴趣。 我很久很久以前就写了这个东西来接近这个相同的任务。 我不推荐它,因为其他工具现在好多了,但你至less可以看看代码。

CPAN和Google是你的朋友。 🙂

Mojo :: UserAgent也是相当不错的:

use Mojo::UserAgent print Mojo::UserAgent ->new ->get( $ARGV[0] ) ->res ->dom->find( "a" ) ->map( attr => "href" ) ->join( "\n" ); 

这听起来像WWW ::机械化的工作 。 它提供了一个相当高水平的接口来获取和学习网页。

一旦你阅读了文档,我想你会有一个好主意如何去做。

还有Web :: Query :

 #!/usr/bin/env perl use 5.10.0; use strict; use warnings; use Web::Query; say for wq( shift )->find('a')->attr('href'); 

或者,从cli:

 $ perl -MWeb::Query -E'say for wq(shift)->find("a")->attr("href")' \ http://techblog.babyl.ca 

我在过去使用了URI :: Find (当文件不是HTML时)。