脚本从网站中提取,并在Excel中创build单词列表

我想跨美国州(阿拉巴马州,加利福尼亚州,纽约密西西比州田纳西州,北部,南卡罗来纳州和格鲁吉亚州)allrecordlabels.com列表和types如下:

A1 LABEL NAME / B1 STATE NAME / C1 MUSIC GENRE(S)(如果您知道如何添加:您可以在某些标签的页面上find的标签的D1联系人电子邮件)然后按照列表制作一个按字母顺序排列的列表。

如果标签有多种types,则可以将它们堆叠在同一列中。

这里有一些我们编写的代码:

<?php $labelsData = array(); $stateListPage = file_get_contents('http://www.allrecordlabels.com/db/state/'); preg_match_all('#<li> <a href="([AZ]+)\.html">([a-zA-Z ]+)</a></li>#', $stateListPage, $statePagesURL); foreach($statePagesURL[1] AS $statePageURL) { $statePage = file_get_contents('http://www.allrecordlabels.com/db/state/' . $statePageURL . '.html'); preg_match('#<h2>State ([a-zA-Z ]+)</h2>#', $statePage, $state); $state = $state[1]; preg_match_all('#<li><a href="https?://.+\.[az]{2,5}">([^<]+)</a>#', $statePage, $labelsFound); foreach($labelsFound[1] AS $label) { if(!isset($labelsData[$label])) $labelsData[$label] = array('state' => $state); else $labelsData[$label]['state'] .= ' - ' . $state; } } /* $genreListPage = file_get_contents('http://www.allrecordlabels.com/db/genres/'); preg_match_all('#<li> <a href="([^\.]).html">([a-zA-Z /-]+)</a></li>#', $genreListPage, $genrePagesURL); print_r($labelsData);*/ ?> 

所有这些信息都列在网站上,并且很容易访问。 你能帮我做这个脚本工作,我怎么转移excel btw?

谢谢

按stream派分类的标签: http : //www.allrecordlabels.com/db/genres/

状态http://www.allrecordlabels.com/db/state/

国家标签:

阿拉巴马州http://www.allrecordlabels.com/db/state/AL.html

Mississipi http://www.allrecordlabels.com/db/state/MS.html

田纳西州http://www.allrecordlabels.com/db/state/TN.html

北卡罗莱纳州http://www.allrecordlabels.com/db/state/NC.html

南卡罗来纳州http://www.allrecordlabels.com/db/state/SC.html

格鲁吉亚http://www.allrecordlabels.com/db/state/GA.html

纽约http://www.allrecordlabels.com/db/state/NY.html

加利福尼亚州http://www.allrecordlabels.com/db/state/CA.html