脚本从网站中提取,并在Excel中创build单词列表
我想跨美国州(阿拉巴马州,加利福尼亚州,纽约密西西比州田纳西州,北部,南卡罗来纳州和格鲁吉亚州)allrecordlabels.com列表和types如下:
A1 LABEL NAME / B1 STATE NAME / C1 MUSIC GENRE(S)(如果您知道如何添加:您可以在某些标签的页面上find的标签的D1联系人电子邮件)然后按照列表制作一个按字母顺序排列的列表。
如果标签有多种types,则可以将它们堆叠在同一列中。
这里有一些我们编写的代码:
<?php $labelsData = array(); $stateListPage = file_get_contents('http://www.allrecordlabels.com/db/state/'); preg_match_all('#<li> <a href="([AZ]+)\.html">([a-zA-Z ]+)</a></li>#', $stateListPage, $statePagesURL); foreach($statePagesURL[1] AS $statePageURL) { $statePage = file_get_contents('http://www.allrecordlabels.com/db/state/' . $statePageURL . '.html'); preg_match('#<h2>State ([a-zA-Z ]+)</h2>#', $statePage, $state); $state = $state[1]; preg_match_all('#<li><a href="https?://.+\.[az]{2,5}">([^<]+)</a>#', $statePage, $labelsFound); foreach($labelsFound[1] AS $label) { if(!isset($labelsData[$label])) $labelsData[$label] = array('state' => $state); else $labelsData[$label]['state'] .= ' - ' . $state; } } /* $genreListPage = file_get_contents('http://www.allrecordlabels.com/db/genres/'); preg_match_all('#<li> <a href="([^\.]).html">([a-zA-Z /-]+)</a></li>#', $genreListPage, $genrePagesURL); print_r($labelsData);*/ ?>
所有这些信息都列在网站上,并且很容易访问。 你能帮我做这个脚本工作,我怎么转移excel btw?
谢谢
按stream派分类的标签: http : //www.allrecordlabels.com/db/genres/
状态http://www.allrecordlabels.com/db/state/
国家标签:
阿拉巴马州http://www.allrecordlabels.com/db/state/AL.html
Mississipi http://www.allrecordlabels.com/db/state/MS.html
田纳西州http://www.allrecordlabels.com/db/state/TN.html
北卡罗莱纳州http://www.allrecordlabels.com/db/state/NC.html
南卡罗来纳州http://www.allrecordlabels.com/db/state/SC.html
格鲁吉亚http://www.allrecordlabels.com/db/state/GA.html
纽约http://www.allrecordlabels.com/db/state/NY.html
加利福尼亚州http://www.allrecordlabels.com/db/state/CA.html