国产成人精品久久免费动漫-国产成人精品天堂-国产成人精品区在线观看-国产成人精品日本-a级毛片无码免费真人-a级毛片毛片免费观看久潮喷

您的位置:首頁技術(shù)文章
文章詳情頁

PHP中使用DOMDocument來處理HTML、XML文檔的示例

瀏覽:17日期:2022-09-07 14:46:39

其實從PHP5開始,PHP就為我們提供了一個強大的解析和生成XML相關(guān)操作的類,也就是我們今天要講的 DOMDocument 類。不過我估計大部分人在爬取網(wǎng)頁時還是會喜歡用正則去解析網(wǎng)頁內(nèi)容,學了今天的這個類下回就可以嘗試下使用這個PHP自帶的方式來進行解析分析了。

解析HTML

// 解析 HTML$baidu = file_get_contents(’https://www.baidu.com’);$doc = new DOMDocument();@$doc->loadHTML($baidu);// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd// 獲取所有圖片的鏈接$allImageLinks = [];$imgs = $doc->getElementsByTagName(’img’);foreach($imgs as $img){ $allImageLinks[] = $img->getAttribute(’src’);}print_r($allImageLinks);// Array// (// [0] => //www.baidu.com/img/baidu_jgylogo3.gif// [1] => //www.baidu.com/img/bd_logo.png// [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif// )// 利用 parse_url 分析鏈接foreach($allImageLinks as $link){ print_r(parse_url($link));}// Array// (// [host] => www.baidu.com// [path] => /img/baidu_jgylogo3.gif// )// Array// (// [host] => www.baidu.com// [path] => /img/bd_logo.png// )// Array// (// [scheme] => http// [host] => s1.bdstatic.com// [path] => /r/www/cache/static/global/img/gs_237f015b.gif// )

是不是感覺好清晰,好有面向?qū)ο蟮母杏X。就像第一次使用 ORM庫 來進行數(shù)據(jù)庫操作一樣的感覺。我們一段一段來看。

$baidu = file_get_contents(’https://www.baidu.com’);$doc = new DOMDocument();@$doc->loadHTML($baidu);

首先是加載文檔內(nèi)容,這個比較好理解,直接使用 loadHTML() 方法加載 HTML 內(nèi)容。它還提供了其它的幾個方法,分別是:load() 從一個文件加載XML;loadXML() 從字符串加載XML;loadHTMLFile() 從文件加載HTML。

// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd

首先是加載文檔內(nèi)容,這個比較好理解,直接使用 loadHTML() 方法加載 HTML 內(nèi)容。它還提供了其它的幾個方法,分別是:load() 從一個文件加載XML;loadXML() 從字符串加載XML;loadHTMLFile() 從文件加載HTML。

// 百度輸出框$inputSearch = $doc->getElementById(’kw’);var_dump($inputSearch);// object(DOMElement)#2 // ....echo $inputSearch->getAttribute(’name’), PHP_EOL; // wd

接下來我們使用和前端 JS 一樣的 DOM 操作API來操作HTML里面的元素。這個例子中就是獲取百度的文本框,直接使用 getElementById() 方法獲得id為指定內(nèi)容的 DOMElement 對象。然后就可以獲取它的值、屬性之類的內(nèi)容了。

// 獲取所有圖片的鏈接$allImageLinks = [];$imgs = $doc->getElementsByTagName(’img’);foreach($imgs as $img){ $allImageLinks[] = $img->getAttribute(’src’);}print_r($allImageLinks);// Array// (// [0] => //www.baidu.com/img/baidu_jgylogo3.gif// [1] => //www.baidu.com/img/bd_logo.png// [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif// )// 利用 parse_url 分析鏈接foreach($allImageLinks as $link){ print_r(parse_url($link));}// Array// (// [host] => www.baidu.com// [path] => /img/baidu_jgylogo3.gif// )// Array// (// [host] => www.baidu.com// [path] => /img/bd_logo.png// )// Array// (// [scheme] => http// [host] => s1.bdstatic.com// [path] => /r/www/cache/static/global/img/gs_237f015b.gif// )

這一段例子則是獲取HTML文檔中所有的圖片鏈接。相比正則來說,是不是方便很多,而且代碼本身就是自解釋的,不用考慮正則的匹配失效的問題。配合另外一個PHP中自帶的 parse_url() 方法也能非常方便地對鏈接進行分析,提取自己想要的內(nèi)容。

XML的解析和對HTML的解析也是類似的,都使用 DOMDocument 和 DOMElement 提供的這個方法接口就可以很方便的進行解析了。那么我們想要生成一個標準格式的XML呢?當然也非常的簡單,不需要再去拼接字符串了,使用這個類一樣的進行對象化的操作。

生成一個XML

// 生成一個XML文檔$xml = new DOMDocument(’1.0’, ’UTF-8’);$node1 = $xml->createElement(’First’, ’This is First Node.’);$node1->setAttribute(’type’, ’1’);$node2 = $xml->createElement(’Second’);$node2->setAttribute(’type’, ’2’);$node2_child = $xml->createElement(’Second-Child’, ’This is Second Node Child.’);$node2->appendChild($node2_child);$xml->appendChild($node1);$xml->appendChild($node2);print $xml->saveXML();/*<?xml version='1.0' encoding='UTF-8'?><First type='1'>This is First Node.</First><Second type='2'><Second-Child>This is Second Node Child.</Second-Child></Second>*/

其實只要有一點點的前端 JS 的基礎(chǔ)都不難看出這段代碼的含義。使用 createElement() 方法創(chuàng)造 DOMElement 對象,然后就可以為它添加屬性和內(nèi)容。使用 appendChild() 方法就可以為當前的 DOMElement 或者 DOMDocument 添加下級節(jié)點。最后使用 saveXML() 就能夠生成標準的XML格式內(nèi)容了。

總結(jié)

通過上面兩個簡單的小例子,相信大家已經(jīng)對這個 DOMDocument 操作XML類文件解析的方式非常感興趣了。不過相對于正則解析的方式它們的性能有多大的差異并沒有找到相關(guān)的測試,不過一般正常的情況下網(wǎng)站的HMTL文檔都不會太大,畢竟各個網(wǎng)站也會考慮自身的加載速度,如果文檔非常大的話用戶體驗也會很差,所以這套接口用來進行日常爬蟲的分析處理工作基本是沒有任何問題的。

測試代碼: github.com/zhangyue050…

以上就是PHP中使用DOMDocument來處理HTML、XML文檔的示例的詳細內(nèi)容,更多關(guān)于PHP DOMDocument處理HTML、XML的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章!

標簽: PHP
相關(guān)文章:
主站蜘蛛池模板: 狠狠色丁香久久婷婷综合_中 | 国产九九精品视频 | 免费永久观看美女视频网站网址 | 欧美成人免费看片一区 | 久久综合九九亚洲一区 | 久久www免费人成精品 | 精品国产91在线网 | 亚洲国产激情 | 国语自产精品视频 | 亚洲国产天堂久久精品网 | 亚洲国产精品一区二区三区 | 日韩成人精品日本亚洲 | 日本一区二区高清免费不卡 | a欧美在线| 免费在线观看a级毛片 | 欧美日韩在线播一区二区三区 | 深夜成人性视频免费看 | 国产国产成人人免费影院 | 久久久久久久网站 | 古代级a毛片在线 | 国产成人精品999在线观看 | 欧美精品做人一级爱免费 | 亚洲美色综合天天久久综合精品 | 手机免费在线看毛片 | 国产精品性视频免费播放 | 欧美亚洲国产成人综合在线 | 国产精选经典三级小泽玛利亚 | 国内精品一区二区三区最新 | 久久久久久久久国产 | 一级美国乱色毛片 | 美女视频网站免费播放视 | 国产精品日产三级在线观看 | 国产不卡a | a级国产精品片在线观看 | 色视频在线观看视频 | 亚洲国产成人久久综合一区 | 国产成人手机视频 | 国产亚洲毛片在线 | 亚洲天堂2016| 久99re视频9在线观看 | 国内精品影院久久久久 |