Semalt: 3 skref til að skafa PHP vefsíðu

Vefskrapun, einnig kölluð útdráttur vefgagna eða uppskeru á vefnum, er ferillinn til að vinna úr gögnum af vefsíðu eða bloggi. Þessar upplýsingar eru síðan notaðar til að stilla metatög, metalýsingar, lykilorð og tengla á vefsíðu og bæta árangur hennar í niðurstöðum leitarvélarinnar.

Tvær meginaðferðir eru notaðar til að skafa gögn:

  • Skilgreining skjals - Það felur í sér XML eða HTML skjal sem er breytt í DOM (Document Object Model) skrárnar. PHP veitir okkur frábæra DOM viðbót.
  • Regluleg orðatiltæki - Það er leið til að skafa gögn úr vefskjölunum í formi reglulegra tjáninga.

Málið með skafa gagna á vefsíðu þriðja aðila tengist höfundarrétti þess vegna þess að þú hefur ekki leyfi til að nota þessi gögn. En með PHP geturðu auðveldlega skafið gögn án vandamála sem tengjast höfundarrétti eða lágum gæðum. Sem PHP forritari gætir þú þurft gögn frá mismunandi vefsíðum í forritunarskyni. Hér höfum við útskýrt hvernig á að fá gögn frá öðrum vefsvæðum á skilvirkan hátt, en áður en það verður að hafa í huga að í lokin munt þú fá annað hvort index.php eða scrape.js skrár.

Skref 1: Búðu til eyðublað til að slá inn vefslóðina:

Fyrst af öllu ættir þú að búa til form í index.php með því að smella á Senda hnappinn og slá inn vefslóðina til að skafa gögn.

<form method = "post" name = "scrape_form" id = "scrap_form" acti>

Sláðu inn vefslóð til að skafa gögn

<input type = "input" name = "website_url" id = "website_url">

<input type = "sendu" name = "sendu" value = "Sendu">

</form>

Skref 2: Búðu til PHP aðgerð til að fá gögn um vefsíðuna:

Annað skrefið er að búa til PHP aðgerðir rusl í scrape.php skránni þar sem það mun hjálpa til við að fá gögn og nota URL bókasafnið. Það mun einnig leyfa þér að tengjast og hafa samskipti við mismunandi netþjóna og samskiptareglur án nokkurrar vandræða.

fall scrapeSiteData ($ website_url) {

ef (! function_exists ('curl_init')) {

die ('cURL er ekki sett upp. Vinsamlegast settu upp og reyndu aftur.');

}

$ krulla = krulla_init ();

curl_setopt ($ krulla, CURLOPT_URL, $ website_url);

curl_setopt ($ krulla, CURLOPT_RETURNTRANSFER, satt);

$ framleiðsla = krulla_exek ($ krulla);

curl_close ($ krulla);

skila $ framleiðsla;

}

Hérna getum við séð hvort PHP cURL hefur verið rétt sett upp eða ekki. Nota þarf þrjú aðal CURL á aðgerðasvæðinu og curl_init () mun hjálpa til við að frumstilla loturnar, curl_exec () mun keyra það og curl_close () mun hjálpa til við að loka tengingunni. Breyturnar eins og CURLOPT_URL eru notaðar til að stilla vefslóðir vefsíðunnar sem við þurfum að skafa. Annað CURLOPT_RETURNTRANSFER mun hjálpa til við að geyma skrapu síður á breytu formi frekar en sjálfgefið form, sem mun að lokum birta alla vefsíðuna.

Skref 3: Skafa sérstök gögn af vefsíðunni:

Það er kominn tími til að takast á við virkni PHP skjalsins og skafa sérstakan hluta vefsíðunnar. Ef þú vilt ekki hafa öll gögnin frá tiltekinni vefslóð, ættir þú að breyta nota CURLOPT_RETURNTRANSFER breyturnar og varpa ljósi á hlutana sem þú vilt skafa.

if (isset ($ _ POST ['sendu'))) {

$ html = skafa vefsetur ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Síðustu póstar');

$ end_point = strpos ($ html, '', $ start_point);

$ lengd = $ end_point - $ start_point;

$ html = undirlag ($ html, $ upphafspunktur, $ lengd);

echo $ html;

}

Við ráðleggjum þér að þróa grunnþekkingu PHP og Regular Expressions áður en þú notar eitthvað af þessum kóða eða skafa tiltekið blogg eða vefsíðu í persónulegum tilgangi.