Back to Question Center
0

Semalt: 3 Paŝoj Al PHP-Paĝa Paĝo Skrapanta

1 answers:

Reteja skrapado, ankaŭ nomata TTT-datuma eltiro aŭ retejo rikoltado, estas la procezo ĉerpi datumojn de retejo aŭ blogo. Ĉi tiu informo estas tiam uzita por agordi meta-etikedojn, meta priskribojn, ŝlosilvortojn kaj ligojn al retejo, plibonigante ĝian ĝeneralan rendimenton en la serĉaj rezultoj.

Du ĉefaj teknikoj estas uzataj por skrapi datumojn:

  • Dokumenta analizo - Ĝi enhavas XML aŭ HTML-dokumento kiu estas konvertita al la DOM (Document Object Model ) dosieroj. PHP provizas al ni per granda DOM-etendo.
  • Regulaj esprimoj - Ĝi estas maniero scrapi datumojn el la retaj dokumentoj en la formo de regulaj esprimoj.

La afero kun la frapanta datumo de tria retejo estas rilatigita kun ĝia kopirajto ĉar vi ne rajtas uzi ĉi tiun datumon. Sed kun PHP, vi facile povas frakasi datumojn sen problemoj konektitaj kun kopirajtoj aŭ malalta kvalito. Kiel PHP-programisto, vi eble bezonos datumojn de malsamaj retejoj por kodaj celoj. Jen ni klarigis kiel akiri datumojn de aliaj retejoj efike, sed antaŭ tio, vi devas memori, ke fine vi ricevos dosierojn index.php aŭ scrape.js.

Steps1: Krei Formon por eniri la Retejon URL:

Antaŭ ĉio, vi devus krei formon en index.php klakante sur la Submeta butono kaj eniru la retpaĝan URLon por skrapi datumojn.



Eniru Retejon URL Por Scrape Datumoj

(44 )



Steps2: Krei PHP-Funkcion por ricevi TTT-datumojn:

La dua paŝo estas krei PHP-funkciaj skrapoj en la scrape.php-dosiero kiel ĝi helpos akiri datumojn kaj uzos la URL-bibliotekon. Ĝi ankaŭ permesos vin konekti kaj komuniki kun malsamaj serviloj kaj protokoloj sen ia ajn afero..

funkcio scrapeSiteData ($ website_url) {

se (! Function_exists ('curl_init')) {

mortas ('CURL ne estas instalita. Bonvolu instali kaj provu denove. ');

}

$ curl = curl_init

;

curl_setopt ($ buklo, CURLOPT_URL, $ website_url);

curl_setopt ($ buklo, CURLOPT_RETURNTRANSFER, vera);

$ output = curl_exec ($ buklo);

curl_close ($ buklo);

redonas $ elŝuton;

}

Ĉi tie, ni povas vidi ĉu la PHP cURL instalis konvene aŭ ne. Tri ĉefaj curloj devas esti uzataj en la kampo de funkcioj kaj curl_init

helpos por komencigi la kunsidojn, curl_exec

ekzekutos ĝin kaj curl_close

helpos fermi la ligon. La variabloj kiel CURLOPT_URL estas uzataj por agordi la retpaĝajn URLojn, kiujn ni bezonas por skrapi. La dua CURLOPT_RETURNTRANSFER helpos stoki la skrapitajn paĝojn en la variablo, anstataŭ ĝia antaŭdifinita formo, kiu finfine montros la tutan retpaĝon.

Steps3: Skrapi specifajn datumojn de la retejo:

Estas tempo por manipuli la funkciojn de via PHP-dosiero kaj skrapi la specifan sekcion de via retpaĝo. Se vi ne volas la tutan datumon de specifa URL, vi devus redakti la variablojn de CURLOPT_RETURNTRANSFER kaj reliefigi la sekciojn, kiujn vi volas skraki.

se (renversita ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Plej novaj Afiŝoj');

$ end_point = strpos ($ html, '', $ start_point);

$ longo = $ end_point- $ start_point;

$ html = substr ($ html, $ start_point, $ longo);

eĥo $ html;

}

Ni sugestas, ke vi disvolvi la bazan scion pri PHP kaj la Regulaj Esprimoj antaŭ ol vi uzas iun ajn el ĉi tiuj kodoj aŭ skrapu aparta blogo aŭ retejo por propraj celoj.

December 8, 2017
Semalt: 3 Paŝoj Al PHP-Paĝa Paĝo Skrapanta
Reply