Back to Question Center
0

Skrapanta Retejojn Kun Python Kaj Bela Supo - Semalt Konsilo

1 answers:

Ekzistas pli ol sufiĉa informo en interreto pri kiel scrape retejoj kaj blogoj konvene. Ni bezonas ne nur la aliron al tiuj datumoj, sed la skaleblaj manieroj por kolekti, analizi kaj organizi ĝin. Python kaj BeautifulSoup estas du mirindaj iloj por skrapi retejoj kaj ĉerpi datumojn. En reto skrapado, datumoj facile povas ĉerpi kaj prezenti en formato, kiun vi bezonas. Se vi estas avida investanto, kiu taksas sian tempon kaj monon, vi certe devas rapide akceli la TTT-skrapadon kaj fari ĝin kiel optimumigita kiel ĝi povus esti.

Komenciĝanta

Ni uzos ambaŭ Python kaj BeautifulSoup kiel la ĉefa skrapanta lingvo.

  • 1. Por uzantoj de Mac, Python estas antaŭ-instalita en la VIN 10a. Ili nur devas malfermi Terminalon kaj enmeti python -version . De ĉi tiu maniero, ili povos vidi Python 2.7-versio.
  • 2. Por la uzantoj de Windows, ni rekomendas instali Python per ĝia oficiala retejo.
  • 3. Poste vi devas aliri BeautifulSoup-bibliotekon per helpo de pip. Ĉi tiu paka administra ilo estis farita speciale por Python.

En la fina stacio, vi devas enmeti la sekvan kodon:

easy_install pip

pip instalo BeautifulSoup4

Skrapanta Regulojn:

La ĉefaj skrapantaj reguloj vi devas prizorgi estas:

  • 1. Vi devas kontroli la Regulojn kaj Regulojn de la retejo antaŭ komenci kun ĝia skrapado..Do estu tre zorga!
  • 2. Vi ne devus peti la datumojn de la ejoj tro agreseme. Certigu, ke la ilo, kiun vi uzas, kondutas prudence. Alie, vi povas rompi la retejon.
  • 3. Unu peto por dua estas la ĝusta praktiko.
  • 4. La aranĝo de la blogo aŭ retejo povas esti ŝanĝita iam ajn, kaj vi eble devos revizii tiun retejon kaj reescribi vian propran kodon kiam ajn necese.

Inspektu la Paĝon

Ŝvebu vian kursoron en la Prezo-paĝo por kompreni, kion oni devas fari. Legu la tekston rilate al HTML kaj Python, kaj el la rezultoj, vi vidos la prezojn ene de la HTML-etikedoj.

Ĉi tiuj HTML-etikedoj ofte venas en la formo de

→ →.

Eksporti al Excel CSV

Unufoje vi ĉerpis la datumojn, la sekva paŝo estas konservi ĝin senkonekta. La Excel Komma Disigita Formato estas la plej bona elekto ĉi-rilate, kaj vi facile povas malfermi ĝin en via Excel-folio. Sed unue, vi devus importi la Python-CS-modulojn kaj la dattemptempajn modulojn por registri viajn datumojn konvene. La sekva kodo povas esti enmetita en la importa sekcio:

importado csv

el datetime importado ĝis datetime (21 )

Altnivelaj Scrapado-Teknikoj

BeautifulSoup estas unu el la plej simplaj kaj ampleksaj iloj por retejo-skrapado. Tamen, se vi bezonas rikolti grandajn volumojn de datumoj, konsideru iujn alternativojn:

  • 1. Scrapio estas potenca kaj mirinda python-skrapanta kadro.
  • 2. Vi ankaŭ povas integri la kodon per publika API. La efikeco de viaj datumoj estos grava. Ekzemple vi povas provi Facebook Graph API, kiu helpas kaŝi la datumojn kaj ne montras ĝin sur la paĝoj de Facebook.
  • 3. Krome, vi povas uzi la backend-programojn kiel MySQL kaj stoki la datumojn en granda kvanto kun granda precizeco.
  • 4. DRY staras por "Do not Repeat Yourself" kaj vi povas provi aŭtomatigi la regulajn taskojn uzante ĉi tiun teknikon.
December 8, 2017
Skrapanta Retejojn Kun Python Kaj Bela Supo - Semalt Konsilo
Reply