Back to Question Center
0

Semalt Expert: Python og BeautifulSoup. Scrape Sites með vellíðan

1 answers:

Þegar þú framkvæmir gagnagreiningu eða vinnsluverkefni í vélinni gætirðu þurft að skafa vefsíður til að fá gögnin sem þarf og ljúka verkefninu þínu. Python forritunarmál hefur öflugt safn af verkfærum og mátum sem hægt er að nota í þessu skyni. Til dæmis er hægt að nota BeautifulSoup mát fyrir HTML parsing.

Hér munum við skoða BeautifulSoup og komast að því hvers vegna það er nú svo mikið notað í vefskrapun - accurate appraisals edmonton.

BeautifulSoup lögun

- Það býður upp á ýmsar aðferðir til að auðvelda siglingar, leita og breyta flokka trjáa þannig að þú getur auðveldlega sundrað skjal og þykkni allt sem þú þarft án þess að skrifa of mikið kóða.

- Það breytir sjálfkrafa sendanlegum skjölum til UTF-8 og komandi skjala til Unicode. Þetta þýðir að þú þarft ekki að hafa áhyggjur af encodings að því tilskildu að skjalið hafi tilgreint kóðun eða Beautiful Soup getur sjálfkrafa það.

- BeautifulSoup er talið betri en önnur vinsæl Python parsers eins og HTML5lib og lxml. Það gerir það kleift að reyna mismunandi aðferðir við að parsa. Ein galli þessarar einingar er hins vegar að það veitir meiri sveigjanleika á kostnað hraða.

Hvað þarftu að skafa vefsíðu með BeautifulSoup?

Til að byrja að vinna með BeautifulSoup þarftu að hafa Python forritunarmál (annaðhvort staðbundið eða miðlara) byggt á vélinni þinni. Python er venjulega fyrirfram uppsett í OS X, en ef þú notar Windows þarftu að hlaða niður og setja upp tungumálið frá opinberu vefsíðunni.

Þú ættir að hafa BeautifulSoup og Requests mátin uppsett.

Að lokum er kunnugt og þægilegt að vinna með HTML merkingu og uppbyggingu örugglega gagnlegt þar sem þú munt vinna með vefupplýsingum.

Flytja inn beiðni og bókasafn BeautifulSoup

Með Python forritunarmálum vel uppsett, getur þú nú búið til nýjan skrá (með nano, til dæmis) með hvaða nafni sem þú vilt.

Beiðnirasafnið gerir þér kleift að nota HTTP-tíðni sem er læsanlegt fyrir fólk í Python forritunum þínum á meðan BeautifulSoup gerir skrafið gert á hraðari hraða. Þú getur notað innflutningsyfirlitið til að fá bæði bókasöfn.

Hvernig á að safna og flokka vefsíðu

Notaðu beiðnirnar. fá

aðferð til að safna slóðinni á vefsíðunni sem þú vilt vinna úr. Næst skaltu búa til BeautifulSoup mótmæla eða flokka tré. Þessi hlutur tekur skjalið frá beiðnum sem rök og þá greinir það. Með síðunni sem safnað er, flokka og setja upp sem BeautifulSoup mótmæla getur þú haldið áfram að safna þeim gögnum sem þú þarft.

Afþakka viðeigandi texta úr vefsíðunni

Þegar þú vilt safna vefgögnum þarftu að vita hvernig þessi gögn eru lýst af Document Object Model (DOM) vefsíðunnar. Í vafranum þínum skaltu hægrismella (ef þú notar Windows) eða CTRL + smelltu (ef þú notar macOS) á einni af þeim atriðum sem eru hluti af gögnum af áhugasviði. Til dæmis, ef þú vilt draga út gögn um þjóðerni nemenda, smelltu á eitt af nöfnum nemanda. Samhengi matseðill birtist og innan þess muntu sjá matseðill sem líkist Inspector Element (fyrir Firefox) eða Skoðaðu (fyrir Chrome). Smelltu á viðeigandi Skoðaðu valmyndaratriðið og verktaki vefhönnuða birtist innan vafrans.

BeautifulSoup er einfalt en öflugt HTML parsing tól sem leyfir þér miklum sveigjanleika þegar skrap vefsíður . Þegar þú notar það, ekki gleyma að fylgjast með almennum reglum um rusl, svo sem að huga að skilmálum vefsvæðisins; endurskoða síðuna reglulega og uppfæra kóðann þinn eins og þær breytingar sem gerðar eru á síðunni. Með þessa þekkingu um vefsíður sem skrappa saman með Python og BeautifulSoup geturðu auðveldlega fengið vefupplýsingarnar sem þú þarft fyrir verkefnið þitt.

December 22, 2017