Back to Question Center
0

BeautifulSoup að grípa Webpage efni í fimm mínútur - Semalt Expert

1 answers:

Fallegt súpa er Python pakkinn sem notaður er til að flokka XML og HTML skjöl. Það skapar flokka trjáa fyrir vefsíður og er í boði fyrir Python 2 og Python 3. Ef þú ert með vefsíðu sem ekki er hægt að skafa á réttan hátt, getur þú notað mismunandi ramma fyrir BeautifulSoup. Gögnin sem eru dregin út verða alhliða, læsileg og stigstærð sem inniheldur mikið af stuttum og löngum leitarorðum.

Líkt og BeautifulSoup er hægt að samþykkja lxml með html. parser mát þægilega. Eitt af því sem einkennist af þessu forritunarmál er að það veitir spam vernd og betri árangur fyrir rauntíma gögn. Bæði LXML og BeautifulSoup eru auðvelt að læra og veita þrjá helstu aðgerðir: formatting, parsing og tré viðskipti. Í þessari kennslu munum við kenna þér hvernig á að nota BeautifulSoup til að grípa texta á mismunandi vefsíðum.

Uppsetning

Fyrsta skrefið er að setja upp BeautifulSoup 4 með pípu. Þessi pakki virkar bæði á Python 2 og 3. BeautifulSoup er pakkað sem Python 2 kóða; og þegar við notum það með Python 3 verður það uppfært sjálfkrafa í nýjustu útgáfuna en kóðinn er ekki uppfærð nema við setjum upp Python pakkann.

Parser setur

Þú getur sett upp viðeigandi parser, svo sem HTML, HTML, LXML og HTML. flokka. Ef þú hefur sett upp píp þarftu að flytja inn úr bs4. Ef þú hleður niður uppsprettunni þarftu að flytja inn frá Python bókasafninu. Vinsamlegast hafðu í huga að lxml parserinn er í tveimur mismunandi útgáfum: XML parser og HTML parser. HTML parser virkar ekki rétt með gömlum útgáfum af Python; Svo getur þú sett upp XML-flokka ef HTML-flokka hættir að bregðast við eða er ekki rétt uppsett. Lxml flokka er tiltölulega hratt og áreiðanlegt og gefur nákvæmar niðurstöður.

Notaðu BeautifulSoup til að fá aðgang að athugasemdum

Með BeautifulSoup geturðu fengið aðgang að athugasemdum viðkomandi vefsíðu. Athugasemdir eru venjulega geymdar í hlutanum Comment Object og eru notuð til að tákna vefsíðu innihald á réttan hátt.

Titlar, tenglar og fyrirsagnir

Þú getur auðveldlega dregið út titla, tengla og fyrirsagnir með BeautifulSoup. Þú verður bara að fá merkingu síðunnar með ákveðnum kóða. Þegar merkingin er fengin er hægt að skafa gögn úr fyrirsögnum og undirheiti líka.

Siglaðu DOM

Við getum flett í gegnum DOM trén með BeautifulSoup. Tags chaining mun hjálpa okkur að vinna úr gögnum fyrir SEO tilgangi.

Niðurstaða:

Þegar skrefunum sem lýst er hér að framan er lokið þá muntu geta tekist á vefnum texta þægilega. Allt ferlið mun ekki taka meira en fimm mínútur og lofar gæði árangri. Ef þú ert að leita að því að vinna úr gögnum úr HTML skjölum eða PDF skjölum, þá mun hvorki BeautifulSoup né Python hjálpa þér. Í slíkum tilfellum ættirðu að prófa HTML scraper og greina vefsíður þínar auðveldlega. Þú ættir að nýta fullt af eiginleika BeautifulSoup til að skafa gögn fyrir SEO tilgangi. Jafnvel ef við kjósa HTML parsers HTML, þá getum við nýtt sér stuðningssystemet BeautifulSoup og getur fengið góða niðurstöðu eftir nokkrar mínútur Source .

December 22, 2017