Klausimai, pažymėti „beautifulsoup“

„Beautiful Soup“ yra „Python“ paketas, skirtas HTML / XML analizei. Naujausia šio paketo versija yra 4 versija, importuota kaip bs4.
25
atsakymai

UnicodeEncodeError: ascii kodekas negali koduoti u 'xa0' simbolio 20 padėtyje: sekos numeris nėra diapazone (128)

Turiu problemų su Unicode simboliais iš teksto iš skirtingų tinklalapių (skirtingose ​​svetainėse). Aš naudoju BeautifulSoup. Problema ta, kad klaida ne visada atkuriama; jis kartais dirba su kai kuriais puslapiais, o kartais jis ...
Nustatykite kovo 30 d. 12 val. 15:06
9
atsakymai

Kaip rasti elementus pagal klases

Turiu problemų, analizuojant HTML elementus su „class“ atributu, naudojant „Beautifulsoup“. Kodas yra toks: sriuba = BeautifulSoup (sdata) mydivs = soup.findAll ('div') divui mydivs: if (div ["class"] == "stylelistrow"): ...
vasario 18 d '11, 14:58 val
13
atsakymai

Įkelkite vaizdą per urllib ir python

Taigi, bandau sukurti „Python“ scenarijų, kuris įkelia žiniatinklio žinutes ir įkelia juos į mano darbalaukio aplanką. Čia aptikau keletą panašių programų, kurios daro kažką panašaus, bet man nereikia nieko panašaus. Vienas, kurį rado labiausiai ...
birželio 15 d. 8 val
13
atsakymai

bs4.FeatureNotFound: Nepavyko rasti medžio konstruktoriaus su prašomomis funkcijomis: lxml. Reikia įdiegti analizatoriaus biblioteką?

... soup = BeautifulSoup (html, "lxml") Failas "/Library/Python/2.7/site-packages/bs4/__init__.py", eilutė 152, __init __% ",". prisijungti (funkcijos)) bs4. FeatureNotFound: Nepavyko rasti medžio statytojo su jūsų prašomomis funkcijomis: lxml. Ar jums reikia insta ...
birželio 25 d. 14 d
14
atsakymai

ištraukite nuorodas iš tinklalapio naudojant „python“ ir „BeautifulSoup“

Kaip gauti nuorodas į tinklalapį ir nukopijuoti nuorodų URL naudojant „Python“?
nustatytas liepos 03 d., 09:21
6
atsakymai

Skirtumas tarp BeautifulSoup ir Scrapy?

Noriu sukurti svetainę, kurioje būtų rodomi „Amazon“ ir „e-bay“ kainų palyginimai. Kokie veiks geriau ir kodėl? Aš esu šiek tiek susipažinęs su „BeautifulSoup“, bet nesinaudoju „Scraw“ žymekliu.
nustatyti 30 okt. '13, 18:43
8
atsakymai

ImportError: Nr modulis pavadintas bs4 (BeautifulSoup)

Dirbu „Python“ ir naudoju kolbą. Kai aš paleisiu pagrindinį Python failą kompiuteryje, jis veikia gerai, bet kai aš aktyvinu venv ir paleisiu Flask Python failą terminale, jis sako, kad mano pagrindinis Python failas turi „No Mo ...
nustatytas 02 rugpjūtis '12 21:47
1
atsakymas

BeautifulSoup pasireiškia

Turiu tokią sriubą: <a href="some_url"> kitas </a> <span class = "class"> ... </ span> Iš to noriu ištraukti href, "some_url", galiu tai padaryti, jei Turiu tik vieną žymą, tačiau čia yra du žymenys. Aš taip pat galiu ...
nustatytas balandžio 28 d '11 11:25
8
atsakymai

BeautifulSoup Grab matomas tinklalapio tekstas

Iš esmės, aš noriu naudoti BeautifulSoup griežtai nustatyti matomą tekstą tinklalapyje. Pavyzdžiui, šis puslapis yra mano bandomasis atvejis. Ir aš iš esmės tiesiog noriu gauti teksto tekstą (straipsnį) ir gal net keletą pavadinimų ...
gruodžio 20 d '09 8:55 val
10
atsakymai

Graži sriuba ir ištraukite div ir jos turinį ID

soup.find ("tagName", {"id": "articlebody")) Kodėl tai NE grįžta žymės <div id = "articlebody"> ... </ div> ir tt tarp? Jis nieko negrąžina. Ir žinau, kad faktas egzistuoja, nes žiūriu tiesiai į ją iš soup.pret ...
nustatytas 26 sausis '10 - 1:46
5
atsakymai

UnicodeEncodeError: „charmap“ kodekas negali koduoti simbolių

Bandau išvalyti svetainę, bet tai suteikia man klaidą. Aš naudoju šį kodą: importuoti urllib.request iš bs4 importuoti BeautifulSoup get = urllib.request.urlopen ("https://www.website.com/") html = get.read () sriuba = BeautifulSoup (html) spausdinimas (sriuba ) ...
lapkričio 23 d. '14, 21:47
6
atsakymai

Ar galiu naudoti „xpath“ su „BeautifulSoup“?

Aš naudoju BeautifulSoup, kad išvalytumėte URL, ir turėjau tokį kodą importuoti importuoti urllib2 iš BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2. Prašymas (URL) res ...
yra nustatytas liepos 13 d. 12 val
5
atsakymai

Kaip rasti vaikų mazgus su gražia sriuba

Noriu gauti <a> žymas, kurios yra <li> <div> <li class = "test"> <a> nuorodos1 </a> <ul> <li> <a> nuorodos2 </a> </> </ link> </a> elementai. li> </ ul ...
birželio 09 d. 11 val
3
atsakymai

Ar galiu pašalinti scenarijų žymes, naudojant „BeautifulSoup“?

Ar galiu pašalinti scenarijų žymes ir visą jų turinį iš HTML naudojant „BeautifulSoup“, ar turiu naudoti įprastas išraiškas ar kažką kitą?
nustatytas balandžio 8 d '11 20:14
5
atsakymai

ImportError: nėra modulio, pavadinto „BeautifulSoup“

Įdiegiau BeautifulSoup naudodami easy_install ir išbandiau šį scenarijų iš BeautifulSoup importavimo BeautifulSoup importuoti re doc = ['<html> <head> <title> puslapio pavadinimas </ title> </ head>', '<body> <p .. .
nustatytas balandžio 14 d '11 16:26