IT

BeautifulSoup 가져 오기 href

lottoking 2020. 5. 24. 11:11
반응형

BeautifulSoup 가져 오기 href [중복]


이 질문에는 이미 답변이 있습니다.

다음과 같은 스프가 있습니다.

<a href="some_url">next</a>
<span class="class">...</span>

이것에서 href를 추출하고 싶습니다. "some_url"

태그가 하나만 있으면 할 수 있지만 여기에 태그가 두 개 있습니다. 나는 또한 텍스트를 얻을 수 'next'있지만 그것은 내가 원하는 것이 아닙니다.

또한 예제가있는 어딘가에 API에 대한 좋은 설명이 있습니까? 표준 문서를 사용 하고 있지만 좀 더 체계적인 것을 찾고 있습니다.


당신이 사용할 수있는 find_all모든 찾기 위해 다음과 같은 방법으로 a이 요소 href속성을 각각 하나를 인쇄 :

from BeautifulSoup import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print "Found the URL:", a['href']

결과는 다음과 같습니다.

Found the URL: some_url
Found the URL: another_url

이전 버전의 BeautifulSoup (버전 4 이전)을 사용하는 경우이 메소드의 이름은입니다 findAll. 버전 4에서는 BeautifulSoup의 메소드 이름 이 PEP 8 호환으로 변경 되었으므로 find_all대신 사용해야 합니다.


모든 태그 를 원하면 매개 변수를 href생략 할 수 있습니다 name.

href_tags = soup.find_all(href=True)

참고 URL : https://stackoverflow.com/questions/5815747/beautifulsoup-getting-href

반응형