반응형
BeautifulSoup 가져 오기 href [중복]
이 질문에는 이미 답변이 있습니다.
다음과 같은 스프가 있습니다.
<a href="some_url">next</a>
<span class="class">...</span>
이것에서 href를 추출하고 싶습니다. "some_url"
태그가 하나만 있으면 할 수 있지만 여기에 태그가 두 개 있습니다. 나는 또한 텍스트를 얻을 수 'next'
있지만 그것은 내가 원하는 것이 아닙니다.
또한 예제가있는 어딘가에 API에 대한 좋은 설명이 있습니까? 표준 문서를 사용 하고 있지만 좀 더 체계적인 것을 찾고 있습니다.
당신이 사용할 수있는 find_all
모든 찾기 위해 다음과 같은 방법으로 a
이 요소 href
속성을 각각 하나를 인쇄 :
from BeautifulSoup import BeautifulSoup
html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''
soup = BeautifulSoup(html)
for a in soup.find_all('a', href=True):
print "Found the URL:", a['href']
결과는 다음과 같습니다.
Found the URL: some_url
Found the URL: another_url
이전 버전의 BeautifulSoup (버전 4 이전)을 사용하는 경우이 메소드의 이름은입니다 findAll
. 버전 4에서는 BeautifulSoup의 메소드 이름 이 PEP 8 호환으로 변경 되었으므로 find_all
대신 사용해야 합니다.
로 모든 태그 를 원하면 매개 변수를 href
생략 할 수 있습니다 name
.
href_tags = soup.find_all(href=True)
참고 URL : https://stackoverflow.com/questions/5815747/beautifulsoup-getting-href
반응형
'IT' 카테고리의 다른 글
루멘과 라 라벨의 차이점과 유사점 (0) | 2020.05.24 |
---|---|
전체 응용 프로그램의 문화를 설정하는 방법이 있습니까? (0) | 2020.05.24 |
파이썬의 물결표 연산자 (0) | 2020.05.24 |
의사 TTY를 할당하는 Docker -t 옵션에 대해 혼동 (0) | 2020.05.24 |
jQuery의 맞춤 이벤트? (0) | 2020.05.24 |