본문 바로가기

학원/Python

데이터 수집 - 다음뉴스

DAUM_NEWS
In [1]:
%%html
<style type='text/css'>
.CodeMirror{ font-size: 14px; font-family: callable}
</style>
In [2]:
# 라이브러리
import requests
from bs4 import BeautifulSoup
from datetime import date, timedelta
In [3]:
# 뉴스 타이틀
def get_daum_news_title(news_id):
    url = 'https://news.v.daum.net/v/{}'.format(news_id)
    response = requests.get(url)
    status_code = response.status_code
    if status_code == 200:
        soup = BeautifulSoup(response.text)
        title_h3 = soup.select_one('h3.tit_view')
        ret_title = title_h3.text.replace('\'','').replace('"','')
    else:
        ret_title = 'status_code:{}'.format(status_code)
    return ret_title
In [4]:
daum_news_title = get_daum_news_title(20200605110456504)
daum_news_title
Out[4]:
'미국, 흑인들에겐 단 한 번도 위대한 나라 아니었다'
In [5]:
# 뉴스 내용
def get_daum_news_content(news_id):
    url = 'https://news.v.daum.net/v/{}'.format(news_id)
    response = requests.get(url)
    status_code = response.status_code
    ret_content=''
    if status_code == 200:
        soup = BeautifulSoup(response.text)
        content = soup.select_one('div#harmonyContainer')('p')
        for p in content:
            ret_content += p.text
    else:
        ret_content = 'status_code:{}'.format(status_code)
    return ret_content
In [6]:
daum_news_content = get_daum_news_content(20200605110456504)
daum_news_content
Out[6]:
'흑인 조지 플로이드의 사망으로 촉발된 인종차별 반대 시위가 4일(현지시간)로 열흘째를 맞았다. 이날 열린 플로이드의 추도식을 시작으로 미 전역에서 벌어지던 폭력사태는 잦아들고 차분하게 희생자를 추모하는 분위기가 이어질 전망이다. 플로이드가 사망한 미네소타주 미니애폴리스에선 이날 플로이드의 영면을 기원하는 첫 추도식이 열렸다. 미니애폴리스는 플로이드가 경찰의 무릎에 목을 짓눌러 사망한 곳이다.시민단체 ‘내셔널액션네트워크’ 주최로 열린 추도식에는 흑인 인권운동가 제시 잭슨 목사와 고(故) 마틴 루서 킹 목사의 장남인 마틴 루서 킹 3세, 미네소타주가 지역구인 에이미 클로버샤 상원의원과 일한 오마르 하원의원 등이 참석했다. 이날 추도식은 TV와 인터넷을 통해 생중계됐다.내셔널액션네트워크의 설립자로 추도식을 주관한 앨 샤프턴 목사는 추도 연설에서 “미국을 위대한 나라라고 하지만, 누구를 위해서 위대한가”라고 반문하며 “미국은 흑인에게, 라티노에게, 여성에게 단 한번도 위대하지 않았다”고 꼬집었다. 그러면서 “우리는 모두에게 위대한 미국을 처음으로 만들 것”이라고 강조했다.샤프턴 목사는 또 “가끔 시위대에 흑인보다 젊은 백인이 많은 것을 볼 때, 이전과는 다른 시간과 다른 시절이라는 것을 느낀다. 독일에서 사람들이 플로이드를 위해 행진하는 것을 봐도 역시 다른 시간, 다른 시절이라는 것을 느낀다”면서 “지금 미국은 책임을 가지고 형사 사법 체계를 만들 때”라고 밝혔다. 이어 “400여년 동안 흑인들이 소외됐던 건 미국이 우리의 무릎으로 우리의 목을 눌렀기 때문”이라고 비판했다.유족 측 변호인 벤저민 크럼프는 “우리는 백인과 흑인에 따로 적용되는 두 가지의 사법 제도를 원하지 않는다”고 말했다. 플로이드의 유족들은 “우리는 플로이드를 위한 정의를 원한다”면서 “플로이드는 그것을 갖게 될 것”이라며 평화 시위를 당부했다.제이컵 프라이 미니애폴리스 시장이 플로이드의 관 앞에 한쪽 무릎을 꿇은 채 눈물을 흘리는 모습이 보이기도 했다.플로이드를 추모하는 행사는 그의 생전 발자취를 따라 오는 9일까지 미국 3개 도시에서 거행된다. 오는 6일엔 플로이드가 태어난 노스캐롤라이나주 래퍼드에서, 8일엔 플로이드가 생애의 대부분을 보낸 텍사스주 휴스턴에서 추도식이 열린다. 마지막으로 9일엔 휴스턴에서 비공개 장례식이 진행된다.이날 미 전역에서는 ‘침묵의 순간’으로 명명된 플로이드 애도 행사도 이어졌다. 백인 경찰의 무릎에 8분 46초간 목을 짓눌려 숨진 플로이드를 기리기 위해 미국 시민들은 같은 시간 동안 활동을 멈추고 침묵으로 그의 영면을 기원했다.민주당 소속 상원의원들은 워싱턴 국회의사당 메인홀에서, 마이애미 주의 한 병원에서는 의료진들이 한쪽 무릎을 꿇은 채 침묵의 시간을 가졌다. 뉴욕주와 아이오와주 전역에서도 이날 오후 2시 애도 시간을 가졌다.임세정 기자 fish813@kmib.co.kr'
In [7]:
# 댓글
# news_id = '20200605110456504'
# url = 'https://news.v.daum.net/v/{}'.format(news_id)
# response = requests.get(url)
# status_code = response.status_code
# soup = BeautifulSoup(response.text)
# 해당 방법은 오류 발생
In [8]:
# 댓글 - 현재 headers 값이 바뀌어 데이터를 긁어오지 못함, 값을 가져오기 위해서는 h
news_id = '20200605114023995'
url = 'https://comment.daum.net/apis/v1/posts/@{}/comments'.format(news_id)
params = {'parentId' : 0, 'offset' : 0, 'limit' : 10, 'sort' : 'RECOMMEND', 'isInitial' : 'true'}
headers = {'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTU5MTYyODQ0MSwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiM2NjMzljOGUtMjJjNy00ZTJhLTkzYzAtOGIwNmZmMTUyNmI4IiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.OZ2BX0Zexm0iRM3lzMWwhMBK6CUrPasyZuTVtCjZOvo'}
response = requests.get(url, headers=headers, params = params)
status_code = response.status_code
comment_all = response.json()
In [9]:
# 댓글 하나의 내용
comment_all[0]['content']
Out[9]:
'괜찮아 큰 힘에는 큰 책임이 따르는 법!!!\n\n민주당은 국민이 주신 큰 힘을 국민을 위해 마음껏 사용하라!!'
In [10]:
# 모든 댓글 내용
for item in comment_all:
    print(item['content'])
괜찮아 큰 힘에는 큰 책임이 따르는 법!!!

민주당은 국민이 주신 큰 힘을 국민을 위해 마음껏 사용하라!!
나참 본회의 보면서 이렇게 편안~~~한 마음으로 보게 되는군요 ㅋㅋㅋㅋ

좋으다 ~~~
상임위원장도 모두 민주당이 책임있게 하자,,,,,,,,,,,,,,,,,,,
통합당 의원 여러분 가슴에 손을 대고 반성하시기 바랍니다.

20대 국회에서 대통령이 그렇게 협치를 요청할때는 쳐다보지도 않더니, 국민의 선택으로 의석 수가 줄어드니 협치를 이야기 합니까?

이런 걸 인과응보라고 합니다.

이제 국민의 선택에따라 민주당은 각종 개혁 작업을 신속하게 처리해주시기 바랍니다.

야당과 상의는 해야겠지만 발목 잡으면 냉정하게 뿌리치고 할일을 하셔야 합니다.

괜히 보수 언론의 눈치보다가 다음 선거 망치지 마시기 바랍니다.
통합당은 국민한테 외면받은 지역정당 주제에 아직도 땡깡이나 부리고 있으니, 민주당은 저런거 받아줄 필요 없습니다.  버릇돼요..  국민이 위임해준 의석대로 소신껏 책임정치 하시면 됩니다.
맞다 ~~~ 모든 책임은 민주당의 몫이다..

모든 책임에 합당한 지위를 맏아야 한다...

책임은 맏기면서 지위를 주기 주저하는 미래통합당~~!!

인간도 아닌  금수보다 못한 집단이다...

모든 책임에 합당한 지위를 받아라~~!!

18개 상임위원장도 모두 민주당이 맏고 책임을 져라~~!!

4년후에 그 책임을 묻겠다...
민주당이  책임지고
밀어 붙이셍노
180석 그냥 준거
아닙니다

검찰개혁 
언론개혁
또 퇴장 하기 시작이네요 
굿!
옛날 군인들이 정치할 때는 
국회의원들 타고 있는 버스 통채로 납치해서
어디 끌고가서 
까불지 말라며 조인트 까고 그랬으니까
헌정 사상 초유... 뭐 이런 거짓말은 
자꾸 하시면 안되고요,
민주당에는 국민들이 힘 쓰라고 표를 몰아 준거니까
힘을 쓰는 모습을 보이는 것이 
국민에 대한 도리 입니다
민주당이 모두 책임질테니 상임위원장 모두 포기해라... 동의?
국회는 바뀌여야 한다.

새로운 질서와 관행을 정착시키자

원칙과 협치는 다른 것이다.

국민들이 멍청하지 않다 (단 대구 경북은 제외)

정정당당한 방향이면 눈치보지 말고 앞으로 전진하자.

기레기 언론들과 나라팔아먹어도 지지하는 무리들이 행패를 부릴지언정~~~
In [11]:
import requests
from bs4 import BeautifulSoup
In [12]:
url = 'https://news.v.daum.net/v/20200608095807496'
response = requests.get(url)
response.status_code
soup = BeautifulSoup(response.text)
In [13]:
count = soup.select_one('em.num_count')
print(count)
None
In [14]:
url = 'https://comment.daum.net/apis/v1/posts/@20200608095807496'

headers = {'Authorization': 'Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJmb3J1bV9rZXkiOiJuZXdzIiwiZ3JhbnRfdHlwZSI6ImFsZXhfY3JlZGVudGlhbHMiLCJzY29wZSI6W10sImV4cCI6MTU5MTYyMjIzMiwiYXV0aG9yaXRpZXMiOlsiUk9MRV9DTElFTlQiXSwianRpIjoiZTVjZjVkZjUtMjhmNS00OGM0LTg5MzUtNTA1MzljODdlY2RmIiwiZm9ydW1faWQiOi05OSwiY2xpZW50X2lkIjoiMjZCWEF2S255NVdGNVowOWxyNWs3N1k4In0.1jj6MLkZ4IJ5A0jdRedwENGMiXCgcXIphvZ5JSIc2Ws'}
response = requests.get(url, headers=headers)
response.status_code
data = response.json()
commentCount = data['commentCount']
commentCount
Out[14]:
30

'학원 > Python' 카테고리의 다른 글

데이터수집 - kweather  (0) 2020.06.08
데이터수집- XML - 기상청  (0) 2020.06.08
데이터 수집 - 네이버 영화 순위  (0) 2020.06.08
데이터수집 - 네이버 책 검색  (0) 2020.06.08
스크래핑과 크롤링  (0) 2020.06.02