광고 차단 프로그램이 감지되었습니다

이 사이트는 광고 수익을 통해 무료로 콘텐츠와 서비스를 제공하고 있습니다.

더 나은 서비스를 위해 광고 차단 프로그램을 비활성화 해주세요.

광고 차단 해제 방법 보기
Loading...

지도 크롤링 외주후기

지도 크롤링 외주후기에 대한 img

 

무슨 직방이나 다방 피시버전에서 지도위에 각종 지역,데이터를 크롤링하는 외주를 맡았는데

일반적으로 생각하는 웹사이트가 아니여서 당황스러웠지만 이것도 경험이라 생각하고 작업에 들어갔다.

처음에는 빠르게 의뢰인한테 작업을 따야하니까 상세하게 살펴본건아니고 그냥 지역코드로 작동하는구나 정도만 파악해서,

최상위와 재귀적으로 하위 지역코드만 알면쉽겠네~ 하고 자신있게말했는데...

 

서비스제공업체도 바보는 아닌지. 아니면 그냥 실수인지. api에 모든 지역코드가 뜰수도있고 안뜰수도있다.

상당히 골때려서. 못하겠다 싶었는데, 사실 문제 봉착은 이게 처음이 아니였다.

이 지도 코드는 처음엔 생각했는데 구단위 동단위로 가면 화면에 보이는것만 알수있구나, 해서 이건 힘들겠다. 싶어서

시단위로 일일히 좌표를 수집했다. 공공데이터같은곳에 여러단위의 지역데이터 좌표가 상세히 있지만.

중요한건 이 사이트에서 그딴건 의미없다.

마우스질을 ㅈㄴ하면서 데이터가 뜨나 안뜨나 확인하면서 좌표를 수백개를 수집했고.

그래봐야 그 데이터는 시군구 까지만 수집되는거라 생각하고 깨달은다음에 다시 사이트 로직살펴보고 지역코드를 재귀적으로 부르고 부르고.

이 방식으로 바꿧는데 97%까지는 이상없이 잘된다. 3% 정도가 문제다.

아무리 살펴봐도. 없다. 근데 브라우저에는 보이니까 미칠노릇.

의뢰인도 이걸 지적했고. 이걸 어떻게하지. 일일히 찾기에는 수천개를 대입해야한다.

문제는 전국의 모든 동단위가 필요없다. 특정카테고리로 필터링해서 보는건데 그 동네에 해당카테고리가없으면 동이 안뜬다.

당연히 그건수집안한다. 문제는 카테고리로 필터링해서 브라우저에 시골같은곳은 4개가 보이는데. 패킷스니핑으로해서는 2개밖에안보이는거다.

 

결론적으로 말하자면. 초반에 착각하고 지역별 좌표를 수집한건 헛고생이라 여겼지만, 그 노력이 나를 살렸고 누락된 부분을 채워줬다.

제주부터 서울까지 전국의 지역을 하나하나 브라우저 수동조작으로 수집을했었고.

그 노력이 헛고생이라 여겼는데 나를 살렸다.

 

왜 개발자가 멍청하게 수동조작하냐고 물어본다면. 특정 줌상태로 만뜨는 데이터가 있는데 그 데이터도 줌뿐만아니라 그 위치에 우리가 볼수없는 어떤 가게위치라던가 그런게 비쳐주거나해야 해당지역값들을 얻을수있어서 참...

 

처음엔 단가를 좀 높게불렀나 했는데 더 불렀어야 했다.

데이터는 수집됐고 엑셀도 3가지로 필요하다해서 그것도 다 코드화해서. 이제 exe 패키징하면되는데 귀찮네.

 

근데 다시생각해도 지리긴한다.

기존에 97%지역을 json으로 저장하고 거기에도 지역코드가 있는데 그걸읽어서 누락된지역코드만 파악해서 다시 api 호출해서 97%저장된 json에 다시 지역별로 깔끔하게 집어넣는 로직인데. 좀 지리긴하네.

목차
목차를 불러오는 중...

댓글

Loading...

댓글 로딩 중...

구글 검색