혜니니의 공부방

[빅쿼리] 얼렁뚱땅 Google Big Query 환경 구축기 본문

공부 기록/데이터분석

[빅쿼리] 얼렁뚱땅 Google Big Query 환경 구축기

니니혜 2022. 8. 7. 14:33

RFM 분석기를 끝내고, 롯데멤버스 공모전에 참여하게 되었다.  RFM 분석을 진행한 팀원들과 함께 고고링 하게 되었음.

 

 파이썬 말고 MySQL만 쓰는 팀원들이다 보니까 환경 구축하는데 몇번 애를 먹었던 것 같다. 빅쿼리 가이드와 스택오버플로우 ,, 구글링 덕분에 해결을 할 수 있게 되었지만 나같은 삽질러가 있을 수 있기 때문에 저도 한번 적어봅니다. 

 

 

처음에 사용했던 것. 1. DBeaver 2. MySQL Workbench 이 두개를 사용하려고 했으나 데이터가 약 458만건의 273mb 대용량 csv 파일이었음 . 

 

1. DBeaver  : 무료 SQL IDE 로 정말 ... 좋은데.. 진짜 좋은데 JOIN이 안된다.. 흑흑...

디비버 포럼에 있는 ..

 

나도 믿고싶지 않았다. 가장 중요한 JOIN이 안됀다니요.  그래서 조인을 안하는 조건에서 EDA를 하는데 메모리가 부족하고.. 버벅대고... 

 

그래서 일단 DBeaver 는 버렸다. 

 

DBeaver는 데이터분석시 쓰기엔 어려울 것 같다.ㅠㅠ 

 

#디비버조인 #디비버조인안됌 #DBeaver #InnerJoin

 

 

2. MySQL Workbench

 

-> csv 데이터 업로딩... hours 단위로 걸립니다..  https://dev.mysql.com/doc/refman/8.0/en/load-data.html

 

MySQL :: MySQL 8.0 Reference Manual :: 13.2.7 LOAD DATA Statement

13.2.7 LOAD DATA Statement LOAD DATA [LOW_PRIORITY | CONCURRENT] [LOCAL] INFILE 'file_name' [REPLACE | IGNORE] INTO TABLE tbl_name [PARTITION (partition_name [, partition_name] ...)] [CHARACTER SET charset_name] [{FIELDS | COLUMNS} [TERMINATED BY 'string'

dev.mysql.com

-> 터미널을 이용해서 빠르게 업로드하는 방법이 있지만 팀원들이 어려울 것 같아 이 방법은 채택하지 않았다. 혼자만 하는거면 시도를 해보겠지만 팀원들이 빠르게 적응할 수 있는가를 생각해보니까 어렵겠다. 시간이 더 들겠다는 판단이 섰다. 뭔가 빌드업할 때 이렇게 툴 채택하는 일도 쉽지 않구나 싶었음.  

 

 

그래서 고민해서 데이터리안 슬랙에 적었더니  몇개의 방법을 추천해주셨다. 

 

3. Replica DB 

 

https://github.com/osalvador/ReplicaDB

 

GitHub - osalvador/ReplicaDB: ReplicaDB is open source tool for database replication, designed for efficiently transferring bulk

ReplicaDB is open source tool for database replication, designed for efficiently transferring bulk data between relational and non-relational databases - GitHub - osalvador/ReplicaDB: ReplicaDB is ...

github.com

 

레플리카 DB,,  방법도 추천받았는데 이 방법은 시간이 오래걸릴 것 같아서 채택하지 않았다. mongo db와 터미널이 익숙하지 않은 팀원들을 위한 나만의 배려였다. 

 

4.  Google BigQuery

조교님은 천사입니다.

 

그렇게 사용하게 된 Google Big query 입니다... 

 

1 MySQL과 동일함! 2. 무료 크레딧!!! (우리는 단 2주만 사용할 예정이었음.) 3. 가이드가 아주 짱짱이었음

 

 

1.구글 클라우드 가입하기

2. Google Groups에 팀원들 그룹 만들기 

3. 빅쿼리 프로젝트 생성하기

4. 프로젝트 및 테이블 생성시 Region 국가 동일하게 해주기... northeast3는 왜 안돼는걸까.. 물론 내가 가이드를 꼼꼼히 안읽기는 했지만 ^^....그냥 us로 통일했씁니다..... 

5. 구성원에 구글 그룹스 추가해주기!!! 

6. 그리고 팀원들에게도 구글 클라우드 로그인 

7.

프로젝트 버튼 클릭 후 프로젝트 연동 말하면 바로 된답니다.... 

 

 

간략한 설명이었찌만.....  이렇게 클라우드를 이용해 쿼리분석을 진행하고 있씁니다.... 한 4시간 걸렸네요 삽질도 하다보니까! 그렇게 큰 오류는 없었지만 꼭꼭 테이블 리전 잘 맞추고 오류메세지를 잘 찾아가면 된답니당 오홍홍 .... 

 

 

#빅쿼리 

Comments