모플로 2021. 7. 19. 20:51
반응형

목차


1. CSV

  • comma separate value
  • 엑셀 양식의 데이터를 프로그램에 상관없이 쓰기 위한 데이터 형식
  • 탭(TSV), 빈칸(SSV) 등으로 구분해서 만들기도 함
  • 통칭하여 character-separated values(CSV) 라고 부름
  • csv 모듈보다는 pandas를 많이사용
import csv

# delimiter는 데이터를 자르는 기준
# quotation은 "로 되어있다 => "abc, def"가 있을경우 ""안의 ,는 구분자로 사용안함
reader = csv.reader(f, delimiter=",", quotechar='"', quoting=csv.QUOTE_ALL)
import csv

header = []
rownum = 0
with open("temp.csv","r", encoding="cp949") as p_file:
    csv_data = csv.reader(p_file)
    for row in csv_data:
        if rownum==0:
            header = row    => # 헤더는 따로 저장 
        rownum+=1        

2. HTML

  • 웹 상의 정보를 구조적으로 표현하기 위한 언어
  • 트리모양의 포함관계를가짐
  • <> 태그형태를 가짐

regex

  • 정규표현식 연습장: https://regexr.com/
  • re 모듈사용
  • 크롤링을 할 때도 데이터에 대해서 regex를 사용가능
  • ex) http~~~.zip 파일에 대한 정규표현식 /(http)(.+)(zip)/g

3. XML

  • 데이터의 구조와 의미를 설명하는 TAG를 사용하여 표시하는 언어
  • HTML과 문법이 비슷

4. JSON

  • Javascript Object Notation
  • 요즘은 XML보다는 JSON을 통해서 데이터를 주고받음
  • key value형태의 dict type과 유사

1) read

#json_data.json
{ "name":"modern", "age":28 }


import json

with open("json_data.json", "r", encoding="utf8") as f:
    contents = f.read()
    json_data = json.loads(contents)
    print(json_data)

2) write

import json

temp_data = {"name":"modern", "nick":"modernflow"}

with open("data.json", "w") as f:
    json.dump(temp_data, f)
반응형