GIL's LAB

주피터 노트북 실행 결과 초기화 방법 본문

파이썬/환경설정 및 오류 해결

주피터 노트북 실행 결과 초기화 방법

GIL~ 2021. 9. 5. 10:14

이번 포스팅에서는 ipynb 파일에서 실행 결과를 초기화하는 방법을 소개한다.

이 방법은 코드를 구동하다가 출력 결과가 너무 많아 (print 문을 너무 많이 사용하거나, 그림을 많이 사용했거나 등), 브라우저에서 outofmemory 에러가 발생할 때 유용하다. 

일단 이 오류가 발생하면 ipynb 파일 사이즈도 너무 커져있는 상태이기 때문에, 파일이 잘 안 열리는 현상이 있다. 

 

이러한 현상이 발생했을 때, 아래 코드를 이용하면 출력 결과를 모두 삭제해서 파일 크기를 줄일 수 있다.

import sys
import io
import os
from IPython.nbformat.current import read, write

def clear_notebook(fname, new_fname):
    # 기존 파일 불러오기 
    with io.open(fname, 'r', encoding = "utf-8") as f:
        nb = read(f, 'json')
    
    # 아웃풋 삭제
    for ws in nb.worksheets:
        for cell in ws.cells:
            if cell.cell_type == 'code':
                cell.outputs = [] # cell output 초기화
    
    # 아웃풋이 삭제된 새로운 노트북 파일 작성
    base, ext = os.path.splitext(fname)
    new_ipynb = "%s_removed%s" % (base, ext)
    with io.open(new_fname, 'w', encoding='utf-8') as f:
        write(nb, f, 'json')

# 실행 예제
clear_notebook("oldfile.ipynb", "newfile.ipynb")

 

 

이제 사용 예제를 살펴보자.

아래와 같이 10만개의 값이 출력된 ipynb 파일이 있다고 하자.

이 파일의 크기는 707kb이다. 메모리 문제가 발생할 크기는 아니지만, 예제니까 너그럽게 넘어가자.

 

이제 위에서 소개한 코드를 이용하여 출력값을 삭제해보자.

다음과 같이 출력값이 삭제되어, 783B로 파일 크기가 크게 줄어든 것을 볼 수 있다.

파일을 열어보면 실행한 흔적 ([2])는 남아 있지만, 출력 값이 삭제된 것을 확인할 수 있다. 

 

가능하면 위의 예시처럼 이전 파일과 새로 만든 파일의 이름을 다르게 해야, 코드가 날라가는 불상사를 막을 수 있다.

Comments