김은희 l 한국오라클 컨설턴트<br> 패션에서 머신러닝 적용 분야 : 분류

People

< 알쓸패잡_패션과 IT >

김은희 l 한국오라클 컨설턴트
패션에서 머신러닝 적용 분야 : 분류

Monday, June 6, 2022 | 외고, mizkim@fashionbiz.co.kr

  • VIEW
  • 1410
초창기 지능형 애플리케이션들이 ‘if’와 ‘else’ 명령어를 하드 코딩해서 스팸 메일을 걸러냈다면 기계 학습에서는 많은 스팸 메일(X)과 ‘스팸’이라는 데이터 라벨(Y)을 제공받아 둘 간의 관계를 연산하는 알고리즘을 스스로 학습해 낸다. 여기서 관계식 모델이 나오면, 새로운 이메일이 스팸인지 아닌지 예측할 수 있게 된다.

이처럼 머신러닝을 통해 주로 하는 업무가 ‘분류기(Classifier)’를 만들어 내는 것인데, 전형적인 예로는 손글씨 숫자판별, 의심되는 신용카드 거래 감지, 의료영상 이미지로 암 진단, 꽃 검색, 설비센서 데이터의 이상 감지, 음성을 텍스트로 전환하기 등이 있다.

그렇다면 패션에서 머신러닝을 풀 수 있는 ‘분류’의 문제는 어떤 것이 있을지 궁금해진다. 머신러닝 모델 개발자가 아니므로 신경망이나 SVM이라든지 파이썬이나 R 언어는 배울 필요가 없지만, 모르면 뉴스 읽기도 어려우니 최소한만 알면 된다.

이 글은 머신러닝을 배울 필요는 없지만 기본만 알고 싶은 이들을 위한 내용이다. 필자가 2016년부터 K사에서 패션 데이터 분석 이후 현재는 오라클의 분석 플랫폼 관련 일을 하는 앤드류 웅 교수의 코세라 수업을 반복 공부한 것을 토대로 정리했다.

우선 지도 학습(Supervised Learning)의 문제를 정의하고 들어갈 데이터를 수집해야 한다.

몇 가지 용어가 나오는데, ‘데이터 라벨링’은 ‘Y값 채워주기’다. 만약 이미지 분류가 잘못됐다면 사람이 제대로 아이템명을 넣지 않았기 때문이므로 패션 전문가가 개입해서(휴먼 인 더 루프) 값을 바꿔주면 된다.

‘특성 공학’은 X로 쓰는 데이터(설명변수, 특성, Feature)를 2개씩 골라서 곱한 후 X칼럼을 늘리는 것이므로 파생 변수를 만든다고도 하고, 특성을 유도한다고도 한다.  

이처럼 데이터 전처리 후 데이터의 70%를 입력하면 분류 알고리즘(선형 분류, 신경망, SVM, 나이브 베이즈망, 의사결정나무, 랜덤 포레스트)의 수학식을 만들어 가는데, 이를 ‘학습(트레이닝)’이라고 한다. 모델이 나오면 나머지 30% 검증 데이터를 넣어 잘 맞히는지 성능 검증(Validation)을 한 후 드디어 ‘분류기’를 만들 수 있게 된다. ‘시작이 반’이라고 독자분들이 기계 학습에 좀 더 친숙해지는 데 도움이 됐으면 한다.





■ profile
•현 한국오라클 상무, 컨설턴트
•MIT 로지스틱스, SCM 공학석사
•FIT 패션바잉, 머천다이징 AAS
•서울대 의류학과 학사, 석사, 박사



이 기사는 패션비즈 2022년 6월호에 게재된 내용입니다.
패션비즈를 정기구독 하시면
매월 다양한 패션비즈니스 현장 정보와, 패션비즈의 지난 과월호를 PDF파일로 다운로드받아 열람하실 수 있습니다.

■ 패션비즈 정기구독 Mobile버전 보기
■ 패션비즈 정기구독 PC버전 보기




<저작권자 ⓒ Fashionbiz , 무단전재 및 재배포 금지>