본문 바로가기

Machine Learning/기타

(4)
2024년에 한 생각과 2025년에 할 생각, 머신러닝 엔지니어는 어디로 가야 하는가? 커리어에 관한 생각이 매우 많았어서 24년이 끝난것을 기념해 짧게 정리를 해 보았습니다. 24년에 가장 오래 그리고 깊게 고민했던 질문은 다음과 같다.머신러닝 엔지니어의 커리어 방향에는 머신러닝과 엔지니어링 중에서 어떤것을 중점으로 해야 하는가? 머신러닝에 속하는 업무 영역- 알고리즘과 모델 개발- 데이터 분석- 이 영역은 머신러닝 리서치를 하시는 분, 데이터 사이언티스트 분들과 겹칠 수 있습니다. 엔지니어링에 속하는 업무 영역- 머신러닝 운용에 요구되는 백앤드 서버 개발- 피쳐 및 학습데이터를 위한 데이터 엔지니어링- 서버 개발에 필요한 소프트웨어 인프라- 이 영역은 백엔드 개발자, 데이터 엔지니어분들과 겹칠 수 있습니다. 실제 업무 비중 (주의, 이는 회사마다, 팀 마다 매우 다릅니다.)- 머신러닝 ..
DeepTrax: 트랜잭션 데이터 임베딩 구현 및 시각화 해보기 https://arxiv.org/pdf/1907.07225DeepTrax: embedding graphs of financial transactions 논문을 훑어고금융 거래 데이터를 활용하여, 거래 항목을 임베딩 후, 임베딩 결과를 시각화 해 보았습니다. DeepTrax: embedding graphs of financial transactions1. INTRODUCTION금융 거래 이종 그래프(heterogeneous graph)로 표현하고, 이들간의 거래를 edge로 표현하는것은 유용한 접근법이 될 수 있지만, 이러한 그래프는 매우 높은 차원을 가지고, 희소하게 연결되어 있어 일반적인 머신러닝 작업에 활용하기 어렵습니다.최근 몇년 동안(논문 출판 년도 : 2019년) 이러한 그래프의 latent r..
시계열 분류 모델을 위한 딥러닝 아키텍쳐 Deep learning for time series classification: a review본 페이지는 위 논문을 읽고, 일부분을 정리한 글입니다. 시계열 분류 모델에 대한 기본 정의와, 자주 사용하는 구조인 MLP, CNN, ESN(RNN) 에 대해서 정리를 해 두었습니다  Time series classification시계열 데이터는 순서가 있는 실수 값들을 의미합니다.이 시계열의 길이는 실수 T와 같습니다.M차원의 다변량 시계열 데이터(MTS, Multivariate Time Series)는 M개의 단변량 시계열 데이터로 이루어져 있습니다.각 X^i의 값은 실수 T개로 이루어져 있습니다.데이터셋 D는 (X_i, Y_i)의 페어의 집합으로 이루어져 있습니다. X_i는 단별량 혹은 다변량 시계열이..
Auto ML : FLAML 패키지 설명 & 사용기 분류, 회귀모델을 만들 때 가장 많이 사용한 프레임워크는 LGBM인데요.LGBM은 마이크로소프트웨어에서 관리하고 있는 그레디언트 부스팅 프레임워크 입니다. https://github.com/microsoft/LightGBM GitHub - microsoft/LightGBM: A fast, distributed, high performance gradient boosting (GBT, GBDT, GBRT, GBM or MART) framework baA fast, distributed, high performance gradient boosting (GBT, GBDT, GBRT, GBM or MART) framework based on decision tree algorithms, used for rank..