table(7)
-
LLM) LLAVA 13b로 caption(설명) 또는 table 텍스트 데이터 생성해보기
llava라는 모델이 나와서 이미지 데이터만으로 테이블을 만들거나 caption을 생성한다는 것이 매력적인 것 같아 실험을 해봅니다. 자원이 없다 보니 개인 노트북에서 cpu로 돌리면서 결과를 하나하나 얻다 보니, 매우 오래 기다렸지만, 나름 유의미한 것 같아 공유드립니다. 아시다시피 한국 사람이다보니, 영어의 결과보다는 한국어로 결과를 얻고 싶었고, llava는 아무래도 영어를 주력 언어로 학습하다 보니, 학습을 시켜 아하나?라는 생각이 들었습니다. 하지만 그렇게 자원도 학습할 데이터도 없다 보니, 현재는 불가능하다 생각이 들었습니다. 그리고 번역기 성능이 좋다면, 오픈된 도메인 환경에서는 크게 문제 되지 않을 수도 있다는 생각이 들어서 deep_translator를 사용하여 번역하여 한국어로 결과를 ..
2024.07.30 -
DataView) DataViewJS를 사용하여, 현재 페이지 Header 기준으로 테이블 형태로 정리하기
obsidian을 사용할 때 각 Header 별로 위에서 아래로 쭉 내려서 봐야하는데, 이걸 좀 더 구조화해서 쉽게 볼 수 있게 dataviewjs로 하는 방법을 공유한다. 기본적으로 obsidian을 markdown을 이용해서 만드는 것이라서 쉽게 만들 수는 있지만, 위에서 아래로 쭉 내려오는 형태로 작성하게 된다. 물론 이렇게 해도 개요 기능을 통해 쉽게 전체적인 윤곽은 확인할 수 있지만, 전체적으로 한눈에 보기가 어렵다는 생각이 들었다 그래서 보통 저런 구조를 만들 때 테이블형태로 만들게 되는데, 그러한 테이블 구조에서 현재 Make.md 플러그인에서는 url을 정리해서 보여주는 기능이 없다. 위에 보면 Link라는 기능이 있지만 저 기능은 다른 문서를 참고할 때 쓰는 기능이다. (아직 초보자라 잘..
2024.01.12 -
Python) pyarrow 사용 방법
2022.11.26 - [분석 Python/구현 및 자료] - Python) pyarrow 다뤄보기 2022.12.21 - [분석 Python/구현 및 자료] - Python) pyarrow 사용 방법 라이브러리 import numpy as np import pyarrow.parquet as pq import pandas as pd from sklearn.datasets import make_classification 데이터 생성 X_pd= pd.DataFrame(X,columns =[ f"feature_{i}" for i in range(X.shape[1])]) X_pd['class'] =y 파티션별로 저장 X_pd.to_parquet( path="./test.parquet", engine='pyarr..
2022.12.21 -
Python) featuretools를 사용한 자동 변수 생성
목차 featuretools 버전 1.4.0을 기준으로 작성합니다. 예제 코드에서도 현재 1.4.0을 반영하지 않은 예제만 있다 보니, 그대로 실행하는 데 어려움이 있었고, 간단하게 변수 생성을 해보면서 정리를 해보고자 함. home-credit-risk data(https://www.kaggle.com/c/home-credit-default-risk/data) 패키지 설치 pip install featuretools==1.4.0 Featuretools Featuretools는 자동화된 기능 엔지니어링을 수행하기 위한 오픈 소스 라이브러리 Feature 생성 프로세스를 빠르게 진행하여 기계 학습 모델 구축의 다른 측면에 더 많은 시간을 집중할 수 있도록 설계된 훌륭한 도구입니다. 즉, 데이터를 "머신 러..
2022.01.22 -
[ Python ] smtplib를 이용해서 html 메일로 보내기
도움이 되셨다면, 광고 한번만 눌러주세요. 블로그 관리에 큰 힘이 됩니다 ^^ 가끔 이쁘게 결과를 만들어서 메일로 보내고 싶을 때가 있다. 이때 활용할 수 있는 패키지가 기본으로 제공하는 smtplib 라는 패키지가 있고, 이번에는 단순히 메세지만 보내는 것 아니라 html을 보내보고자 한다. 필자는 html을 따로 배우지 않고 기초정도만 아는 정도라 꾸미는 능력이 부족하지만, html에 대해 지식이 있으신 분은 그대로 사용할 수 있기 때문에 굉장히 편리하게 할 수 있을 것 같다. 일단 지메일로 이메일 보내는 것 자체는 https://data-newbie.tistory.com/309 블로그를 참고하시면 될 것 같다. 개인적으로 아직 로그인 없이 보내는 법을 알고 싶은데, 혹시 이 글을 읽고 있는 분 중에..
2019.11.24 -
Data Synthesis based on Generative Adversarial Networks [2018] 논문 리뷰 - 1
이 논문을 보는 이유 저번에 리뷰를 했던 https://data-newbie.tistory.com/98?category=686943 GAN 논문에서 해당 논문이 Table 데이터에 CNN 적용했다는 글을 보고 읽기 시작했다. 일반적으로 Table 같은 정형 데이터에 CNN은 적용하는 사례는 거의 못 봤지만 개인적으로 적용하면 어떻게 될까 항상 궁금했다. 여담이지만, 실제로 먼가 같은 인풋에 여러 개의 Layer를 입힌 다음에 concat을 해서 convolution1d를 해봤는데, 결과는 공유를 못 할 정도로 엉망이었다. 또 저자를 확인해보니 한국분들이 많으셔서, 굉장히 반가웠다.(나만..) 개요 이 논문은 다른 사람들에게 데이터를 공유 시 프라이버시에 대한 걱정이 중요해서 이것을 어떻게 해결할지에 대한..
2019.05.12 -
Synthesizing Tabular Data using Generative Adversarial Networks(1811 -논문 리뷰 )
제가 요즘 관심 있는 것은 생성 모델 중에 GAN이라는 알고리즘입니다. 저는 특히 Tabular Data를 GAN을 활용해, 생성하는 것에 관심이 있어서 해당 논문에 대해서 디테일하게 설명하지는 못하지만, 직관적으로 제가 이해한 만큼만 작성해보려고 합니다. Paper : https://arxiv.org/abs/1811.11264 Code : https://github.com/DAI-Lab/TGAN 이 논문을 제가 선택한 이유는 다음과 같습니다. Discre 변수와 Continuous 변수를 동시에 생성 가능하다고 합니다( medgan 논문은 안됩니다) 대부분의 discrete data를 생성하는 GAN 논문에서는 RL 방법이나 Round로 처리하는데, 해당 논문은 softmax를 이용하여서 처리합니다. ..
2019.05.09