wellness_dataset_original.xlsx
pip로 1번 셀에 있는 라이브러리 이름하고 버전 알려주세요
pandas
sentence_transformers
python 3.8
scikit-learn
<aside> 💡 (help) wellness_dataset_original.csv 파일이 학습이 끝난 임베딩 값이 들어있는 csv파일인가요 ? →오리지널은 그냥 처음 불러온 상태 그대로고, wellness_dataset이 제가 임베딩 값을 넣어 가공하게 되는거예여
그럼 코드를 매번 실행할 때마다 다시 첨부터 학습을 해야하나요 ?? jhgan/ko-sroberta-multitask 이 모델에 이미 학습이 되어있는건가요 ?
→ 네네 맞아요 import해서 가져왔어요
그럼 df.to_csv('wellness_dataset.csv', index=False) 이 코드는 굳이 필요 없는건가요 →그건 이제 csv파일로 저장하려고 했는데, 파일을 열어보니까 깨져서, DataFrame으로 그냥 사용하는게 맞는거 같아요
그럼 만약 텍스트를 전달받아서 CSV 파일 불러오고 결과값 내는데 몇초정도 걸릴까요? 학습을 진행하는건 아니니까 오래는 안걸리겠죠 ?? →DataFrame에 각각의 임베딩값까지 저장이 되어있고, 저 코드에서 해야될 것은 사실 similarity를 비교해서 가장 높은 값을 뽑는 것만 하면 됩니다.
→혹시 DataFrame에 저장된 임베딩 값이 몇번 셀인가요 ? 코드를 실행할 때마다 임베딩 값이 초기화되지 않나요 ㅠ
→ 그래서 ipynb로 만들어서 계속 불러오지않고 셀 실행으로 원하는 부분만 실행할 수 있게(여기서는 text를 입력이후로만 돌리면 됩니다)
→ lambda에서는 ipynb 파일 실행이 불가해서 python 한 코드로 다 붙여서 실행을 해야하는데 그러려면 임베딩 값이 들어가 있는 csv 파일이 있어야할 것 같아요 원격 저장소에 임베딩 값이 들어간 csv 파일을 넣어놓고 파이썬에서 불러서 바로 결과를 뽑을 수 있는 형태로 해야할듯요..? 아니면
cloud9은 그냥 IDE 아닌가여
https://docs.aws.amazon.com/ko_kr/lambda/latest/dg/lambda-python.html
제가 이부분을 알아올게요
아혹시 ‘lambda에서는 ipynb 파일 실행이 불가해서 python 한 코드로 다 붙여서 실행을 해야하는데 그러려면 임베딩 값이 들어가 있는 csv 파일이 있어야할 것 같아요 ‘ 이런식으로도 변형이 가능할까요 ? csv에 임베딩이 벡터라..될지 모르겠어요 제가 한번 찾아볼게요 넵.
</aside>
wellness dataset csv 파일이 제 로컬에는 존재하지 않기 때문에 전체적인 코드 진행이 불가능합니다. 업로드 부탁드려요
→ 완료