chatbot.ipynb

wellness_dataset_original.xlsx

  1. pip로 1번 셀에 있는 라이브러리 이름하고 버전 알려주세요

    1. pandas

    2. sentence_transformers

    3. python 3.8

    4. scikit-learn

      <aside> 💡 (help) wellness_dataset_original.csv 파일이 학습이 끝난 임베딩 값이 들어있는 csv파일인가요 ? →오리지널은 그냥 처음 불러온 상태 그대로고, wellness_dataset이 제가 임베딩 값을 넣어 가공하게 되는거예여

      그럼 코드를 매번 실행할 때마다 다시 첨부터 학습을 해야하나요 ?? jhgan/ko-sroberta-multitask 이 모델에 이미 학습이 되어있는건가요 ?

      → 네네 맞아요 import해서 가져왔어요

      그럼 df.to_csv('wellness_dataset.csv', index=False) 이 코드는 굳이 필요 없는건가요 →그건 이제 csv파일로 저장하려고 했는데, 파일을 열어보니까 깨져서, DataFrame으로 그냥 사용하는게 맞는거 같아요

      그럼 만약 텍스트를 전달받아서 CSV 파일 불러오고 결과값 내는데 몇초정도 걸릴까요? 학습을 진행하는건 아니니까 오래는 안걸리겠죠 ?? →DataFrame에 각각의 임베딩값까지 저장이 되어있고, 저 코드에서 해야될 것은 사실 similarity를 비교해서 가장 높은 값을 뽑는 것만 하면 됩니다.

      →혹시 DataFrame에 저장된 임베딩 값이 몇번 셀인가요 ? 코드를 실행할 때마다 임베딩 값이 초기화되지 않나요 ㅠ

      → 그래서 ipynb로 만들어서 계속 불러오지않고 셀 실행으로 원하는 부분만 실행할 수 있게(여기서는 text를 입력이후로만 돌리면 됩니다)

      → lambda에서는 ipynb 파일 실행이 불가해서 python 한 코드로 다 붙여서 실행을 해야하는데 그러려면 임베딩 값이 들어가 있는 csv 파일이 있어야할 것 같아요 원격 저장소에 임베딩 값이 들어간 csv 파일을 넣어놓고 파이썬에서 불러서 바로 결과를 뽑을 수 있는 형태로 해야할듯요..? 아니면

      cloud9은 그냥 IDE 아닌가여

      https://docs.aws.amazon.com/ko_kr/lambda/latest/dg/lambda-python.html

      제가 이부분을 알아올게요

      아혹시 ‘lambda에서는 ipynb 파일 실행이 불가해서 python 한 코드로 다 붙여서 실행을 해야하는데 그러려면 임베딩 값이 들어가 있는 csv 파일이 있어야할 것 같아요 ‘ 이런식으로도 변형이 가능할까요 ? csv에 임베딩이 벡터라..될지 모르겠어요 제가 한번 찾아볼게요 넵.

      </aside>

  2. wellness dataset csv 파일이 제 로컬에는 존재하지 않기 때문에 전체적인 코드 진행이 불가능합니다. 업로드 부탁드려요

→ 완료

  1. wellness_dataset_original, wellness_dataset 두 csv 파일 중에서 어떤 파일이 임베딩 값 변경이 필요없는 정적파일인가요 ? csv 파일을 클라우드 저장소에 업로드해서 pyhton으로 불러서 코드를 실행할 예정
  2. 13번 셀에 df.to_csv 코드는