본문 바로가기

DT&PI/Opinion

M365 Copilot + DataLake(Public Cloud) 연동에 관한 생각

 

◼︎ Q : public cloud의 data lake를 M365 Copilot과 연동시키려면 어떻게 해야할까?

◼︎ A : 데이터를 가공하여 Sharepoint나 onedrive에 복제하거나 Graph와 연동 API를 개발한다.

 

[from. ChatGPT]

 

[아래는 Azure blob과 MS graph를 연동시키기 위해 필요한 것을 질문한 내용 : 연동을 위해 별도 작업을 권한다]

** Azure가 조금 더 쉽다고는 하나, AWS S3나 GCP의 스토리지에 대한 연동 방법도 유사한 맥락으로 반환된다.

 

Question : 만약 M365가 Azure Blob, Azure Synapse(DW)를 참조할 수 있다면, Public Cloud 영향력을 더 확보할 수 있을텐데

                   왜 Copilot은 Azure의 데이터 저장소들과 쉽게 연동되지 않을까?

 

[아래는 사견일 뿐, Microsoft의 공식적 입장이나 과학적 근거가 있는 내용이 아니다]

 

추론 01 : 아직 기능이 구현되지 않았을 뿐이다.

               -> 이 추론이 맞다면 다른 Public Cloud를 사용하는 기업들은 Azure로의 데이터 이전을 고려할 필요도 있어 보인다.

 

추론 02 : Copilot은 근본적으로 ChatGPT에 분석을 맡기는 기능이다. ChatGPT 서비스는 input Context 크기에 제한이 있다.

               -> 프롬프트 질문에 참조되는 Binary 파일이 10GB라고 가정해보자. LLM에 밀어넣기엔 너무 많은 리소스가 필요할 것이다.

               -> 위와 같은 상황이 라이선스 1개당 몇 번씩 발생한다고 하면,

                     Azure 데이터 센터에 부하가 가중될 것이고 리소스 확충을 위해 Copilot 서비스 가격이 높아질 수밖에 없을 것이다.

 

추론 03 : Raw 데이터는 가공이 필요하다 (DataLake와 Warehouse에 저장된 데이터는 LLM의 분석 재료로 미흡하다)

               -> DataBase의 기술적 테이블명과 컬럼명, 코드값들은 M365 OA를 사용하는 현업 담당자들에게 직관적이지 않다.

               -> SP_PROD_DETAIL 테이블의 [PART_ID], [PRODLINE], [PROD_AMT] 열을 분석한 결과

                     "A432432" 제품은 "KO4324" 공정에서 생산될 때 가장 효율적입니다. 라는 식으로 결과가 반환된다면

                     현업에 그다지 도움이 되지 않을 것이다.

               -> 데이터를 분석에 용이한 형태로 저장하는 것이 LLM의 성능을 올릴 수 있는 지름길일 것이다.

 

추론 04 : 환각의 가능성이 커진다.

               -> 작성 시점이 달라 동일한 내용에 대하여 다른 대답을 포함하는 파일이 여러개 있다고 가정하자.

                    ChatGPT는 없는 것도 있다고 하는 문제가 있다. 이상한 전제를 포함하여 질문을 하면 당연히 이상한 답이 나올 것이다. 

               -> 데이터를 무작정 많이 제공하는 것이 현명하지 않을 수 있다. (M365에 잘 정리된 파일들만 사용하는 것이 좋을 수 있다)

'Digital Transformation > Opinion' 카테고리의 다른 글

M365 Copilot 요약  (0) 2023.11.26