M365 Copilot + DataLake(Public Cloud) 연동에 관한 생각

◼︎ Q : public cloud의 data lake를 M365 Copilot과 연동시키려면 어떻게 해야할까?

◼︎ A : 데이터를 가공하여 Sharepoint나 onedrive에 복제하거나 Graph와 연동 API를 개발한다.

[from. ChatGPT]

[아래는 Azure blob과 MS graph를 연동시키기 위해 필요한 것을 질문한 내용 : 연동을 위해 별도 작업을 권한다]

** Azure가 조금 더 쉽다고는 하나, AWS S3나 GCP의 스토리지에 대한 연동 방법도 유사한 맥락으로 반환된다.

Question : 만약 M365가 Azure Blob, Azure Synapse(DW)를 참조할 수 있다면, Public Cloud 영향력을 더 확보할 수 있을텐데

왜 Copilot은 Azure의 데이터 저장소들과 쉽게 연동되지 않을까?

[아래는 사견일 뿐, Microsoft의 공식적 입장이나 과학적 근거가 있는 내용이 아니다]

추론 01 : 아직 기능이 구현되지 않았을 뿐이다.

-> 이 추론이 맞다면 다른 Public Cloud를 사용하는 기업들은 Azure로의 데이터 이전을 고려할 필요도 있어 보인다.

추론 02 : Copilot은 근본적으로 ChatGPT에 분석을 맡기는 기능이다. ChatGPT 서비스는 input Context 크기에 제한이 있다.

-> 프롬프트 질문에 참조되는 Binary 파일이 10GB라고 가정해보자. LLM에 밀어넣기엔 너무 많은 리소스가 필요할 것이다.

-> 위와 같은 상황이 라이선스 1개당 몇 번씩 발생한다고 하면,

Azure 데이터 센터에 부하가 가중될 것이고 리소스 확충을 위해 Copilot 서비스 가격이 높아질 수밖에 없을 것이다.

추론 03 : Raw 데이터는 가공이 필요하다 (DataLake와 Warehouse에 저장된 데이터는 LLM의 분석 재료로 미흡하다)

-> DataBase의 기술적 테이블명과 컬럼명, 코드값들은 M365 OA를 사용하는 현업 담당자들에게 직관적이지 않다.

-> SP_PROD_DETAIL 테이블의 [PART_ID], [PRODLINE], [PROD_AMT] 열을 분석한 결과

"A432432" 제품은 "KO4324" 공정에서 생산될 때 가장 효율적입니다. 라는 식으로 결과가 반환된다면

현업에 그다지 도움이 되지 않을 것이다.

-> 데이터를 분석에 용이한 형태로 저장하는 것이 LLM의 성능을 올릴 수 있는 지름길일 것이다.

추론 04 : 환각의 가능성이 커진다.

-> 작성 시점이 달라 동일한 내용에 대하여 다른 대답을 포함하는 파일이 여러개 있다고 가정하자.

ChatGPT는 없는 것도 있다고 하는 문제가 있다. 이상한 전제를 포함하여 질문을 하면 당연히 이상한 답이 나올 것이다.

-> 데이터를 무작정 많이 제공하는 것이 현명하지 않을 수 있다. (M365에 잘 정리된 파일들만 사용하는 것이 좋을 수 있다)

M365 Copilot 요약 (0)	2023.11.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

Data_study