a16z가 3,300만 달러 규모의 시드 라운드를 주도했는데, Yupp은 블록체인과 인센티브를 기반으로 AI 평가 모델을 어떻게 재구성할까요?

저자: ShenZhen, PANews

편집자: Zen, PANews

AI 애플리케이션이 사회 전반에 걸쳐 확산됨에 따라, 모델 성능을 정확하게 평가하고 사용자 신뢰를 높이는 방법은 시급히 해결해야 할 과제로 떠올랐습니다. 기존의 평가 방식은 대부분 중앙 집중식 메커니즘에 의존하는데, 이는 다양한 시나리오를 포괄하기 어렵고 실제 사용자 선호도를 반영할 수 없습니다. 또한, 모델 "환각" 문제가 빈번하게 발생하고, 사용자는 선택 과정에서 정보의 틀에 갇히는 경우가 많습니다.

이러한 맥락에서, 새로운 플랫폼인 Yupp은 고유한 크라우드소싱 모델과 인센티브 메커니즘을 통해 AI 모델의 발견, 비교 및 활용 방식을 혁신하고 AI 평가 분야의 패러다임을 전환하고자 합니다. 본 글에서는 Yupp의 핵심 메커니즘, 기술적 특징, 팀 배경, 그리고 AI 생태계에 미치는 잠재적 영향을 심층적으로 분석합니다.

팀 배경 및 자금 조달: 기술 대기업의 경험

Yupp은 AI 분야의 오랜 평가 문제 해결을 목표로 하며, "신뢰가 필요 없는" AI 피드백 시장을 구축하는 데 전념합니다. 이를 통해 블록체인과 암호경제적 인센티브의 보호 하에 다양한 사용자 피드백이 자유롭게 흐르도록 하여 확장 가능하고 공정하며 투명한 모델 평가 계층을 구축합니다. 고품질 수동 라벨링 데이터의 인센티브 분배를 통해 Yupp은 다양한 시나리오에서 실제 사용자의 요구와 선호도를 적시에 파악하여 AI 개발자가 반복적으로 모델 성능을 최적화할 수 있도록 지원합니다.

이 프로젝트는 2024년 6월 판카즈 굽타(공동 창립자 겸 CEO)와 길라드 미슈네(공동 창립자 겸 AI 책임자)가 설립했으며, 워털루 대학교 교수인 지미 린 수석 과학자도 핵심 팀에 참여했습니다. 세 사람은 2010년부터 트위터에서 대규모 추천 및 검색 시스템을 구축하고 최적화하는 업무를 함께 수행했으며, 이후 구글과 코인베이스에서 풍부한 경험을 쌓았습니다.

Yupp은 분산화와 데이터 가치 투명성에 대한 그의 비전이 신뢰할 수 있는 평가와 사용자 참여라는 AI 제조업체의 두 가지 요구 사항을 충족할 수 있고 핵심 팀의 풍부한 이력서 덕분에 기술 산업의 유명 인사와 최고 벤처 캐피탈리스트로부터 높은 인정을 받았습니다.

지난주 Yupp은 A16z 파트너인 크리스 딕슨이 주도한 3,300만 달러 규모의 시드 투자 유치를 완료했다고 발표했습니다. 다른 투자자로는 구글 수석 과학자 제프 딘, 트위터 공동 창업자 비즈 스톤, 핀터레스트 공동 창업자 에반 샤프, 퍼플렉시티 CEO 아라빈드 스리니바스, 스탠퍼드 대학교의 댄 보네, 크리스 리, 닉 맥키언, 발라지 프라바카르, 45명의 유명 엔젤 투자자와 기업 임원, 그리고 코인베이스 벤처스가 있습니다.

핵심 기능과 사용자 경험: "AI 의회" 구축

중앙 집중형 AI 평가 플랫폼인 Yupp은 "모든 AI는 모두를 위한 것"이라는 컨셉을 고수하여 사용자가 최신 AI 모델을 쉽게 검색, 비교 및 사용할 수 있도록 지원합니다. 기존의 단일 응답과 달리, Yupp은 각 질문에 대해 두 개(또는 그 이상)의 모델에서 답변을 반환하여 "AI 의회"를 구성합니다. 이러한 설계는 다양한 선택지에 대한 사용자의 요구를 충족할 뿐만 아니라, 모델에 나타날 수 있는 "환상"을 효과적으로 식별하여 사용자가 비교를 통해 더욱 정보에 기반한 결정을 내릴 수 있도록 지원합니다. Yupp CEO Pankaj Gupta가 언급했듯이, 병렬 출력은 생성 오류를 우려하는 사용자에게 특히 유용합니다. 결과를 교차 검증하는 데 사용할 수 있기 때문입니다.

이 플랫폼은 현재 ChatGPT, Claude, Gemini, DeepSeek, Grok, Llama 등 잘 알려진 모델과 더불어 여러 신규 모델을 포함하여 텍스트 및 이미지 생성을 포함한 500개 이상의 AI 모델을 지원합니다. Yupp은 사용자 경험을 더욱 최적화하기 위해 긴 답글을 간결한 트윗으로 압축해 주는 "QuickTake" 기능도 출시했습니다.

또한, Yupp은 사용자 개인정보 보호를 매우 중요하게 생각합니다. 모든 채팅 기록은 사용자가 직접 공개하지 않는 한 기본적으로 비공개로 유지됩니다. 공개적으로 공유하더라도 개인 정보는 노출되지 않습니다. 사용자는 언제든지 공유 내용과 범위를 제어할 수 있습니다.

경제 모델 및 인센티브 메커니즘: 데이터 노동 가치 평가

Yupp은 무료 사용과 사용자 피드백을 결합하고, "Yupp 포인트" 시스템을 통해 모델 사용량을 측정합니다. 신규 사용자는 가입 후 몇 초 만에 5,000포인트를 획득하며, 모델 응답을 평가하고, 선호도를 선택하고, 이유를 설명하면 더 많은 포인트를 획득할 수 있습니다. 피드백의 질이 높을수록 보상도 더 풍성해져 사용자는 Claude Opus 4나 OpenAI o3와 같은 고급 모델을 무료로 계속 사용할 수 있습니다. 플랫폼은 포인트가 증가만 하고 감소하지 않으며, 모든 기존 모델을 무료로 체험해 볼 수 있다고 약속합니다.

각 질문마다 두 개의 모범 답안을 받고, 피드백을 통해 "디지털 스크래치 카드"를 받게 되며, 이 카드에는 0점부터 250점까지의 Yupp 포인트가 적립됩니다. 1,000포인트는 1달러로 교환할 수 있으며, 사용자는 하루 최대 10달러, 월 최대 50달러까지 인출할 수 있습니다. 포인트는 미국 달러와 유로를 포함한 20개 이상의 통화로 교환할 수 있으며, Stripe, PayPal, Coinbase 등의 파트너와 협력하고 있습니다. 동시에, 이 플랫폼은 Base Ethernet L2와 Solana 스테이블코인을 통합하여 전 세계 사용자에게 수수료 없이 즉시 보상을 제공합니다.

판카즈 굽타가 말했듯이, 사용자가 생성한 고품질 피드백은 AI 기업에 보상 자체보다 모델 미세 조정 및 강화 학습에 훨씬 더 큰 가치를 지닙니다. 사용자의 월 수입이 커피 몇 잔 값에 불과할지라도, 이러한 유료 라벨링 데이터는 AI 반복에 매우 중요합니다.

더 많은 사람들이 참여하도록 장려하기 위해 Yupp은 추천 보상도 마련했습니다. 추천인은 5,000포인트를 받고 추천 대상자는 1,000포인트를 받습니다. 현재 새로 가입한 사용자는 5,000포인트를 받을 수 있고 추천 대상자는 추가로 2,500포인트를 받을 수 있습니다.

Yupp VIBE 스코어링: AI 평가를 위한 새로운 패러다임

기존 순위 체계의 투명성, 공정성 부족, 그리고 평가 데이터 접근성의 불균형에 대응하여 Yupp은 AI 순위 시스템과 "Yupp VIBE(Vibe Intelligence Benchmark) Score" 채점 시스템의 베타 버전을 출시했습니다. 이 시스템은 전 세계 사용자들이 자연스러운 상호작용을 통해 생성한 선호도 데이터를 종합하여 견고하고 신뢰할 수 있는 평가 결과를 제공하기 위해 노력합니다.

Yupp의 평가 원칙은 다음과 같습니다.

견고성: 대표성(다양한 시나리오를 포괄), 진정성(사용자의 우려를 반영), 부정행위 방지(악의적인 행동에 대한 저항)를 보장합니다.
신뢰성: 공정하고 중립적(모델에 대한 공평성), 투명하고 개방적(순위 알고리즘에 대한 자세한 공개), 엄격하고 과학적(평가 기준 준수).

이 플랫폼은 단순히 이진 선호도를 수집하는 것이 아니라, 사용자에게 답변의 장단점(예: "간단히", "빠름", "스타일 좋음")을 지적하도록 권장하고, 사용자의 나이, 교육, 직업 및 기타 정보를 기반으로 그룹 분석을 실시하여 다양한 그룹 간의 선호도 차이를 보여줍니다.

기술적인 측면에서 Yupp은 블록체인, 암호화 기본 요소, 그리고 영지식 증명을 활용하여 평가 과정의 공정성, 투명성, 그리고 검증 가능성을 확보하는 방안을 모색하고 있습니다. 동시에, 플랫폼은 전문 AI 데이터 제공업체와 협력하여 파일 검증 및 다층 품질 검사를 통해 채점자를 보정하고 악성 데이터를 제거합니다.

이 목록은 최근 업데이트되어 GPT‑4.5 Preview, Claude Opus 4, Claude Sonnet 4와 같은 모델의 VIBE 점수와 승률, 싫어요 비율, 속도, 지연 시간, 컨텍스트 창 및 비용 측정 항목을 보여줍니다.

개발 역사 및 미래 전망

Yupp은 6개월간의 내부 테스트를 거쳐 2025년 6월 13일에 공식 출시되었습니다. 출시 이후, 제품은 다음과 같은 개선을 거듭해 왔습니다.

다중 모드 지원: Dall‑E, Flux, Stable Diffusion, Luma Photon, Google Imagen 4 및 기타 모델에 대한 액세스, 사용자가 이미지/PDF를 업로드하여 질문할 수 있도록 지원
상호작용 모드 확장: 음성 입력 및 음성 읽기 기능 추가
모델 업데이트: DeepSeek R1/V3, Mistral Small 3, OpenAI o3‑pro, Hermes 3, Amazon Nova Pro v1, Microsoft Phi 시리즈 및 "MAX 모델" 카테고리가 도입되었습니다.
실시간 정보: 온라인 질의 요청은 하이퍼링크 인용과 함께 Perplexity와 Google Gemini Live로 라우팅됩니다.
결제 업그레이드: 미국 PayPal, Venmo 출금 및 24개 통화에 대한 PayPal 지원이 추가되었습니다.
공유 및 내보내기: 서식을 유지한 채 복사, PDF/텍스트/마크다운 내보내기, 필요에 따라 단일 답변이나 전체 대화 공유를 지원합니다.
커뮤니티 활동: 최대 수만 포인트의 상금을 걸고 "AI 프롬프트 챌린지"와 같은 활동을 조직하고, 개인 프로필 페이지와 AI가 생성한 채팅 이름 등의 새로운 기능을 추가합니다.

Yupp의 사명은 "인간이 AI의 미래를 만들어갈 수 있도록 지원하는 것"입니다. 판카즈 굽타는 AI 개발에는 모두의 참여와 기여가 필요하다고 믿습니다. Yupp은 다각적인 AI 응답과 사용자 피드백을 통해 사용자가 더 나은 결정을 내릴 수 있도록 지원할 뿐만 아니라 AI 발전을 위한 지속적인 원동력을 제공합니다.

Yupp의 주요 경쟁사 중 하나는 AI 업계 관계자들 사이에서 매우 인기 있는 개방형 AI 모델 평가 플랫폼인 LMArena(URL: https://lmarena.ai/)입니다. 그러나 이 플랫폼은 현재 상용화 탐색 단계에 있으며, 사용자 참여에 대한 직접적인 물질적 보상이나 포인트 인센티브 메커니즘을 제공하기 위해 블록체인 기술을 사용하지 않습니다.

Yupp은 크라우드소싱 모델, 인센티브 메커니즘, 그리고 실제 사용자 선호도에 기반한 평가 시스템을 통해 AI 평가의 새로운 길을 열었습니다. 사용자에게 무료이고 다양한 AI 인터랙티브 경험을 제공할 뿐만 아니라, 사용자 피드백을 고부가가치 학습 데이터로 전환하여 지속적인 모델 최적화를 촉진합니다. 숙련된 팀과 최고의 자본 지원을 바탕으로 Yupp은 미래 AI 생태계에서 핵심적인 역할을 수행하고 "모두가 AI를 즐기고, 모두가 AI를 만든다"는 비전을 실현할 것으로 기대됩니다.

하지만 이제 막 출시된 Yupp의 경우, 대규모 사용자 참여를 통해 데이터 품질을 지속적으로 보장하고 잠재적 사기를 방지하며, 상용화와 사용자 인센티브 간의 균형을 맞추는 방법은 앞으로의 개발에서 지속적으로 탐색하고 최적화해야 할 방향입니다.