Wikipedia sprawia, że swoje dane są bardziej dostępne dla programistów AI, uwalniając zestaw danych zoptymalizowany do uczenia maszynowego, w celu zmniejszenia skrobania i obciążenia serwerów spowodowanych przez zautomatyzowane boty AI.
Fundacja WikiMedia nawiązała współpracę z Kaggle, platformą społeczności Data Science, platformę społeczności Data Science, w celu opublikowania zestawu danych beta strukturalnej treści Wikipedii w języku angielskim i francuskim. Ten zestaw danych jest „zaprojektowany z myślą o przepływach pracy maszynowej”, ułatwiając programistom dostęp do danych artykułów czytelnych dla różnych aplikacji AI, w tym modelowania, dostrajania, porównań, wyrównania i analizy.
Zestaw danych zawiera różnorodne treści, takie jak podsumowania badań, krótkie opisy, linki obrazu, dane InfoBox i sekcje artykułów. Wyklucza jednak referencje i nie napisane elementy, takie jak pliki audio. Na dzień 15 kwietnia dane są przedstawione w „Dobrze zorganizowanych reprezentacjach JSON”, które powinny być bardziej atrakcyjne dla programistów niż skrobanie lub analizowanie tekstu surowego. Oczekuje się, że ruch ten złagodzi obciążenie serwerów Wikipedii, które są obecnie mocno konsumowane przez zautomatyzowaną działalność AI BOT.
Fundacja Wikimedia ma już umowy o podziale treści w Google i archiwum internetowym. Jednak to partnerstwo z Kaggle ma na celu uczynienie danych bardziej dostępnymi dla mniejszych firm i niezależnych naukowców danych. Hostując zestaw danych, Kaggle odgrywa kluczową rolę w utrzymywaniu dostępnych danych, dostępnych i przydatnych dla społeczności uczenia maszynowego.
„W miarę miejsca, w którym społeczność uczenia maszynowego przychodzi na narzędzia i testy, Kaggle jest bardzo podekscytowany, że jest gospodarzem danych Fundacji Wikimedii”, powiedziała Brenda Flynn, Kaggle Partnerships Lead. „Kaggle jest podekscytowany odgrywaniem roli w utrzymywaniu dostępnych, dostępnych i użytecznych danych”.
Wydanie zestawu danych zostało ogłoszone 17 kwietnia 2025 r., Oznaczając znaczący krok w wysiłkach Wikipedii, aby zaangażować się z programistami AI i zarządzanie wpływem ruchu opartego na AI na jego platformę.
Source: Wikipedia oferuje dane gotowe do AI do ograniczenia skrobania








