Рекомендації та заборони для збору твітів у 2025 році

pic

Банер для збору твітів

З початку 2025 року найкращим безкоштовним інструментом для збору твітів з X (колишній Twitter) здається agent-twitter-client від команди, що стоїть за ElizaOS та ai16z.

Цей інструмент не вимагає API ключів і не має видимих обмежень по кількості запитів для багатьох операцій на активному клієнті Twitter, що виглядає як вигідна ситуація для всіх учасників! Ну… може, не для X 😅.

Перегляд README.md файлу надає цілу купу інформації про доступні функції та найкращі способи їх використання для досягнення очікуваних результатів.

Налаштуйте змінні середовища для автентифікації.

TWITTER_USERNAME= # Ім’я користувача акаунта  
TWITTER_PASSWORD= # Пароль акаунта  
TWITTER_EMAIL= # Електронна пошта акаунта  
PROXY_URL= # HTTP(s) проксі для запитів (необхідно для браузерів)  
# Ключі для доступу до Twitter API v2 для роботи з твітами та опитуваннями  
TWITTER_API_KEY= # Ключ API Twitter  
TWITTER_API_SECRET_KEY= # Секретний ключ API Twitter  
TWITTER_ACCESS_TOKEN= # Токен доступу до Twitter API v2  
TWITTER_ACCESS_TOKEN_SECRET= # Секрет токена доступу до Twitter API v2

Для операцій тільки для читання достатньо вказати лише поля TWITTER_USERNAME, TWITTER_PASSWORD та TWITTER_EMAIL. Інші змінні середовища не потрібно навіть вказувати.

Щоб ефективно використовувати цей інструмент у ваших скриптах, ботах, збирачах даних тощо, ознайомтесь з рекомендаціями DOs & DONTs.

DOs

  1. Кешуйте cookies, як зазначено в README, де б ви не запускали застосунок. Старайтеся уникати множинних запитів на вхід у ваші скрипти. Кожен запит буде видимий на вашій сторінці X.

  2. Між запитами можуть бути довгі паузи, особливо при зборі більше ніж 100,000 твітів. Інструмент збирає 20 твітів за раз. Але в залежності від кількості твітів, яку ви вказали в параметрах, він буде циклічно виконувати запити і забезпечить збір максимального числа твітів. Чекайте, поки інструмент не перезапуститься.

  3. Умовні пошуки можливі, але вони повертають максимум 50 твітів, навіть якщо передати більшу кількість як параметр. Шукайте слова, а не намагайтеся виконати пошук за кількома співпадіннями чи патернами.

  4. Метод пошуку твітів є AsyncGenerator. Щоб отримати бажані твіти, використовуйте наступний синтаксис.
    https://github.com/elizaOS/agent-twitter-client/issues/24

const mentions = this.scraper.searchTweets(  
 '#nodejs', 20, SearchMode.Latest  
 );  
for await (const mention of mentions) {  
 console.log(mention);  
};
  1. Передавайте відповідний SearchMode у ваших запитах.

  2. ЧИТАЙТЕ ЧОРТОВУ ІНСТРУКЦІЮ!

  3. Перевірте підтримувані типи медіа

// Формати зображень та їх MIME типи  
const imageTypes = {  
 '.jpg': 'image/jpeg',  
 '.jpeg': 'image/jpeg',  
 '.png': 'image/png',  
 '.gif': 'image/gif'  
};  
// Формат відео  
const videoTypes = {  
 '.mp4': 'video/mp4'  
};
  1. Перевірте обмеження на завантаження медіа
Максимум 4 зображення на твіт  
Тільки 1 відео на твіт  
Максимальний розмір відеофайлу: 512МБ  
Підтримувані формати зображень: JPG, PNG, GIF  
Підтримуваний формат відео: MP4
  1. Використовуйте резидентні IP-адреси, якщо та коли масштабуєте
  2. Створюйте тимчасові акаунти або купуйте акаунти, якщо це необхідно.

DONTs

  1. Хоча є опція, НЕ використовуйте власну функцію fetch, створюючи екземпляр Scraper. Якщо ви не знаєте, що робите, і не розумієте, як працює цей механізм, краще залиште цю опцію недоторканою. Передавання власної функції fetch може призвести до моментальних обмежень по запитах після кількох сотень зібраних твітів.

  2. Не використовуйте дані вашого особистого акаунта, якщо ви не готові втратити акаунт у разі блокування, обмеження чи перманентного бану.

  3. Не використовуйте однакові облікові дані для акаунтів в різних регіонах, країнах тощо через VPN чи проксі.
    Це значно збільшує ймовірність того, що ваш акаунт буде заблоковано.

  4. Не використовуйте облікові дані на хмарних платформах, таких як AWS, GCP, Azure, DigitalOcean, Hetzner тощо. IP-адреси цих постачальників добре відомі, і значна активність акаунта з таких IP, ймовірно, призведе до перевірки, обмеження запитів або блокування акаунта.

Тепер, коли ви ознайомилися з рекомендаціями DOs та DONTs для збору твітів за допомогою найгарячішої бібліотеки на сьогодні, ПОКИДАЙТЕ І ПОЧИНАЙТЕ ЗБИРАТИ ТВІТИ для ваших RAGs, LLMS тощо.

Щасливого збору в 2025 році. Відгуки про те, що працює, та будь-які хаки для вищеописаного — вітаються. Допоможіть побудувати базу знань для ваших спів-зібраць!

Ми — Simplr.sh | Все про веб, але просто Simplr!

Знайдіть нашу Open Source роботу @ https://github.com/simplr-sh

Перекладено з: DOs & DONTs for Twitter Scraping 2025

Leave a Reply

Your email address will not be published. Required fields are marked *