Банер для збору твітів
З початку 2025 року найкращим безкоштовним інструментом для збору твітів з X (колишній Twitter) здається agent-twitter-client
від команди, що стоїть за ElizaOS та ai16z.
Цей інструмент не вимагає API ключів і не має видимих обмежень по кількості запитів для багатьох операцій на активному клієнті Twitter, що виглядає як вигідна ситуація для всіх учасників! Ну… може, не для X 😅.
Перегляд README.md файлу надає цілу купу інформації про доступні функції та найкращі способи їх використання для досягнення очікуваних результатів.
Налаштуйте змінні середовища для автентифікації.
TWITTER_USERNAME= # Ім’я користувача акаунта
TWITTER_PASSWORD= # Пароль акаунта
TWITTER_EMAIL= # Електронна пошта акаунта
PROXY_URL= # HTTP(s) проксі для запитів (необхідно для браузерів)
# Ключі для доступу до Twitter API v2 для роботи з твітами та опитуваннями
TWITTER_API_KEY= # Ключ API Twitter
TWITTER_API_SECRET_KEY= # Секретний ключ API Twitter
TWITTER_ACCESS_TOKEN= # Токен доступу до Twitter API v2
TWITTER_ACCESS_TOKEN_SECRET= # Секрет токена доступу до Twitter API v2
Для операцій тільки для читання достатньо вказати лише поля TWITTER_USERNAME
, TWITTER_PASSWORD
та TWITTER_EMAIL
. Інші змінні середовища не потрібно навіть вказувати.
Щоб ефективно використовувати цей інструмент у ваших скриптах, ботах, збирачах даних тощо, ознайомтесь з рекомендаціями DOs & DONTs.
DOs
-
Кешуйте cookies, як зазначено в README, де б ви не запускали застосунок. Старайтеся уникати множинних запитів на вхід у ваші скрипти. Кожен запит буде видимий на вашій сторінці X.
-
Між запитами можуть бути довгі паузи, особливо при зборі більше ніж 100,000 твітів. Інструмент збирає 20 твітів за раз. Але в залежності від кількості твітів, яку ви вказали в параметрах, він буде циклічно виконувати запити і забезпечить збір максимального числа твітів. Чекайте, поки інструмент не перезапуститься.
-
Умовні пошуки можливі, але вони повертають максимум 50 твітів, навіть якщо передати більшу кількість як параметр. Шукайте слова, а не намагайтеся виконати пошук за кількома співпадіннями чи патернами.
-
Метод пошуку твітів є
AsyncGenerator
. Щоб отримати бажані твіти, використовуйте наступний синтаксис.
https://github.com/elizaOS/agent-twitter-client/issues/24
const mentions = this.scraper.searchTweets(
'#nodejs', 20, SearchMode.Latest
);
for await (const mention of mentions) {
console.log(mention);
};
-
Передавайте відповідний
SearchMode
у ваших запитах. -
ЧИТАЙТЕ ЧОРТОВУ ІНСТРУКЦІЮ!
-
Перевірте підтримувані типи медіа
// Формати зображень та їх MIME типи
const imageTypes = {
'.jpg': 'image/jpeg',
'.jpeg': 'image/jpeg',
'.png': 'image/png',
'.gif': 'image/gif'
};
// Формат відео
const videoTypes = {
'.mp4': 'video/mp4'
};
- Перевірте обмеження на завантаження медіа
Максимум 4 зображення на твіт
Тільки 1 відео на твіт
Максимальний розмір відеофайлу: 512МБ
Підтримувані формати зображень: JPG, PNG, GIF
Підтримуваний формат відео: MP4
- Використовуйте резидентні IP-адреси, якщо та коли масштабуєте
- Створюйте тимчасові акаунти або купуйте акаунти, якщо це необхідно.
DONTs
-
Хоча є опція, НЕ використовуйте власну функцію
fetch
, створюючи екземпляр Scraper. Якщо ви не знаєте, що робите, і не розумієте, як працює цей механізм, краще залиште цю опцію недоторканою. Передавання власної функціїfetch
може призвести до моментальних обмежень по запитах після кількох сотень зібраних твітів. -
Не використовуйте дані вашого особистого акаунта, якщо ви не готові втратити акаунт у разі блокування, обмеження чи перманентного бану.
-
Не використовуйте однакові облікові дані для акаунтів в різних регіонах, країнах тощо через VPN чи проксі.
Це значно збільшує ймовірність того, що ваш акаунт буде заблоковано. -
Не використовуйте облікові дані на хмарних платформах, таких як AWS, GCP, Azure, DigitalOcean, Hetzner тощо. IP-адреси цих постачальників добре відомі, і значна активність акаунта з таких IP, ймовірно, призведе до перевірки, обмеження запитів або блокування акаунта.
Тепер, коли ви ознайомилися з рекомендаціями DOs та DONTs для збору твітів за допомогою найгарячішої бібліотеки на сьогодні, ПОКИДАЙТЕ І ПОЧИНАЙТЕ ЗБИРАТИ ТВІТИ для ваших RAGs, LLMS тощо.
Щасливого збору в 2025 році. Відгуки про те, що працює, та будь-які хаки для вищеописаного — вітаються. Допоможіть побудувати базу знань для ваших спів-зібраць!
Ми — Simplr.sh | Все про веб, але просто Simplr!
Знайдіть нашу Open Source роботу @ https://github.com/simplr-sh
Перекладено з: DOs & DONTs for Twitter Scraping 2025