- Как получить выборки? Через поиск твитов, содержащих ключевые слова RealMadrid и AtleticoMadrid?
Для получения выборок следует делать поисковые запросы по ключевым словам. Вам достаточно иметь одну одну выборку по каждому ключевому слову.
- 5000 это суммарная длина обоих выборок, содержащих ключевые слова?
5000 - длина одной выборки. Длина выбрана из соображений максимальной пропускной способности поиска через Twitter API
-
В моей выборке большое количество одинаковых твитов. Что делать? - Есть различные варианты решения проблемы:
- Взять выборку из твиттера длиной 5000 с помощью множественных запросов, сказать, что она грязная, отфильтровать перед анализом.
- Взять выборку из твиттера длиной 5000 с помощью множественных запросов через некоторую временную дельту.
- Воспользоваться TwitterStream API.
-
Для чего в задании упоминается информация о языке твита? Каким образом он должен использоваться?
Twitter4j выдает результат поискового запроса набор объектов Status (http://twitter4j.org/javadoc/twitter4j/Status.html)
Интерфейс Status реализует метод getLang() (http://twitter4j.org/javadoc/twitter4j/Status.html#getLang--)
Подразумевается, что говорящиий на языке L пользователь
== status.getLang().equals(L)
- Правильно ли я понимаю, что метод equals должен быть один и возвращать True, когда оба поля совпадают? Есть ли какие-то конкретные требования для прототипа(ов) comparator'а(ов)?
Метод equals должен переопределять соответствующий метод класса Object (или, возможно, другого суперкласса) - он должен быт единственным.
На семинаре упоминалось, о взаимосвязи между методами equals и hashcode (The general contract of hashCode: https://docs.oracle.com/javase/7/docs/api/java/lang/Object.html)
Comparator'ы должны в общем случае вводить total ordering
на множестве. Будет ли фактически comparator реализовывать оператор <
или >
остается на ваш выбор. Подробнее о компараторах: https://docs.oracle.com/javase/7/docs/api/java/util/Comparator.html
- Правильно ли я понимаю, что суть задания в том, чтобы собрать данные из твиттера, а для анализа полученных данных можно использовать любой другой инструмент, например, Python?
Суть задания в том, чтобы реализовать контейнер для твитов и интеграцию с Twitter API на языке Java. Подразумевается, что набора методов из интерфейса TweetsContainer вам должно хваитить для анализа.
- Как удостовериться в том, что мой
maven проект
подходит для сдачи
У вас должна работать консольная команда mvn clean compile
, в результате выполнения которой будут загружены все используемые проектом пакеты