Анализ данных, содержащихся в файле Excel

Я использую компьютеры около 16 лет, никогда не использовал Excel или подобное программное обеспечение, может быть, один раз. Итак, мои знания Excel равны 0. Может быть, то, о чем я собираюсь спросить, легко, а может и нет. Первая часть вопроса:

У меня есть большой файл excel, который я редактирую в Gnumeric, а также есть офис kingsoft, который выглядит так

введите описание изображения здесь

Меня интересует cloumn D, E, F, G, H, I. Каждый ранг представляет собой последовательность.

3,4,6,12,16,19является последовательностью. 1,6,21,24,38,42другая последовательность.

Я хочу сравнить эти последовательности и посмотреть, повторяется ли последовательность более одного раза. Порядок не имеет значения. например 3,4,6,12,16,19, это та же последовательность, что и 19,4,6,12,16,3, это дубликат.

Я хочу представить их в диаграмме, которая выделяет дубликаты и, если возможно, даты создания повторяющейся последовательности. Даты указаны в столбце Bи C.

Я использую Xubuntu 14.04 64 бит.

  • Меня не волнует используемый инструмент, может быть, мне нужно загрузить другое программное обеспечение или использовать веб-службу, или, может быть, это может быть связано с Gnumeric.
  • Я бы предпочел, чтобы окончательный результат, включая диаграмму, можно было экспортировать во что-то вроде XML, потому что мне все еще нужно его отсортировать, используя python, это вторая часть вопроса, я не буду спрашивать об этом сейчас, я не хочу усложнить вопрос. Я просто хочу, чтобы результат был в файле, которым можно легко манипулировать с помощью языков программирования.
  • Используемый инструмент должен быть бесплатным.
  • Я предпочитаю не использовать программное обеспечение Microsoft, работающее на Wine, ни программное обеспечение Linux, ни веб-сервисы.
Вторую часть могу спросить позже, здесь или на Programers.SE, так как она больше о программировании
Я в замешательстве. Вы действительно используете Microsoft-Excel ? Если нет, пожалуйста, удалите тег.
@moose, я не использую Excel, но файл, с которым я работаю, создан в Excel
Вы можете экспортировать его в CSV и использовать Python для остального. См. docs.python.org/2/library/csv.html .

Ответы (3)

Поскольку вы все равно окажетесь на python, почему бы просто не прочитать файл Excel напрямую, используя python, и не выполнить там любую обработку, которую вы хотите? Я все время использую xlrd для python, и он отлично работает.

http://installion.co.uk/ubuntu/saucy/universe/p/python-xlrd/install.html

Не специфично для xubuntu, но должно быть достаточно близко

да, это то, о чем я думал, прежде чем задавать этот вопрос, но я все равно спросил, думая, что задача, которую я должен выполнить, может быть выполнена из Excel или чего-то еще без использования Python. И мне сказали использовать csv, что означает numpy + matplotlib
Итак, я ухожу от темы, но я думаю, что это всего лишь комментарий, так что, может быть, все в порядке. Наверное, я не совсем понимаю требования. Если вам нужно закончить с CSV, я бы все равно использовал python для полдюжины строк обработки, которые потребуются для поиска дубликатов, а затем просто запишите его как CSV. Если вам нужно получить отформатированный Excel, я бы сделал то же самое, но создал файл с помощью xlwt или, может быть, просто для сортировки с помощью python, а затем вернул данные.

Определенно, это больше о программировании.
Когда вам нужно из программы - экспортировать данные (таблицу) в CSV (в общем, это просто строки, разделенные запятыми).
Большинство табличных процессоров могут экспортировать в CSV и импортировать CSV.

Согласно документам Gnumeric (ниже таблицы примечание)

Files in the file formats marked as Save/Open can be opened or saved with the  
Open, Save, and Save As menu items in the File menu. Files in the file formats  
marked as Import/Export can be imported or exported with the items on the Import  
Data and Export Data submenus of the Data menu.

После экспорта в CSV данные можно обработать скриптом – сгенерировать еще один CSV-файл, который можно импортировать обратно в программу.

Хорошо, я посмотрю, как это работает, когда доберусь до своего ноутбука. Я использую приложение для Android сейчас

Вы можете работать с Excel без навыков программирования!

  1. Сделайте 6 новых столбцов, напримерAA1...AF1

  2. Отсортируйте шесть значений D, E, F, G, H, I: сделайте AA1минимум с помощью =SMALL(D1:I1,1), AB1второй минимум с =SMALL(D1:I1,2)и так далее.

  3. Затем сделайте AG1конкатенированную последовательность с= AA1 & "-" & AB1 & "-" & ...

  4. После этого вы можете отсортировать лист Excel по значениюAG1

  5. Найти дубликаты легко с помощью формулы в столбце AH, например. для AH40:=IF(AG39<>AG40;"";"duplicate")

Надеюсь, ты понял. Веселиться!