1
投票
3答案
131 次观看

如何从各种来源检测表格数据

在一个正在进行的实验项目中,我希望能够查看文本数据并检测其是否包含表格格式的数据。当然,有很多情况看起来像表格数据,所以我想知道我需要研究哪种算法来寻找共同特征。 我的第一个想法是编写一个长的switch / case语句,该语句检查由制表符分隔的数据,然后检查由管道符号分隔的数据的另一种情况,然后再以其他方式分隔的数据等的另一种情况,等等。现在当然我意识到我必须要列出一系列要检测的不同事物,但是我想知道是否有比对每种类型进行相对缓慢的搜索更智能的方法来检测这些特征。 我意识到这个问题并不是特别雄辩,所以我希望它有意义。 有什么想法吗? (也不知道如何标记该标签-欢迎提供帮助!)

0
投票
1答案
1821 次观看

使用NLTK进行分块/文本解析

我正在尝试解析一些文本并将其绘制成图表,就像您要造句一样。我是NLTK的新手,正在尝试在NLTK中寻找一些可以帮助我完成此任务的方法。到目前为止,我已经看到了nltk.ne_chunk和nltk.pos_tag。我发现它们不是很有帮助,并且找不到任何好的在线文档。 我也曾尝试使用LancasterStemmer,但我不完全了解它的用途,应如何使用或为何存在。 有人可以帮我这个忙吗?我真的很茫然,在没有任何指路灯的情况下感到非常沮丧。 预先感谢

0
投票
3答案
1118 次观看

使用streamreader读取包含此“ //”的行?

读取文本文件,该文件的任何行均从“ //”开始,省略此行并移至下一行。 输入文本文件具有一些单独的分区。逐行查找过程和此标记。

1
投票
3答案
149 次观看

使用PHP确定短文本(500到1000个单词)中提到的位置

我想找到一种方法来获取一段用户提供的文本,并确定文本中提到了地图上的哪些地址。我很乐意使用免费的Web服务(如果存在)或使用不会消耗太多资源的脚本。 我能想到的一种方法是建立一个巨大的数据库,用于在文本中单独寻址和搜索每个数据库,但这似乎并不高效。有没有可以建议的更好的算法或技术? 我的基本想法是获取位置信息,并将其转换为Google Map上的标记。如果很难自动确定位置或占用大量CPU资源,我可能会要求用户在必要时在位置字段中添加信息,但我不希望这样做,因为有些用户将是很小的学生。> 这需要使用PHP来完成,因为这是学校托管服务器上可用的脚本语言。 请注意,整个设置将在D...

7
投票
6答案
10541 次观看

如何使用正则表达式进行Erlang模式匹配?

当我编写用于文本分析的Erlang程序时,我经常遇到我希望使用正则表达式进行模式匹配的情况。 例如,我希望我可以做这样的事情,其中​​〜是一个“组成的”正则表达式匹配运算符: my_function(String ~ ["^[A-Za-z]+[A-Za-z0-9]*$"]) -> .... 我知道正则表达式模块(re),但是AFAIK不能在模式匹配时或在守卫中调用函数。 此外,我希望匹配字符串可以不区分大小写的方式完成。这很方便,例如,在解析HTTP标头时,我很想做这样的事情,其中​​“ Str〜{Pattern,Options}”表示“使用选项Options...

32
投票
9答案
30665 次观看

Python解析括号中的块

用Python解析匹配括号中包含的文本块的最佳方法是什么? "{ { a } { b } { { { c } } } }" 最初应该返回: [ "{ a } { b } { { { c } } }" ] 将其作为输入应返回: [ "a", "b", "{ { c } }" ] 应返回: [ "{ c }" ] [ "c" ] []

8
投票
7答案
5043 次观看

Java字符串解析-{k1 = v1,k2 = v2,...}

我有以下字符串,可能包含约100个条目: String foo = "{k1=v1,k2=v2,...}" ,我希望编写以下功能: String getValue(String key){ // return the value associated with this key } 我希望不使用任何解析库来执行此操作。有什么快速的想法吗?

0
投票
1答案
6799 次观看

Oracle PL / SQL中的正则表达式捕获组

我正在尝试将自由格式的文本转换为更结构化的文本。我有一个复杂的模式,该模式与可用数据的绝大多数(远高于可接受的最小限制)相匹配,并且我想用它来帮助构造数据,而不是逐个字符地解析文本。我刚遇到的问题是Oracle似乎没有任何处理捕获组的方法(除非我以某种方式错过了它?)。 例如,我的表达式有很多命名的捕获组,例如((?<runit_ID>\d+)-)和(STAT_N|STTN|STAT|STN) ?(?<STAT>\w+)。代码库完全用PL / SQL编写,因此我不能使用C#或其他名称来引用捕获组。人们如何在PL / SQL中解决此问题?

1
投票
2答案
139 次观看

Replacing text function in php

I want to clean up some parsed text such as \n the said \r\n\r\n\r\n I look in your eyes my dear\r\n\r\nI see green rolling Forests\r\n\r\nI see the far away Sky\r\n\r\nThey turn into the rain\r\n\r\n\r\nI see high soaring eagles... more\n So I want to get rid of the "\n", "\r\n", "\r\n\r\n", "...

1
投票
3答案
2114 次观看

Format ParseException with JavaCC

I was wondering how could it be possible to format in a human-readable format a ParseException thrown by JavaCC: in fact it includes fields such asbeginLine, beginColumn, endColumn, endLine in the token reference of the exception, but not the reference to the source parsed. Thanks! :)

1
投票
3答案
352 次观看

SimpleParse non-deterministic grammar until runtime

I'm working on a basic networking protocol in Python, which should be able to transfer both ASCII strings (read: EOL-terminated) and binary data. For the latter to be possible, I chose to create the grammar such that it contains the number of bytes to come which are going to be binary. For Simpl...

4
投票
4答案
5085 次观看

Simple get string (ignore numbers at end) in C#

I figure regex is overkill also it takes me some time to write some code (i guess i should learn now that i know some regex). Whats the simplest way to separate the string in an alphanumeric string? It will always be LLLLDDDDD. I only want the letters(l's), typically its only 1 or 2 letters.

0
投票
3答案
1954 次观看

C# - Trimming string from first null terminator and onwards

I have a C# string "RIP-1234-STOP\0\0\0\b\0\0\0???|B?Mp?\0\0\0" returned from a call to a native driver. How can I trim all characters from first null terminator '\0\ onwards. In this case, I just would like to have "RIP-1234-STOP". Thanks.

1
投票
4答案
476 次观看

What is a Surefire way to get a string Word Count in C#

I am not sure how to go about this. Right now I am counting the spaces to get the word count of my string but if there is a double space the word count will be inaccurate. Is there a better way to do this?

1
投票
2答案
1024 次观看

How to find Title case phrases from a passage or bunch of paragraphs

How do I parse sentence case phrases from a passage. For example from this passage Conan Doyle said that the character of Holmes was inspired by Dr. Joseph Bell, for whom Doyle had worked as a clerk at the Edinburgh Royal Infirmary. Like Holmes, Bell was noted for drawing large conclusions from...

1
投票
2答案
920 次观看

Parse 'family' names into people + last name with regex

Given the following string, I'd like to parse into a list of first names + a last name: Peter-Paul, Mary & Joël Van der Winkel (and the simpler versions) I'm trying to work out if I can do this with a regex. I've got this far (?:([^, &]+))[, &]*(?:([^, &]+)) But the problem her...

2
投票
3答案
3605 次观看

Character strings in Fortran: Portable LEN_TRIM and LNBLNK?

I need a portable function/subroutine to locate the position of the last non-blank character in a string. I've found two options: LEN_TRIM and LNBLNK. However, different compilers seem to have different standards. The official documentation for the following compilers suggests that LEN_TRIM i...

1
投票
3答案
2255 次观看

How can I split out individual column values from each line in a text file?

I have lines in an ASCII text file that I need to parse. The columns are separated by a variable number of spaces, for instance: column1 column2 column3 How would i split this line to return an array of only the values? thanks

3
投票
1答案
632 次观看

library to parse a relative date (like google calendar can) in c#

I'm asking the same question as this: How can I parse relative dates with Perl? but in C#. Sorry if this is a duplicate, ill delete if so. Does such a library exist? Thanks

22
投票
2答案
5738 次观看

Create Great Parser - Extract Relevant Text From HTML/Blogs

I'm trying to create a generalized HTML parser that works well on Blog Posts. I want to point my parser at the specific entrie's URL and get back clean text of the post itself. My basic approach (from python) has been to use a combination of BeautifulSoup / Urllib2, which is okay, but it assumes ...

1
投票
5答案
336 次观看

大型文件的文字分析

我有一个项目,需要将多章文档与第二个文档进行比较以确定它们的相似性。问题是我不知道该如何去做,存在什么方法或者它们是否有可用的库。 我的第一个问题是...相似之处是什么?匹配的单词数,匹配的连续单词数? 我可以看到编写一个解析器,将每个文档的单词和位置放入一个数组,然后进行比较。 我看到了前面的问题 用于文本分析的算法或库,特别是:优势词,跨文本的短语和文本的集合 但是,这似乎与我要尝试的有所不同。 人们可能拥有的任何选项或指针都很棒!

12
投票
13答案
1276 次观看

Code Golf:从文本快速构建关键字列表,包括实例数

我已经使用PHP为自己制定了该解决方案,但是我很好奇如何可以以不同的方式实现-甚至更好。我主要感兴趣的两种语言是PHP和Javascript,但我想了解一下今天还可以用任何其他主要语言(主要是C#,Java等)来完成这种语言的速度。 仅返回出现次数大于X的单词 仅返回长度大于Y的单词 忽略常见的术语,例如“ and,is,the等” 在处理之前随意删除标点符号(即“约翰的”变成“约翰”) 返回结果的集合/数组 额外信用 将引用的语句保持在一起(例如,“它们显然'太好了以至不真实'”)其中“太好了而又不为真实”将是实际的声明 额外功劳 您的脚本是否可以根据单词被发现在...

0
投票
8答案
404 次观看

有没有一种聪明的方法可以将纯文本列表解析为HTML?

问题:是否有聪明的方法将纯文本列表解析为HTML? 或者,我们必须诉诸于深奥的递归方法,还是纯粹的蛮力? 我一直想知道这已经有一段时间了。在我自己的思考中,我一次又一次地回到了蛮力和奇怪的递归方法……但是,总是显得很笨拙。必须有更好的方法,对吧? 那聪明的方法是什么? 假设 有必要设置一个方案,所以这是我的假设。 列表可以嵌套至少3个深度(无序列表或有序列表)。列表类型和深度由其前缀控制: 前缀后面有一个必填空格。 列表深度由前缀中有多少个非空格字符控制; *****将嵌套五个列表。 列表类型由字符类型强制执行,*或-是无序列表,#是无序列表。 项目之间仅用1 ...

76
投票
43答案
14871 次观看

评估一串简单的数学表达式

挑战 这是我自己的发明所面临的挑战,尽管如果它以前出现在网络上的其他地方,我也不会感到惊讶。 编写一个需要一个函数的函数 这是一个论点 简单字符串的表示形式 数学表达式和求值 它作为浮点值。一种 “简单表达”可以包括以下任何一种 以下内容:正面或负面 十进制数字, + ,-, * , / ,(,)。 表达式使用(正常)中缀符号。 运营商应在 它们出现的顺序,即 not BODMAS , 虽然括号应该正确 观察,当然。该函数应返回 any 可能表达式的正确结果 这种形式。但是,该功能没有 处理格式错误的表达式(...

1
投票
2答案
1319 次观看

str.find()遇到问题

我正在尝试使用str.find(),并且不断出现错误,我在做什么错了? import codecs def countLOC(inFile): """ Receives a file and then returns the amount of actual lines of code by not counting commented or blank lines """ LOC = 0 for line in inFile: if line.is...

1
投票
5答案
4583 次观看

跳过一些内容在C#中解析文本文件

我正在尝试解析具有标题和正文的文本文件。在此文件的标题中,有引用到正文各部分的行号。例如: SECTION_A 256 SECTION_B 344 SECTION_C 556 这意味着SECTION_A从256行开始。 将标题解析为字典,然后在必要时阅读各节的最佳方法是什么。 典型的情况是: 解析标题并只读SECTION_B部分 解析标题并阅读每个部分的第一段。 数据文件很大,我绝对不希望将所有文件加载到内存中然后对其进行操作。 感谢您的建议。我的环境是VS 2008和C#3.5 SP1。

0
投票
1答案
1023 次观看

如何对一个单元格中的文本中的数字求和?

我有一张Excel工作表 要求是对“ C”列中的单元格中的数字求和,并将值放入“ B”列中的相应单元格中(在我的示例中为0.25 + 1 + 0.25 + 1 = 2.5)。 “ C”列中的值可能会更改。要求是在“ C”列中的单元格更改后立即更新“ B”中的值。 我确实要求创建者将文本和数字更改为两个不同的列,但这由于标准模板而不能接受。

6
投票
4答案
13039 次观看

使用OCR的PDF文本提取方法

有人尝试使用OCR库和Java从PDF提取文本吗?您发现什么是最可靠的文本提取库。我见过的大多数方法(tesseract,GOCR)都是C库,需要编写一些JNI代码。 我熟悉pdfbox,它现在是Apache孵化器项目,版本为0.8.x,但是它的文本提取并不总是准确的。我正在寻找一种更可靠的替代方法。 在尝试过程中,我还没有尝试过Asprise JavaPDF,但想进一步了解OCR方法(如果可能)。 任何帮助将不胜感激。

21
投票
13答案
27150 次观看

如何检测文本文件中使用了哪个定界符?

我需要能够解析CSV和TSV文件。我不能依靠用户知道区别,所以我想避免要求用户选择类型。有没有一种简单的方法来检测使用哪个定界符? 一种方法是读取每一行,计算制表符和逗号,然后找出每行中最一致使用的标签。当然,数据可能包含逗号或制表符,因此说起来容易做起来难。 编辑:该项目的另一个有趣方面是,当我读入文件时,我还需要检测文件的架构,因为它可能是其中的许多。这意味着在解析之前,我将不知道有多少字段。

5
投票
6答案
9596 次观看

字符串解析,提取数字和字母

解析字符串并提取数字和字母的最简单方法是什么?我有可以采用以下格式(数字或字母或数字)的字符串,即“ 10A”,“ B5”,“ C10”,“ 1G”等。 我需要提取两个部分,即“ 10A”->“ 10”和“ A”。 更新:感谢大家提供的所有出色答案